総出現数による文字列の頻出パタンマイニングと共通パタン発見への応用 - Collections | Kyushu University Library

Back to Results List

＜conference paper＞
総出現数による文字列の頻出パタンマイニングと共通パタン発見への応用

Creator	Creator Name 池田, 大輔 Ikeda, Daisuke イケダ, ダイスケ Affiliation Affiliation Name 九州大学附属図書館 Kyushu University Library
Creator	Author PID L002646 Creator Name 山田, 泰寛 Yamada, Yasuhiro ヤマダ, ヤスヒロ Affiliation Affiliation Name 九州大学システム情報科学府 Department of Informatics, Kyushu University
Language	Japanese
Date	2004-09-30
Source Title	第4回データマイニングワークショップ
First Page	33
Last Page	40
Publication Type	Accepted Manuscript
Access Rights	open access
Related DOI	第4回データマイニングワークショップ \|\| \|\| p33-40
Related DOI	http://www.i.kyushu-u.ac.jp/index.html
Related URI	第4回データマイニングワークショップ \|\| \|\| p33-40
Related URI	http://www.i.kyushu-u.ac.jp/index.html
Relation	第4回データマイニングワークショップ \|\| \|\| p33-40
Relation	http://www.i.kyushu-u.ac.jp/index.html
Abstract	本稿では、文字列の集合が与えられた時、頻出する文字列パタンを探す頻出パタンマイニングの新たな枠組みとマイニングアルゴリズムを提案する。提案する枠組みの特徴は、頻度による部分文字列の表現方法と総出現数による高頻度・低頻度の峻別にある。つまり、アルゴリズムはある頻度f回出現する全ての部分文字列をまとめてfにより表し、また、頻度fの大小により頻出か否かを判断するのではなく、f回出現する部分文字列の総出現...数F(f)を用いて高頻度と低頻度を峻別する。そのため、通常の頻出パタンマイニングでは枝刈り及び頻出パタンの評価に用いられる最小サポート等のしきい値は不要で、特異的に頻出するパタンを発見可能である。頻出パタンとして様々なパタンが考えられるが、本稿では最も基本的な部分文字列を考え、頻出部分文字列の集合を発見する線形時間アルゴリズムを与える。このアルゴリズムを情報抽出におけるテンプレートの特定問題へ応用し、様々な言語の実データを用いた実験を行なう。特に、複数の言語で記述されたファイルを同時に与えても、問題なくテンプレートが特定できることを示す。show more

Hide fulltext details.

File	FileType	Size	Views	Description
DM2004	pdf	276 KB	606

Details

Record ID	6075
Peer-Reviewed	Unrefereed
Subject Terms	テキストマイニング
Subject Terms	Text Mining
Notes	第4回データマイニングワークショップ, September 2004.
Type	会議発表論文
Created Date	2009.04.22
Modified Date	2020.10.13