総出現数による文字列の頻出パタンマイニングと共通パタン発見への応用 - 九大コレクション | 九州大学附属図書館

＜会議発表論文＞
総出現数による文字列の頻出パタンマイニングと共通パタン発見への応用

作成者	作成者名池田, 大輔 Ikeda, Daisuke イケダ, ダイスケ所属機関所属機関名九州大学附属図書館 Kyushu University Library
作成者	著者識別子 L002646 作成者名山田, 泰寛 Yamada, Yasuhiro ヤマダ, ヤスヒロ所属機関所属機関名九州大学システム情報科学府 Department of Informatics, Kyushu University
本文言語	日本語
発行日	2004-09-30
収録物名	第4回データマイニングワークショップ
開始ページ	33
終了ページ	40
出版タイプ	Accepted Manuscript
アクセス権	open access
関連DOI	第4回データマイニングワークショップ \|\| \|\| p33-40
関連DOI	http://www.i.kyushu-u.ac.jp/index.html
関連URI	第4回データマイニングワークショップ \|\| \|\| p33-40
関連URI	http://www.i.kyushu-u.ac.jp/index.html
関連情報	第4回データマイニングワークショップ \|\| \|\| p33-40
関連情報	http://www.i.kyushu-u.ac.jp/index.html
概要	本稿では、文字列の集合が与えられた時、頻出する文字列パタンを探す頻出パタンマイニングの新たな枠組みとマイニングアルゴリズムを提案する。提案する枠組みの特徴は、頻度による部分文字列の表現方法と総出現数による高頻度・低頻度の峻別にある。つまり、アルゴリズムはある頻度f回出現する全ての部分文字列をまとめてfにより表し、また、頻度fの大小により頻出か否かを判断するのではなく、f回出現する部分文字列の総出現...数F(f)を用いて高頻度と低頻度を峻別する。そのため、通常の頻出パタンマイニングでは枝刈り及び頻出パタンの評価に用いられる最小サポート等のしきい値は不要で、特異的に頻出するパタンを発見可能である。頻出パタンとして様々なパタンが考えられるが、本稿では最も基本的な部分文字列を考え、頻出部分文字列の集合を発見する線形時間アルゴリズムを与える。このアルゴリズムを情報抽出におけるテンプレートの特定問題へ応用し、様々な言語の実データを用いた実験を行なう。特に、複数の言語で記述されたファイルを同時に与えても、問題なくテンプレートが特定できることを示す。続きを見る

本文ファイル

ファイル	ファイルタイプ	サイズ	閲覧回数	説明
DM2004	pdf	276 KB	578

詳細

レコードID	6075
査読有無	査読無
主題	テキストマイニング
主題	Text Mining
注記	第4回データマイニングワークショップ, September 2004.
タイプ	会議発表論文
登録日	2009.04.22
更新日	2020.10.13