<会議発表論文>
総出現数による文字列の頻出パタンマイニングと共通パタン発見への応用

作成者
本文言語
発行日
雑誌名
開始ページ
終了ページ
出版タイプ
アクセス権
概要 本稿では、文字列の集合が与えられた時、頻出する文字列パタンを探す頻出パタンマイニングの新たな枠組みとマイニングアルゴリズムを提案する。提案する枠組みの特徴は、頻度による部分文字列の表現方法と総出現数による高頻度・低頻度の峻別にある。つまり、アルゴリズムはある頻度f回出現する全ての部分文字列をまとめてfにより表し、また、頻度fの大小により頻出か否かを判断するのではなく、f回出現する部分文字列の総出現...数F(f)を用いて高頻度と低頻度を峻別する。そのため、通常の頻出パタンマイニングでは枝刈り及び頻出パタンの評価に用いられる最小サポート等のしきい値は不要で、特異的に頻出するパタンを発見可能である。頻出パタンとして様々なパタンが考えられるが、本稿では最も基本的な部分文字列を考え、頻出部分文字列の集合を発見する線形時間アルゴリズムを与える。このアルゴリズムを情報抽出におけるテンプレートの特定問題へ応用し、様々な言語の実データを用いた実験を行なう。特に、複数の言語で記述されたファイルを同時に与えても、問題なくテンプレートが特定できることを示す。続きを見る

本文情報を非表示

DM2004 pdf 276 KB 212  

詳細

レコードID
査読有無
関連情報
主題
注記
タイプ
登録日 2009.04.22
更新日 2017.03.09