作成者 |
|
|
本文言語 |
|
発行日 |
|
収録物名 |
|
開始ページ |
|
終了ページ |
|
出版タイプ |
|
アクセス権 |
|
関連DOI |
|
|
関連URI |
|
|
関連情報 |
|
|
概要 |
本稿では、文字列の集合が与えられた時、頻出する文字列パタンを探す頻出パタンマイニングの新たな枠組みとマイニングアルゴリズムを提案する。提案する枠組みの特徴は、頻度による部分文字列の表現方法と総出現数による高頻度・低頻度の峻別にある。つまり、アルゴリズムはある頻度f回出現する全ての部分文字列をまとめてfにより表し、また、頻度fの大小により頻出か否かを判断するのではなく、f回出現する部分文字列の総出現...数F(f)を用いて高頻度と低頻度を峻別する。そのため、通常の頻出パタンマイニングでは枝刈り及び頻出パタンの評価に用いられる最小サポート等のしきい値は不要で、特異的に頻出するパタンを発見可能である。頻出パタンとして様々なパタンが考えられるが、本稿では最も基本的な部分文字列を考え、頻出部分文字列の集合を発見する線形時間アルゴリズムを与える。このアルゴリズムを情報抽出におけるテンプレートの特定問題へ応用し、様々な言語の実データを用いた実験を行なう。特に、複数の言語で記述されたファイルを同時に与えても、問題なくテンプレートが特定できることを示す。続きを見る
|