<conference paper>
総出現数による文字列の頻出パタンマイニングと共通パタン発見への応用

Creator
Language
Date
Source Title
First Page
Last Page
Publication Type
Access Rights
Related DOI
Related URI
Relation
Abstract 本稿では、文字列の集合が与えられた時、頻出する文字列パタンを探す頻出パタンマイニングの新たな枠組みとマイニングアルゴリズムを提案する。提案する枠組みの特徴は、頻度による部分文字列の表現方法と総出現数による高頻度・低頻度の峻別にある。つまり、アルゴリズムはある頻度f回出現する全ての部分文字列をまとめてfにより表し、また、頻度fの大小により頻出か否かを判断するのではなく、f回出現する部分文字列の総出現...数F(f)を用いて高頻度と低頻度を峻別する。そのため、通常の頻出パタンマイニングでは枝刈り及び頻出パタンの評価に用いられる最小サポート等のしきい値は不要で、特異的に頻出するパタンを発見可能である。頻出パタンとして様々なパタンが考えられるが、本稿では最も基本的な部分文字列を考え、頻出部分文字列の集合を発見する線形時間アルゴリズムを与える。このアルゴリズムを情報抽出におけるテンプレートの特定問題へ応用し、様々な言語の実データを用いた実験を行なう。特に、複数の言語で記述されたファイルを同時に与えても、問題なくテンプレートが特定できることを示す。show more

Hide fulltext details.

pdf DM2004 pdf 276 KB 575  

Details

Record ID
Peer-Reviewed
Subject Terms
Notes
Type
Created Date 2009.04.22
Modified Date 2020.10.13

People who viewed this item also viewed