<会議発表論文>
文字列の頻度分布による共通パタン発見

作成者
本文言語
発行日
収録物名
開始ページ
終了ページ
出版タイプ
アクセス権
権利関係
関連DOI
関連URI
関連情報
概要 パタンを定数と変数からなる文字列とする。パタン中の変数を定数文字列で置きかえて得られる文 字列をそのパタンから生成される語とする。本稿では、未知のパタンから生成された語の有限集合が 与えられた時に、そのパタンの定数部分を見つける問題(テンプレート発見問題) を考察する。未知 パタンの定数部分が適当な長さを持ち、変数へ代入される定数文字列が自然な確率分布に従っている ならば、パタンから生成される語に...おいて、定数部分と変数に代入された文字列の部分文字列の出現 頻度の差を利用してテンプレートを効率よく発見できることを示す。さらに、Web 上のHTML ファ イルでの予備的な実験結果を紹介する。
A pattern is a string over constant and variable symbols. A string generated by a pattern is one obtained by replacing all variables by some constant strings. In this paper, we consider the template discovery problem which is, given a set of strings generated by some fixed but unknown pattern, to find all constant parts of the pattern. If any constant part is long enough and replacing variables follows some natural probabilistic distributions, we show that there exist an efficient algorithm for the problem, using disparity of string frequencies among constant parts and replaced parts. We also show accuracy and effectiveness by experiments by using HTML files collected from the Web.
続きを見る

本文ファイル

pdf 2003_c_2 pdf 408 KB 400 発表論文
pdf 20030928FI72 pdf 2.70 MB 321 発表資料

詳細

レコードID
査読有無
主題
注記
タイプ
登録日 2012.02.29
更新日 2018.08.31

この資料を見た人はこんな資料も見ています