<会議発表論文>
半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法

作成者
本文言語
発行日
収録物名
開始ページ
終了ページ
出版タイプ
アクセス権
権利関係
関連DOI
関連URI
関連情報
概要 同種の項目を多数含む半構造化文書群から,各項目を抽出するラッパーの自動生成法を提案する. 本手法では,まず部分文字列の長さと出現頻度に基づき,半構造化文書を構造記述部分とコンテンツ 記述部分に分離する.これにより,機械学習等によるラッパー生成で必要となる人手による訓練例の 作成が不要となる.次に,対象文書を木構造として捉え,コンテンツ部分を含むノードに対するパス として抽出部分を特定するTree ...ラッパーを構成する.最後に,同じパスで特定されるノードに現れ る文字列群に対し,共通部分を特定することにより,パターンとコンテンツの境界を厳密に分離する LR ラッパーを構成する.従来のTree ラッパーで排除できなかった不要な文字列が削除できることを実験的に確認できた.
We propose an automatic wrapper generation algorithm to extract contents from semistructured documents with a lot of same items. Our wrapper is expressed by paths of the tree structure and two common delimiters surrounding the item in the path. It can extract partial strings even if a node contains useless strings. The algorithm separates a page into templates and contents using optimal cut point (n, a%), where n is the length of a substring and a is the frequency of the substring. The top a% frequent substrings with length n appear on template parts. Experiments show that the algorithm discards useless substrings which tree wrappers extract as contents.
続きを見る

本文ファイル

pdf 2003_a_3 pdf 212 KB 445 発表論文
ppt 20030929FI72Yamada ppt 317 KB 171 発表資料

詳細

レコードID
査読有無
主題
注記
タイプ
登録日 2012.03.22
更新日 2018.08.31

この資料を見た人はこんな資料も見ています