<conference paper>
Automatic Tree and String Based Wrapper Generation for Semi-structured Documents

Creator
Language
Date
Source Title
Vol
Issue
First Page
Last Page
Publication Type
Access Rights
Rights
Related DOI
Related URI
Relation
Abstract 同種の項目を多数含む半構造化文書群から,各項目を抽出するラッパーの自動生成法を提案する. 本手法では,まず部分文字列の長さと出現頻度に基づき,半構造化文書を構造記述部分とコンテンツ 記述部分に分離する.これにより,機械学習等によるラッパー生成で必要となる人手による訓練例の 作成が不要となる.次に,対象文書を木構造として捉え,コンテンツ部分を含むノードに対するパス として抽出部分を特定するTree ...ラッパーを構成する.最後に,同じパスで特定されるノードに現れ る文字列群に対し,共通部分を特定することにより,パターンとコンテンツの境界を厳密に分離する LR ラッパーを構成する.従来のTree ラッパーで排除できなかった不要な文字列が削除できることを実験的に確認できた.
We propose an automatic wrapper generation algorithm to extract contents from semistructured documents with a lot of same items. Our wrapper is expressed by paths of the tree structure and two common delimiters surrounding the item in the path. It can extract partial strings even if a node contains useless strings. The algorithm separates a page into templates and contents using optimal cut point (n, a%), where n is the length of a substring and a is the frequency of the substring. The top a% frequent substrings with length n appear on template parts. Experiments show that the algorithm discards useless substrings which tree wrappers extract as contents.
show more

Hide fulltext details.

pdf 2003_a_3 pdf 212 KB 372 発表論文
ppt 20030929FI72Yamada ppt 317 KB 148 発表資料

Details

Record ID
Peer-Reviewed
Subject Terms
Notes
Type
Created Date 2012.03.22
Modified Date 2018.08.31

People who viewed this item also viewed