<journal article>
Detecting Common Parts and Wrapper Generation for Multilingual Web Documents Using Alternation Counts(Data Mining/Data Warehousing)

Creator
Language
Publisher
Date
Source Title
Vol
Issue
First Page
Last Page
Publication Type
Access Rights
Rights
Related DOI
Related URI
Related HDL
Abstract We propose an algorithm to generate a wrapper which extracts contents of Web pages written with the same template. First, the algorithm separates each page into template and contents parts using an al...ternation count. An alternation count with respect to (n, a%) is the sum of boundaries between frequent parts and non-frequent parts, where n is the length of a substring and a is the frequency of the substring. The algorithm searches for a local minimal (n, a) of the alternation count then specifies the template parts as ones on which frequent substrings appear. Next, the algorithm determines the strings which enclose the contents assuming that the last character and the first character is one of the symbols in ">", "<", new line, tab and space. The algorithm does not use any preprocessing depending on mark-up and natural languages and knowledge for each site. Experiments show this algorithm works well for inputs written in four natural languages and markuped with HTML and XML.
本稿では,同種の項目を多数含むWebページから各項目を抽出するラッパーを自動生成するアルゴリズムを提案する.提案手法では,まず部分文字列の出現頻度に着目し,交代数という指標を用いてテンプレート部分とコンテンツ部分を識別する.部分文字列の長さnと,出現頻度の割合a%に対する交代数とは,長さnの部分文字列で頻度が上位a%以内に含まれるものが連続して出現する領域とそうでない領域の境界の総数である.提案手法では交代数が極小となる(n,a)を求め,高頻度な部分文字列の出現する領域をテンプレート部分とする.次に,テンプレートの先頭あるいは末尾の文字が">","<",改行,タブ,空白のような特徴的な文字となっていることを用い,各項目を囲む文字列の組を特定する.この文字列の組からラッパーを生成する、提案手法は自然言語やマークアップ言語に依存する前処理や,サイトごとの特別な知識を用いない.実験では,4種類の自然言語,2種類のマークアップ言語によるページ群について評価を行い,高い再現率を示すことを確認した.
show more

Hide fulltext details.

pdf hirokawa_221 pdf 240 KB 266  

Details

Record ID
Peer-Reviewed
Related URI
ISSN
NCID
Notes
Created Date 2013.12.09
Modified Date 2023.07.28

People who viewed this item also viewed