<conference paper>
Proposal of Layout Tree of Web Page as Description of Visual Blocks

Creator
Language
Publisher
Date
Source Title
Vol
Issue
First Page
Last Page
Conference
Publication Type
Access Rights
Rights
Related DOI
Related URI
Relation
Abstract When extracting information from a web page, IE systems usually need to perform pattern recognition to identify the elements that have similar patterns. However, most of them are mainly based on analy...zing HMTL source code, DOM tree, tag tree or Xpath of web pages. These methods are language-dependent, or more precisely, HTML-dependent. They have some insuperable limitations. In order to overcome these limitations, we propose a notion of layout-tree and a pattern recognition method to identify visual blocks with similar visual pattern using layout tree. In this paper, we call a visible rectangular region in a web page a visual block or block for short. We consider if the elements of two blocks are displayed in a similar layout, we define that the two blocks are visually similar. We first transform the layout into a layout tree. By calculating the similarity of the layout trees of two blocks, we can determine whether the two blocks are visually similar or not.
ウェブページに対する情報抽出には類似する要素を抜き出すためにパターン認識が行われている。しかし、従来の手法にはHTMLファイルのソースコードを分析することにより要素を抽出する方法が多い。これらの手法は言語依存であるので、克服できない欠点がある。本論文ではレイアウトツリーという視覚的に類似する特徴を持つページブロックを認識する方法と提案する。本稿でウェブページで各要素が表示される長方形領域をビジュアルブロックと言う。これらのブロックに含まれる要素が表示される相対位置をレイアウトツリーとして表す。2つのブロックのレイアウトツリーの類似度によりこの2つのブロックの相似度を求める。
show more

Hide fulltext details.

pdf hirokawa_84 pdf 381 KB 269  

Details

Record ID
Notes
Created Date 2015.04.20
Modified Date 2023.08.17

People who viewed this item also viewed