<会議発表論文>
レイアウトツリーによるウェブページビジュアルブロック表現方法の提案

作成者
本文言語
出版者
発行日
収録物名
開始ページ
終了ページ
会議情報
出版タイプ
アクセス権
権利関係
関連DOI
関連URI
関連情報
概要 When extracting information from a web page, IE systems usually need to perform pattern recognition to identify the elements that have similar patterns. However, most of them are mainly based on analy...zing HMTL source code, DOM tree, tag tree or Xpath of web pages. These methods are language-dependent, or more precisely, HTML-dependent. They have some insuperable limitations. In order to overcome these limitations, we propose a notion of layout-tree and a pattern recognition method to identify visual blocks with similar visual pattern using layout tree. In this paper, we call a visible rectangular region in a web page a visual block or block for short. We consider if the elements of two blocks are displayed in a similar layout, we define that the two blocks are visually similar. We first transform the layout into a layout tree. By calculating the similarity of the layout trees of two blocks, we can determine whether the two blocks are visually similar or not.
ウェブページに対する情報抽出には類似する要素を抜き出すためにパターン認識が行われている。しかし、従来の手法にはHTMLファイルのソースコードを分析することにより要素を抽出する方法が多い。これらの手法は言語依存であるので、克服できない欠点がある。本論文ではレイアウトツリーという視覚的に類似する特徴を持つページブロックを認識する方法と提案する。本稿でウェブページで各要素が表示される長方形領域をビジュアルブロックと言う。これらのブロックに含まれる要素が表示される相対位置をレイアウトツリーとして表す。2つのブロックのレイアウトツリーの類似度によりこの2つのブロックの相似度を求める。
続きを見る

本文ファイル

pdf hirokawa_84 pdf 381 KB 259  

詳細

レコードID
注記
登録日 2015.04.20
更新日 2023.08.17

この資料を見た人はこんな資料も見ています