<会議発表論文>
頻度情報を用いたWeb文書群からのテンプレート抽出

作成者
本文言語
発行日
出版タイプ
アクセス権
概要 大学のシラバスやレシピなど,Web上には同一テンプレートで記述されたページ群が多数ある.各ページ群に対するテンプレートが分かれば,ページに書かれた個別データを抽出し,データベースとしての活用が期待される.本論文では,Webページに含まれるn-gramの出現頻度情報だけを用いて効率よくテンプレートを発見するアルゴリズムを提案する.また,これを実装したシステムを用いてWeb上に存在する大学のシラバス,...検索エンジンの検索結果について行なった実験結果について報告する.
There are a lot of Web documents written with the same template. Recipes, stuff pages and syllabus pages of universities are typical examples. If we have the templates of these documents, we can extract the contents and can store them into a database. This paper proposes a template detection algorithm using the frequency of frequencies of n-grams in the documents. Experimental results are shown for series of Web documents.
続きを見る

本文情報を非表示

6-b-01 pdf 402 KB 58  

詳細

レコードID
査読有無
関連情報
主題
注記
タイプ
登録日 2009.04.22
更新日 2017.01.19