既存の電子化辞書と新聞記事コーパスを用いた並列知識獲得法の研究

閲覧数: 3
ダウンロード数: 0
このエントリーをはてなブックマークに追加

既存の電子化辞書と新聞記事コーパスを用いた並列知識獲得法の研究

フォーマット:
助成・補助金
Kyushu Univ. Production 九州大学成果文献
責任表示:
峯 恒憲(九州大学・理学部・講師)
本文言語:
日本語
研究期間:
1995
概要(最新報告):
本年度は、次のことを行った。 1.新聞記事コーパスと大規模な概念辞書を利用した単語の類似度計算法の開発 2.上記手法を用いた格フレーム獲得システムの開発 3.既存の格フレームを利用した格フレーム要素獲得システムの開発 4.獲得した格フレームを評価するための並列構文解析システムの開発 昨年度から続けている単語の類似度計算法についての改良と、それを利用した格フレーム獲得法の提案、ならびに、そのシステム開発を行った。この手法は、新聞記事などの電子化された文書データから、単文の集合を抽出し、それから文の類似度を計算し、ある閾値を超えて類似していると判定された文を、同じ集合に入れて分類する。そして、その集合を代表する構造を、格フレームとするものである。 ある文1と文2の類似性を計算するために、それぞれの文中の対応する格要素間の類似度を概念辞書とコーパスから獲得したデータを利用して計算するが、この時、20万文以上の規模を持つ品詞や概念識別などが人手で付けられたEDRコーパスと、多数の人間が開発に関わって作成された40万概念以上の規模を持つEDR概念辞書を利用した。しかし、この規模でさえ、実際の解析において利用した文の解析に必要となる知識をカバーできず、それゆえ、解析精度が50〜60%程度にしかならないことが分かった。特に、慣用表現や抽象的な表現に対して解析が失敗する傾向があり、これらを知識に表すことの難しさからあらためて認識できた。 上記の手法で利用した単文は、格要素が名詞単体+助詞の構造を持つもので、かつ、動詞が文の最後に来るもの(つまり、動詞が支配する格要素への連体修飾などを含まない文)であり、また、同じ名詞を含まないものに限っていたため、実際の文章中から抽出できる実験に使用する単文は、基となる文章の量に比べて非常に少なくなった。そのため、現在、格要素が複合名詞や、文や句を含む形のものや、連体修飾形を含む形、受身や使役形を扱って単文を抽出するシステムを開発するとともに、獲得した単文から、意味ネットワークを自動構成する方法も同時に開発している。 続きを見る
本文を見る

類似資料:

4
並列知識獲得システムの開発 by 宮野 悟; MIYANO Satoru
4.
並列知識獲得システムの開発 by 宮野 悟; MIYANO Satoru