n個の名詞が連接した日本語複合名詞の解析

閲覧数: 9
ダウンロード数: 0
このエントリーをはてなブックマークに追加

n個の名詞が連接した日本語複合名詞の解析

フォーマット:
助成・補助金
Kyushu Univ. Production 九州大学成果文献
責任表示:
市丸 夏樹(九州大学・大学院システム情報科学研究科・助手)
本文言語:
日本語
研究期間:
1997-1998
概要(最新報告):
1. 派生名詞・複合名詞の文法を構築 仮名漢字変換・形態素解析の高精度化のために,シソーラスと用例による手法に基づいて派生名詞・複合名詞を解析する手法を提案し,その文法を確率文脈自由文法(PCFG)で構築した.また,RWCテキストデータベースより派生名詞と複合名詞の用例を抽出し,EDR概念体系を組み込んだ大規模な文法を試作した. 2. 学習用例数の増加による認識率変動の調査 シソーラスと用例に基づく本手法において学習用例が少ない時には,一般に再現率が低く,かといってルールを一般化すると適合率が下がり,再現率と適合率のいずれか一方が従来手法(品詞や粗い意味分類レベルで連接可能性を判定するもの)より劣る場合がある.そこでどの程度用例を学習すれば従来手法を越えられるかを調査した.比較実験の内容は,新聞記事に対する1文単位の形態素解析において生じる全ての派生語候補に対する仮名漢字変換であり,様々な学習条件下で適合率と再現率の計測を行った.その結果,我々の手法が従来手法よりも優れた適合率・再現率を示すための条件は,一般化段数(ルールの抽象化)を1段程度に押さえ,少なくとも10万語以上の用例を学習することだと判明した.こうすれば,登録語と意味的にもっともらしい未登録語のみをうまく受理できるのである.また,充分に多くの用例(100万語以上)を学習した後では,むやみにルールを一般化するよりも,1段だけ一般化したルールを用いた場合に,適合率と再現率の両方で最も良い値が得られた.一方,複合名詞に関しては未だ単純な従来手法を越えるまでに至っていない.これは複合名詞の用例の量が十分でないためであると考えられる.今後は,さらなる用例の収集を計り,解析の高速化手法の研究が必要である. 続きを見る
本文を見る

類似資料:

2
The Production of Japanese Verb-Verb Compounds by English, Chinese, and Korean Speakers : A Corpus Study by Hokari, Tomohiro; Kumagami, Mai; Akimoto, Takayuki; 穂苅, 友洋; 隈上, 麻衣; 秋本, 隆之
8
日本語WordNet類義語の誤り検出 : コーパス利用の試み by 平尾, 拓也; Hirao, Takuya; 宮田, 光樹; Miyata, Kouki; 鈴木, 孝彦; Suzuki, Takahiko; 廣川, 佐千男; Hirokawa, Sachio
5
PCFGによる派生語処理手法の比較と検討 by 市丸, 夏樹; Ichimaru, Natsuki; 中村, 貞吾; Nakamura, Teigo; 日高, 達; Hitaka, Toru
11
共起制約を組み込んだ確率文法による名詞句の統語的曖昧さの解消 by 田中, 省作; Tanaka, Shosaku; 冨浦, 洋一; Tomiura, Yoichi; 日高, 達; Hitaka, Toru
2.
The Production of Japanese Verb-Verb Compounds by English, Chinese, and Korean Speakers : A Corpus Study by Hokari, Tomohiro; Kumagami, Mai; Akimoto, Takayuki; 穂苅, 友洋; 隈上, 麻衣; 秋本, 隆之
5.
PCFGによる派生語処理手法の比較と検討 by 市丸, 夏樹; Ichimaru, Natsuki; 中村, 貞吾; Nakamura, Teigo; 日高, 達; Hitaka, Toru
8.
日本語WordNet類義語の誤り検出 : コーパス利用の試み by 平尾, 拓也; Hirao, Takuya; 宮田, 光樹; Miyata, Kouki; 鈴木, 孝彦; Suzuki, Takahiko; 廣川, 佐千男; Hirokawa, Sachio
11.
共起制約を組み込んだ確率文法による名詞句の統語的曖昧さの解消 by 田中, 省作; Tanaka, Shosaku; 冨浦, 洋一; Tomiura, Yoichi; 日高, 達; Hitaka, Toru