<会議発表論文>
教員データにおける高頻度語

作成者
本文言語
出版者
発行日
雑誌名
開始ページ
終了ページ
出版タイプ
アクセス権
概要 キーワードの重要度をどのように設定するかは,検索システムの実現において重要な課題 である.本稿では各大学教員が書いた研究活動概要の文書を対象として,重要なキーワードがど のようなものであるかについて,単語の出現頻度に基づき分析を行った.Web 文書のように文書 が多種多様な場合には,単純な出現頻度よりtfidf のような値が標準的に用いられる.しかし,同 種の文書群を対象とする場合には,共通に現れ...る高頻出の単語も特徴的な単語として考えなけれ ばならない.本稿では,筆者らが開発している九州大学研究者データベースに蓄積された約2000 人の教員情報を具体的対象として,単語の出現頻度,使用者数,複数回使用者数の3 つの尺度が 分野特定性の識別に有効であることを示す.
It is an important problem in the search engine how to set the degree of importance to each key word. In this report, we will analyze the frequent words that appear in the documents of outline for university researchers. We consider the DF (document frequency) and TF (term frequency) instead of other standard evaluation, e.g., tfidf. The evaluation tfidf is useful for a variety of documents like Web documents to eliminate frequent words that commonly appear in any sentences. Nevertheless, such frequent words are important to the documents in specific area as this report considers. We analyzed frequent words in documents of more than 2000 university researchers in Kyushu University.
続きを見る

本文情報を非表示

NL-166-1 pdf 217 KB 67  

詳細

レコードID
査読有無
権利関係
関連情報
注記
タイプ
登録日 2009.04.22
更新日 2017.01.19