<会議発表資料>
新しい研究に向けたオープンデータの構築 : HathiTrustリサーチセンターの事例

作成者
本文言語
出版者
発行日
雑誌名
開始ページ
出版タイプ
アクセス権
概要 HathiTrustリサーチセンター(HTRC)の Extracted Features( EF:抽出された特徴素)データセットパージョン1 .0. (https://analytics.hathitrust.org/datasets)は最近公開されたオープンデータセットである。EFデータセットは、HathiTrustコーパス内の冊子それぞれのページの語数や行数、品詞等に関する定量的な情報を提供し...いる。EF データセットは、2兆を超えるトークン(単語)、50億ページ以上を含む13,744,765 冊から抽出されたものであり、著作権の制限のために利用できない800万冊以上の特徴へのアクセスを提供するものとして、研究者にとって非常に価値がある。本講演では、この重要なオープンセットの構築について概説し、この貴重な情報源によって可能になった一連の研究プロジェクトを紹介する。続きを見る

本文情報を非表示

handouts_downie_htrc_kyushu_2017_withJapanese pdf 3.12 MB 63  

詳細

レコードID
査読有無
注記
タイプ
登録日 2017.03.09
更新日 2017.03.14