<会議発表資料>
新しい研究に向けたオープンデータの構築 : HathiTrustリサーチセンターの事例

作成者
本文言語
出版者
発行日
収録物名
開始ページ
出版タイプ
アクセス権
関連DOI
関連URI
関連情報
概要 HathiTrustリサーチセンター(HTRC)の Extracted Features( EF:抽出された特徴素)データセットパージョン1 .0. (https:
analytics.hathitrust.org/datasets)は最近公開されたオープンデータセットである。EFデータセットは、HathiTrustコーパス内の冊子それぞれのページの語数や行数、品詞等に関する定量的な情報を提供してい...る。EF データセットは、2兆を超えるトークン(単語)、50億ページ以上を含む13,744,765 冊から抽出されたものであり、著作権の制限のために利用できない800万冊以上の特徴へのアクセスを提供するものとして、研究者にとって非常に価値がある。本講演では、この重要なオープンセットの構築について概説し、この貴重な情報源によって可能になった一連の研究プロジェクトを紹介する。続きを見る

本文ファイル

pdf handouts_downie_htrc_kyushu_2017_withJapanese pdf 3.12 MB 383  

詳細

レコードID
査読有無
注記
タイプ
登録日 2017.03.09
更新日 2017.03.14

この資料を見た人はこんな資料も見ています