<会議発表資料>
新しい研究に向けたオープンデータの構築 : HathiTrustリサーチセンターの事例
作成者 | |
---|---|
本文言語 | |
出版者 | |
発行日 | |
収録物名 | |
開始ページ | |
出版タイプ | |
アクセス権 | |
関連DOI | |
関連URI | |
関連情報 | |
概要 | HathiTrustリサーチセンター(HTRC)の Extracted Features( EF:抽出された特徴素)データセットパージョン1 .0. (https: analytics.hathitrust.org/datasets)は最近公開されたオープンデータセットである。EFデータセットは、HathiTrustコーパス内の冊子それぞれのページの語数や行数、品詞等に関する定量的な情報を提供してい...る。EF データセットは、2兆を超えるトークン(単語)、50億ページ以上を含む13,744,765 冊から抽出されたものであり、著作権の制限のために利用できない800万冊以上の特徴へのアクセスを提供するものとして、研究者にとって非常に価値がある。本講演では、この重要なオープンセットの構築について概説し、この貴重な情報源によって可能になった一連の研究プロジェクトを紹介する。続きを見る |
本文ファイル
ファイル | ファイルタイプ | サイズ | 閲覧回数 | 説明 |
---|---|---|---|---|
handouts_downie_htrc_kyushu_2017_withJapanese | 3.12 MB | 381 |
詳細
レコードID | |
---|---|
査読有無 | |
注記 | |
タイプ | |
登録日 | 2017.03.09 |
更新日 | 2017.03.14 |