<会議発表論文>
クラスタリングによるオンライン小説の多様性動向分析

作成者
本文言語
出版者
発行日
収録物名
開始ページ
終了ページ
会議情報
出版タイプ
アクセス権
権利関係
概要 近年,動画ではYouTube やニコニコ動画が,小説では小説家になろうといった利用者投稿型のCGM (Consumer Generated Media) サイトが人気である. CGM サイトには毎日多数のコンテンツが投稿されており,また膨大な利用者がコンテンツを閲覧している. 現在,CGM サイトへの投稿コンテンツの画一化が懸念されている.既に見たことのあるようなコンテンツや派生コンテンツの増加が...感じられる.我々は今回,「小説家になろう」を対象に,Cos 類似度の総和を調べることで小説家になろうの画一化について定量的に評価をおこなった.次に,偏りのあるジャンルを特定するために,クラスタリングによるオンライン小説の多様性動向を調査する.各小説のあらすじをDoc2Vec を用いてベクトルで表現し,最後に,小説のベクトル群をX-means でクラスタリングする. クラスタ数やクラスタの要素数を分析することで,投稿小説の多様性動向の分析を行う.
In recent years, CGM (Consumer Generated Media) site, such as YouTube.com and Nicovideo.jp for movies, syosetu.com for novels, become very popular. Many contents are posted on those CGM sites everyday, and a huge number of users are browsing the contents. Now a day, some bloggers mentioned that similar contents are well posted to the CGM site. It is felt that contents and derivative contents which have already seen have increased. We proposed contents diversity metric, that is the sum of cosine similarities of contents. We applied our metric to contents of nicovideo.jp and syosetu.com, and found that contents diversity was decrease in both CGM. To identify bias of contents, we investigate the diversity trend of online novel using clustering. We extract synopsis part from each novels, and vectorize them by Doc2Vec. After that, we clustered the vectors using X-means clustering. We report our method and results of clustering.
続きを見る
目次 1.はじめに
2.小説家になろう
3.小説データ収集
4.収集データの解析
5.cos 類似度による多様性動向分析
6.Doc2Vec を用いた小説のベクトル化

本文ファイル

pdf ipsj-hinokuni2018-B4-1 pdf 555 KB 1,505  

詳細

レコードID
主題
助成情報
登録日 2018.04.02
更新日 2018.04.04

この資料を見た人はこんな資料も見ています