作成者 |
|
|
本文言語 |
|
出版者 |
|
|
発行日 |
|
収録物名 |
|
巻 |
|
号 |
|
開始ページ |
|
終了ページ |
|
会議情報 |
|
出版タイプ |
|
アクセス権 |
|
権利関係 |
|
|
|
関連DOI |
|
関連URI |
|
関連HDL |
|
概要 |
現代の組織において、業務で生成された膨大な文書がデジタルデータとして蓄積されている。多くの組織内蓄積データは死蔵状態にあり、潜在的な価値が活用されていない。死蔵データ活用にはデータ分析が必要であるけれど、組織内蓄積データは機密情報や個人情報を含むため、クラウド等の外部サービスによる活用が困難である。 我々は、機密性文書群を安全に活用するため、データ外部漏洩リスクの無いローカル小規模言語モデル(LLM...) のチューニングを試みている。既存の公開LLM を基盤とし、学習用データセットでチューニングする。手法として、LoRA (Low-Rank Adaptation) およびRAG (Retrieval-Augmented Generation) を試みた。LoRA 化の処理時間短縮のため、高性能GPU を持つ九州大学のスーパーコンピュータ「玄界」を用いた。機密情報の外部漏洩を避けるため、組織内の閉じたネットワーク環境で動作する低性能GPU 搭載PC サーバ上でLoRA またはRAG に対応したLLM を動作させる。本稿では組織内文書群によるLLMチューニングの実現方法を述べる。またチューニングによる性能評価も検討する。続きを見る
|