<Doctoral Thesis>
A study on active organization processes for speech information : Systems to support an automatic speech recognizer in the presence of noise
Creator | |
---|---|
Examiner | |
Language | |
Academic Year Conferred | |
Conferring University | |
Degree | |
Degree Type | |
Publication Type | |
Access Rights | |
JaLC DOI | |
Abstract | 近年の音声認識技術の発展により,人間と機械間の音声コミュニケーションの実現が夢ではなくなりつつある。しかし,現実には自動音声認識技術が応用システムに適用されたときその性能を十分に発揮できないことが多い。音声認識の応用システムには,環境騒音といった情報源自体に内在するノイズや,認識誤りといった処理系の動作に関するノイズが本質的に含まれるからである。これらのノイズによって情報の欠落がもたらされる。 そこ...で本研究では,ノイズに対して頑健な音声認識を実現することを目的とし,音声認識の工学的な枠組みに対して人間の能動的な再構築過程に関する知見を導入することにより,機械による音声言語理解の過程で,様々なノイズにより欠落した情報の修復を行う。 本研究では,音声言語処理の過程を,原初的聴覚情景分析の段階,音声スキーマに基づく聴覚情景分析の段階,音声言語のコミュニケーションの道具としての役割を利用した処理が行われる段階の3 段階に分け,各段階に対応する形で,能動的再構築機能を持つシステムを構築した。 原初的聴覚情景分析では,はじめに,心理物理学的実験を通して,聴覚におけるスペクトルの動的な追跡・予測過程の存在を検証した。被験者は,スペクトルが連続的に変化する母音部終端で知覚される音色の,典型的な母音に対する音韻性類似度を判断した。被験者は母音部終端に雑音が後続する場合としない場合の2 つの条件で実験に取り組んだ。その結果,被験者の判断した音韻性類似度は,雑音が後続する場合は後続しない場合に比べて,第2 母音側へ全体的にシフトした。この実験結果は,音響特徴量の外挿が行われた結果,音韻性類似度の判断がシフトしたと解釈できた。さらに3 つの実験を行い,この仮説の妥当性をさらに支持する結果を得た。 次に,スペクトルの動きを動的に追跡・予測する計算機モデルを構成した。そしてこのモデルを導入した原初的聴覚情景分析の計算機システムを構築した。このシステムでは,周波数統合過程での分凝が困難なために部分的に情報が失われた場合でも,系列的統合過程においてそれらを再構築する能動的再構築機能を実現した。このシステムを用いて,音韻修復と2 話者分離を模擬的に実現できた。 音声スキーマに基づく聴覚情景分析の段階では,音声知識に基づく能動的トップダウン処理を導入することによって,騒音下の音声認識を実現するシステムを提案した。システムは隠れマルコフモデルに基づく音声認識システムの拡張として実装された。そして,符号帳に格納されている音韻情報を事前知識として,観測信号から目的音声の特徴ベクトル照合に用いるデータは,従来用いられてきたスペクトル概形ではなく,基本周波数の倍音付近に限定した領域の情報のみを用いるという点で,人間の音声知覚モデルの一つの工学的実現とみなすこともできた。システムの認識評価実験を行った結果,従来の音声認識システムと比較して騒音の影響を受けにくいシステムであることがわかった。 音声言語のコミュニケーションの道具としての役割を利用した処理が行われる段階では,様々な要因により失われた情報を,音声対話を通じて再取得することにより情報の再構築を行う音声対話システムを構築した。システムには,音声認識と意味解析からなる音声理解過程が含まれており,発話者の意図抽出を行うことができた。そして音声理解過程で,話し手の意図抽出不足していた情報を再取得情報のみを再取得するための聞き返し機能が備えられた。ユーザ評価の結果,本システムのサブシステムである音声認識システムの認識性能はあまり高くなかったにも関わらず,ユーザからはインタフェースとしては使用可能レベルであると評価された。 本研究により,機械による音声言語理解の過程で欠落した情報の修復を行うために,人間の音声言語処理過程で見られる能動的再構築過程の導入が工学的にも有益であることが示され,頑健に動作する音声認識理解技術の構築に一歩近づいた。show more |
Table of Contents | 目次 1 序論 2 系列的統合過程における動的予測過程の存在についての心理学的検証 3 動的音脈形成モデルと能動的聴覚体制化の工学的実現 4 音声スキーマに基づく能動的トップダウン処理の導入 5 音声対話による情報の再取得 6 総括 謝辞 Bibliography |
Hide fulltext details.
File | FileType | Size | Views | Description |
---|---|---|---|---|
![]() |
31.9 KB | 228 | 表紙 | |
![]() |
354 KB | 225 | 目次 | |
![]() |
1.21 MB | 269 | Chapter 1 | |
![]() |
9.28 MB | 242 | Chapter 2 | |
![]() |
21.8 MB | 1,092 | Chapter 3 | |
![]() |
4.07 MB | 256 | Chapter 4 | |
![]() |
10.6 MB | 415 | Chapter 5 | |
![]() |
269 KB | 249 | Chapter 6 | |
![]() |
304 KB | 216 | 謝辞 | |
![]() |
907 KB | 232 | Bibliography |
Details
Record ID | |
---|---|
Peer-Reviewed | |
Number of Diploma | |
Granted Date | |
Date Accepted | |
Faculty | |
Location | |
Call Number | |
Created Date | 2014.01.24 |
Modified Date | 2020.10.06 |