作成者 |
|
|
|
本文言語 |
|
出版者 |
|
|
発行日 |
|
収録物名 |
|
巻 |
|
号 |
|
開始ページ |
|
終了ページ |
|
出版タイプ |
|
アクセス権 |
|
関連DOI |
|
|
|
|
関連URI |
|
|
|
|
関連情報 |
|
|
|
|
概要 |
リップリーディングは人間とコンピュータのインタフェースとして有用な手段の1つである.本稿では,我々が従来から研究を進めているHCM(Hypercolumn neural network Model)と隠れマルコフモデルを用いたリップリーディングシステムについて述べる.我々が提案するシステムではHCMを用いて画像から特徴を抽出し,隠れマルコフモデルを用いて特徴系列の認識を行う.HCMは位置不変,サイ...ズ不変の特徴抽出を実現できるので,本システムでは対象を撮影する位置を固定せずに,認識を行うことができる.本システムの有効性を確認するために,日本語の文章を対象としたリップリーディングの実験を行った.対象画像は顔をクローズアップしたモノクロ画像であり,比較のため,特徴抽出にSOM(自己組織化マップ)とDCT(離散コサイン変換)を用いたシステムの認識性能も評価した.実験から,HCMがSOMやDCTよりも画像特徴を的確に捉えており,認識性能が優れていることが示された. Lip-reading is one of the most fertile topics of interface with computer, since it can smooth the Human-Computer Interface by introducing Human-Human interaction mechanism. In this talk, we introduce a novel Japanese lip-reading system combines our group's model, Hypercolumn neural network Model (HCM), with Hidden Markov Model (HMM). HCM is used to extract the visual speech features while HMM is used for recognition. The proposed lip-reading system can work under varying lip positions and sizes. Our experiments were carried out using multiple sentences of Japanese language. All images were captured in a natural environment without using a special lighting or lip markers. Experimental results are shown to compare favourably with the results of two reported approaches : Self Organizing Map (SOM) using same database set and Discrete Cosine Transform (DCT) using different database set. HCM provides better performance than both approaches. This demonstrates that HCM can extract and classify features in a better manner than SOM and DCT.続きを見る
|