Seita Noda, "Various Studies on Acoustic Model Training Using Normal Speech for NAM Recognition"

2017/01/29 19:02 に 後藤太一 が投稿

本研究では,非可聴つぶやき(Non-Audible Murmur: NAM)の音声認識について,通常の学習に加えさらに通常音声を加えたDNNに基づく音響モデルを提案する.
前回の報告では,通常音声を用いることによる性能の改善が確認されたが,話者数と改善率の関係については明らかになっていなかったので,
学習に用いる通常音声話者数の変化によって性能がどのように変わるか調査をした.
実験を行った結果,通常音声話者数を増やすほど通常音声の特徴に依存したモデルとなってしまい,20人を境目に性能が低下する傾向が確認された(NAM話者は40人).
一方で,学習後のモデルに対してNAM音声のみによる再学習を行うと,通常音声話者数を増やすほど性能が上がることが確認され,
今後はNAM音声に依存するような学習の手法を調査,検討を行う.
Comments