Seita Noda, "Construction of Acoustic Model for Non-Audible Murmur Recognition Based on Deep Learning"

2016/11/07 3:26 に 後藤太一 が投稿

非可聴つぶやき(NAM)音声を認識するための音響モデルの構築について発表を行った.
NAM音声は通常音声と比べてデータ数が非常に少ないため
fMLLRによりNAM音声を特徴量を通常音声の特徴量に近づける手法をベースとし,
さらに通常音声で有効性が確認されているLDA+MLLT変換および話者性の正規化を目的とし
再度fMLLRを行うモデルなどを構築した.
実験により評価を行った結果,WERが改善され特徴量変換の有効性が確認された.
今後は,DNNモデルにも通常音声を統合的に利用する枠組みを検討していく予定である.
Comments