Seita Noda, "Machine Learning using exophosia for NAM Recognition"

2016/12/11 18:46 に 後藤太一 が投稿

本報告では,非可聴つぶやき音声(NAM)認識性能向上のための通常音声を用いた学習の枠組みについて報告を行った.
これはNAMデータのみを用いて学習されたモデル(NAM-SI)をベースとして,通常音声用の話者依存線形層をモデルに別途挿入を
することによって実現される(NAM-SP-LTL).
さらに線形依存層の後段に通常音声からNAM音声へと変換を行うような非線形層挿入したモデル(NAM-SP-LTL-S2N)も作成し,
これらの性能をWERによって評価した結果,通常音声を用いることで性能の向上が確認され本手法の有効性が示された.
今後はよりNAMに依存した学習を行うような枠組みを検討していく.
Comments