音声認識技術について

ATR 音声言語コミュニケーション研究所の技術をベースに、サービスを提供いたします。

音声認識とはどんなもの?

発話された音声の特徴量を抽出し、その特徴量を3つのデータベース(音響モデル・言語モデル・辞書)から独自のエンジンで検索し、音声をテキスト(文章)に変換します。(図1)しゃべった言葉や文章が、即時に文字に変換されたり、しゃべった言葉で機器の操作が可能になる技術です。

<<図1>>
図1
 ATR-Trekの音声認識特長

  1. 長年の研究成果による膨大なデーターベースと複数の音響モデルによる、高い認識性能 を実現しています。
    • パラレルデコーディング(ノイズあり、なしの2つ以上の音響モデルによる検索)により、騒音下での高い認識性能を有します。
  2. 周囲の雑音を除去する独自のノイズフィルター(パーティクルフィルター)を用い、騒音下でも認識できます。
  3. 分散型音声認識方式により、モバイル機器でも高性能な音声認識が可能です。(図2)
    <<図2>>
    図2
      
    • 機器側で特徴量を抽出(フロントエンド)、サーバ側にデーターベース及び検索エンジン(バックエンド)に分けたシステムにより、携帯電話等のモバイル機器でも高性能な音声認識機能を実現できます。
      

ATR-Trek