ジェグテック ヘッドライン|毎日、中小企業に関するニュースを中心に、約10名のライターが独自の視点でおまとめ中。次のビジネスのヒントがあるかも!要チェック!

NTT、音を言葉で説明する技術を開発

話し声以外の様々な音を文字化

2019年5月27日、日本電信電話株式会社(以下、NTT)は、様々な音に対して、それがどの様な音かを説明するテキスト(擬音語や説明文)を生成する技術(以下、同技術)を開発したと発表した。

音声認識技術の研究が進展して、人の話し声を認識し文字にする精度は高くなったが、話し声以外の様々な音を文字にすることは困難で、それらの音の情報を擬音語や文章の形で書き出すことはできなかった。

一方で、人の話し声以外の音をテキストに変換できれば、これを見ることで音を把握でき、効果音や異常音などの音響データベースの検索が便利になるとともに、AIが人間に近い音の感覚を身につける際にも利用できると考えられる。

様々な音をテキストに変換する技術のポイント

同技術は、学習と生成の2段階から構成され、学習段階では、音響信号に対して多層ニューラルネットワークに学習させる。生成段階では、学習済みのエンコーダに音響信号特徴の時系列を入力して得た潜在特徴を、学習済みのデコーダに入力することで、文字列を得ることができる。

また、所定の音響データセットに対して生成された擬音語を評価したところ、人手で付与した擬音語を正解とみなした客観評価実験において、単語誤り率7.2%、平均音素誤り率2.8%となり、ほぼ妥当に擬音語が生成された。

さらに、音に対する説明文を生成する際には、詳細度と呼ぶ数値をデコーダへの補助入力として導入し、説明する詳しさの程度を指定することで、場面や用途に合うような文を生成できるように工夫している。
(画像はニュースリリースより)

▼外部リンク

NTT ニュースリリース
http://www.ntt.co.jp/news2019/1905/190527b.html

関連記事

ジェグテックを見る

ジェグテックヘッドライン

毎日、中小企業に関するニュースを中心に、約10名のライターが独自の視点でおまとめ中。次のビジネスのヒントがあるかも!要チェック!


ジェグテックとは

ジェグテックで商機をつかめ!

J-GoodTechプロモーション

アーカイブ