iX+(イクタス)』からの転載記事です。
※本稿は、テック系メディアサイト『いま『音声×AI』が注目される理由
生成AIの登場により、4度目のAIブームが到来したといわれています。今回のAIブームは、過去の一過性のものではなく、インターネットやスマートフォンのように「なくてはならないもの」として社会に定着するでしょう。
画像やテキストのAI活用と比べると、音声データは使い方や効果が十分に認知されていません。しかし、この分野には、音声を自動でテキスト化する技術、テキスト化された会話の内容を要約する技術、話している内容や感情を分析する技術など、さまざまな優れた音声認識技術があり、有効活用することで、生産性の向上や、会話をビッグデータとして資産化し、AI活用に活かすことができます。
音声認識技術が普及すると、身近な生活にも変化が起こります。たとえば、現在はパソコンはキーボードやマウス、スマートフォンはフリック入力など、手動で操作するGUI(グラフィカルユーザーインターフェース)が主流ですが、音声認識の精度が高まると、スマートスピーカーのような音声による入力や操作ができるVUI(ボイスユーザーインターフェース)のニーズが高まります。音声入力はフリック入力の約1/3の時間で入力ができ、操作時間の短縮に繋がります。
また、情報の出力においても音声の活用が進むと想定されます。既存のAIから出力された情報を取集する際は、文章やグラフなどで表現されていてわかりやすい一方、視覚を奪われるという短所があります。その点、音声による情報収集は「ながら」聞きが可能です。分析結果や資料の内容を聞いているときは、脳は多少その内容の処理をしなければなりませんが、視覚は自由で、手も足も自由です。VUIは視覚を奪われることがなく、「ながら」作業が可能なため、タイムパフォーマンスがよく、可処分時間を増やし、生産性の飛躍的な向上が期待されます。