※本稿は、テック系メディアサイト『iX+(イクタス)』からの転載記事です。
音声や画像も認識できるようになった新しいChatGPT
OpenAIによって新たに開発された「GPT-4V」は、これまでのテキストベースのAIに、音声認識・画像認識機能を加えた革新的なマルチモーダルAIです。マルチモーダルAIとは、複数種類のデータを入力して処理できるAIのことで、従来のGPT-4がテキストのみに対応していたのに対し、GPT-4Vではテキストや音声、画像、動画といった複数のタイプのデータを扱えるようになっています。
ユーザーがアップロードした画像を解析できるようになったことで、従来のようなテキストベースのやり取りに比べ、よりリッチで直感的な対話が可能になっています。たとえば、詳細がわからない画像や動画をアップロードして、【画像1】のように内容について質問できます。
音声での対話については、23年11月現在ではスマートフォン限定でリリースされており、音声入力を行うとリアルタイムで音声による返答を得られます。また、会話を終了すると【画像2】のようにログが残ります。
対話言語はテキストと同様に約30ヵ国語に対応し、日本語でも問題なく対話が可能です。
“目”と“耳”を搭載したことで起きる役割の変化
これまでのChatGPTがテキストベースでの対話に限定されていたのに対し、画像・音声認識を実現し、いわば"目"と"耳"を手に入れた現在は、次のようなことが可能になります。
画像ベースの質問応答
ユーザーがアップロードした画像に基づき、その内容に関する質問に回答します。たとえば、ユーザーが食品の画像をアップロードすれば、その食品のレシピや栄養情報も取得できます。
ビジュアルコンテンツの分析と提案
GPT-4Vは、アップロードされた画像や動画の内容を分析し、それに基づいてマーケティング戦略やデザイン提案も行えます。たとえば、広告キャンペーンの画像を分析して、より効果的なビジュアル戦略を提案させることも可能です。
トレーニングツールの開発
画像や動画を用いて、より具体的かつ視覚的な学習教材やトレーニングツールを提供できます。たとえば、医療画像を分析して、診断技術のトレーニングに利用したり、歴史的な画像から歴史教育のための教材を作成したりという活用方法が考えられます。
このように、これまでの役割とは変化が起きており、テキストベースで完結していたところから視覚情報にアプローチすることで、入力と出力を直感的に行えるようになりました。これにより、ユーザーが質問するハードルが下がり、ビジュアルでの説明も可能になったため、今後は教育分野やプレゼンなどビジュアルでの説明が重要な場面で活躍が期待されています。
そして、これらの機能は先日GPT-4 with vision (GPT-4V)という名前でリリースされ、API使用が可能になりました。これにより、さまざまなプロダクトでマルチモーダル入力が可能になり、応用できるアプリケーションの幅が大きく広がることになります。
このように、多機能になってこれまで以上にビジネスシーンでの役割が増えたChatGPTですが、導入にあたってはまだまだ複数の課題があることは否めません。
まず、データプライバシーとセキュリティに関して、個人情報や機密情報を含む画像・動画の取り扱いにおいては、厳格なデータ保護とセキュリティ対策が必要です。GPT-4Vは多様なデータを扱うため、これまで以上に入力情報のチェックが難しくなり、より正確な確認が求められています。
また、活用にあたってのコストやリソースという点にも課題が残ります。GPT-4Vvを効果的に活用するには、AI技術に精通したスタッフの育成や専門家の確保が必要になりますし、セキュリティチェックの面でも専任のスタッフやチェックツールの開発が必要になるかもしれません。
ほかにも、APIなどを使用した既存のビジネスシステムやデータ管理プラットフォームとの統合には技術的な課題が残ります。とくに、異なるデータ形式やプラットフォーム間での連携は複雑であり、求められる技術レベルは相当に高いものになりそうです。