2023年9月、従来のChatGPTに「画像解析」「音声認識・出力」という新機能を追加した「GPT-4V(ビジョン)」が登場しました。「ChatGPT」が"目"と"耳"を手に入れたことで、「手書きのワイヤーフレームの写真」などを基に、Webサイトやアプリのコードを生成するというような作業も可能になり、大幅に実用性が高まるとみられています。一方で、情報の正確性や生成物に関する著作権等の権利問題にはまだまだ課題も残ります。本稿では、既存のビジネス環境に多大な影響を与え得る「GPT-4V」のインパクトや活用事例を紹介しつつ、生成AI開発の最新動向に迫ります。
画像・音声認識に対応した新「ChatGPT」が登場…“目”と“耳”を手に入れた生成AIは何を可能にするのか? (※写真はイメージです/PIXTA)

生成AIが現存の「無形データ」を網羅…人間の役割は?

 

今回のアップデートでChatGPT は“目”と“耳”を手に入れたことになりますが、ここで重要なのは、データの形を変えずに送れるようになったという点です。マルチモーダルAIになったことで扱えるデータの幅が広がり、画像や音声データについても人間を介して言語化する必要がなくなりました。

 

現存する無形データは基本的に網羅できることになっており、最終的には人間は最初の命令だけを行い、それ以降のタスクをすべてAIが処理するようなことが可能になるかもしれません。

 

また、各機能の拡充によってそれぞれを掛け合わせたカスタマイズ性も向上しており、入力やアウトプットの形に囚われずにさまざまなタスクをこなせるようになっています。現在も、各機能を組み合わせたシステムを試す動きが出ており、パーソナライズが進んでいます。さらに、GPT-4Vには人間フィードバック強化学習(RLHF)というアルゴリズムが組み込まれており、ユーザーが好むような形の出力を生成できるようになっています。

 

そのため、各企業、各部署、もしくは各従業員に専用のチャットボットが1つ存在するような日も、そう遠くない未来に実現するかもしれません。

 

〈著者〉

木内翔大
株式会社SHIFT AI 代表取締役
GMO AI&Web3顧問、生成AI活用普及協会理事
1990年東京都生まれ。33歳。大学1年生からフリーランスエンジニアとして活動。2015年に株式会社SAMURAIを創業。日本初のマンツーマン専門のオンラインプログラミングスクール「SAMURAI ENGINEER」で累計4万人以上を指導。2022年に株式会社SHIFT AIを創業(旧10X)。現在、「日本をAI先進国に」を掲げAIのビジネス活用を学べるAI活用コミュニティ「SHIFT AI」を運営。