ニュース

「ChatGPT」が見て、聞いて、話せるように ~音声・画像対応のマルチモーダルAI

今後2週間のうちに「Plus」および「Enterprise」で提供

「ChatGPT」が音声と画像に対応

 米OpenAIは9月25日(現地時間)、「ChatGPT」が音声と画像に対応したと発表した。今後2週間のうちに「Plus」および「Enterprise」のユーザーに提供される。

新しい音声合成モデル

 「ChatGPT」の新しい音声機能は、iOS/Androidで利用可能。初期状態では無効化されており、設定画面の新機能セクションでボイス会話を有効化する必要がある。

 この新しい音声合成モデルは、テキストと数秒間のサンプル音声さえあれば、あたかもその人がしゃべっているかのようにテキストを読み上げることができるが、有名人になりすましたフェイクに悪用されかねない。そこで、プロの声優の協力を得て作成された5つのボイスから好みの音声を選ぶ仕組みになっているとのこと。

 「ChatGPT」にはオープンソースの音声認識システムで「Whisper」が組み込まれているので、声で対話することもできるだろう。

画像チャット

 画像を用いたチャットは、プラットフォームを問わず利用可能。モデルはマルチモーダルな「GPT-3.5」と「GPT-4」に支えられており、写真やスクリーンショット、テキストと画像の両方を含む文書など、幅広い画像で言語推論スキルを発揮する。

 利用するには写真ボタンを押して、画像やキャプチャーを選択する。複数の画像を用いてチャットしたり、お絵かきツールを使って画像の特定部分に焦点を合わせるようアシスタントを誘導することもできるとのこと。

 これらの機能は健常者が利用しても役立つが、視覚障碍者にとってはより重要な役割を果たすことになるだろう。同社は視覚障害者向けの無料モバイルアプリ「Be My Eyes」と協力し、画像・音声機能の活用方法とその限界を理解することに努めているという。

 たとえば、目の不自由な人がTVに写っている人物をを知りたいとき、これらの機能は活躍するはずだ。しかし、同時にその人物のプライバシーも尊重しなければならない。そこで、特定の人物を分析し、それに関する発言を行う能力は大幅に制限されているとのこと。「ChatGPT」はごく一般的なことしか答えてくれない。

 また、「ChatGPT」の回答は常に正確であるとは限らない。そのため、適切な検証なしにリスクの高いユースケースで用いることは推奨されない。とくに、このモデルは英語のテキストを書き写すことには長けているが、他の言語、とくにローマ字以外の文字のテキストは苦手にしているという。利用の際は留意しておきたい。