やじうまの杜

「GPT-4o」の新たなボイスモードに衝撃走る、異なるキャラクターの声で演技が可能に

今後数週間以内にユーザーへ展開予定

 “やじうまの杜”では、ニュース・レビューにこだわらない幅広い話題をお伝えします。
「GPT-4o」の新たなボイスモードが公開

 生成AI(AIチャットボット)が“目と耳”を手に入れた、ということで大きな話題となっている「GPT-4o」。2024年5月に発表されたばかりの米OpenAIの最新フラッグシップLLMです。本日6月5日に公開されたデモ動画では、音声会話(Voice Mode)の新機能が披露されており、「GPT-4o」の進化の半端なさに驚嘆の声があがっています。

 まずは下記の動画を見てみましょう。

Character voices with GPT-4o voice

 今回の新機能は、ユーザーのリクエストに対し、「GPT-4o」が複数の異なるキャラクターの声を生成するというもの。

 「GPT-4o」は、テキスト・音声・画像・映像を一度に組み合わせて活用できるというマルチモーダル(/オムニモーダル)対応で、とりわけ音声会話機能を大幅強化。最短232ミリ秒、平均320ミリ秒と、人間の応答時間に近いスピードで会話可能なのが特徴の一つです。発表時には、2台のスマートフォンに起動した「GPT-4o」同士が対話しながら歌う様子が披露され、そちらも大きな評判となりましたね。

 デモ動画では、物語を書いているという男性が「GPT-4o」にいくつかのキャラクターの声を練習させます。たとえば、洞窟の中にいる古き王のような雄大なライオンのイメージで「そこにいるのは誰だ?(Who goes there?)」と言ってほしいと伝えると、その感じの声を「GPT-4o」がキャラクターになりきって体現してくれています。最後に「どうだった?」と、GPT-4oのデフォルトボイスに戻って確認してくるところもユニークで、本当に“演じている”と感じさせます。

 声のトーン・抑揚・スピード、感情表現など、前もって言ってもらわないと、プロの役者が演じているのかと錯覚してしまいそうな衝撃の新機能。OpenAIによると、今後数週間以内にユーザーに向けて、視覚機能付きで展開される予定とのことです。

 画像、動画に続いて、音声も「人間かAIか」の時代にますますなってきました。