やじうまの杜

名古屋大学が公開した全二重AI音声対話システム「J-Moshi」が人間すぎてヤバい

話を合わせる能力が高すぎるサンプルに驚愕

 “やじうまの杜”では、ニュース・レビューにこだわらない幅広い話題をお伝えします。

「J-Moshi」が人間すぎてヤバい

 少し前の話になってしまうのですが、さる1月24日に名古屋大学大学院情報学研究科 東中竜一郎教授の研究グループが、世界初の日本語で利用可能なFull-duplex音声対話モデル「J-Moshi」なる物を公開しました。この「J-Moshi」の公開されているサンプルが凄すぎたので、遅くなりましたが驚きを共有させてください。



 音声対話モデルとは人間の音声に対してAIが受け応えするAIで、Full-duplex(全二重)とは聞くことと応えることを同時にこなすということみたいです。つまり、人間が話している最中に合いの手を入れたり、かぶせて話始めたりできる会話AIということ。

 サンプルを聞くと『うん、うん、うん』とか、『ふーん』とかいった合いの手を、人間が話している間に入れてくるのですが、これが絶妙な間で言われなくてはAIとは思えないレベル。私のような話下手なんかより数段上の会話テクニックなのです。電話だったら絶対に気付かないでしょう。

お茶トークで盛り上がる人と「J-Moshi」

 「J-Moshi」はまだ試作とのことで、一部話す内容が不自然だったり、イントネーションがおかしかったりしますが、日本語が上手な外国人だと思うとむしろ自然だったり……。話の合わせ方が何かの勧誘並みに上手いので、普通に聞き流してしまいます。

 しかも、「J-Moshi」はCC BY-NC 4.0ライセンスでGitHubで公開されています。研究目的での利用を想定しており、営利目的には使用できませんが、とにかく無料で試すことが可能です。ただし、実行には24GB以上のVRAMを搭載したLinuxが必要とのことで、編集部では試せませんでしたが、これが一般のPC上で動作させられる(VRAM 24GBは一般的とは言えませんか……)というのは、驚きとしか言えません。