やじうまの杜

名古屋大学が公開した全二重AI音声対話システム「J-Moshi」が人間すぎてヤバい

話を合わせる能力が高すぎるサンプルに驚愕

長谷川正太郎

2025年2月19日 16:01

　“やじうまの杜”では、ニュース・レビューにこだわらない幅広い話題をお伝えします。

「J-Moshi」が人間すぎてヤバい

　少し前の話になってしまうのですが、さる1月24日に名古屋大学大学院情報学研究科東中竜一郎教授の研究グループが、世界初の日本語で利用可能なFull-duplex音声対話モデル「J-Moshi」なる物を公開しました。この「J-Moshi」の公開されているサンプルが凄すぎたので、遅くなりましたが驚きを共有させてください。

日本語リアルタイム音声対話モデルJ-Moshiを公開しました！@kyutai_labsのMoshiをベースとし、人間のように「話す🗣️」と「聞く🎧」を同時に行います。
日本語で利用可能な初めてのモデルです。
モデルサイズは7Bと軽量なのでぜひお試しください‼️#NLP2025で発表予定です。https://t.co/t2EKifkO46 pic.twitter.com/EOBSqQER4F
— Atsumoto Ohashi (@atsumoto_ohashi)January 24, 2025

　音声対話モデルとは人間の音声に対してAIが受け応えするAIで、Full-duplex（全二重）とは聞くことと応えることを同時にこなすということみたいです。つまり、人間が話している最中に合いの手を入れたり、かぶせて話始めたりできる会話AIということ。

　サンプルを聞くと『うん、うん、うん』とか、『ふーん』とかいった合いの手を、人間が話している間に入れてくるのですが、これが絶妙な間で言われなくてはAIとは思えないレベル。私のような話下手なんかより数段上の会話テクニックなのです。電話だったら絶対に気付かないでしょう。

お茶トークで盛り上がる人と「J-Moshi」

　「J-Moshi」はまだ試作とのことで、一部話す内容が不自然だったり、イントネーションがおかしかったりしますが、日本語が上手な外国人だと思うとむしろ自然だったり……。話の合わせ方が何かの勧誘並みに上手いので、普通に聞き流してしまいます。

　しかも、「J-Moshi」はCC BY-NC 4.0ライセンスでGitHubで公開されています。研究目的での利用を想定しており、営利目的には使用できませんが、とにかく無料で試すことが可能です。ただし、実行には24GB以上のVRAMを搭載したLinuxが必要とのことで、編集部では試せませんでしたが、これが一般のPC上で動作させられる（VRAM 24GBは一般的とは言えませんか……）というのは、驚きとしか言えません。

Amazonで購入

「音声対話システム」関連商品 Amazonで購入