やじうまの杜
名古屋大学が公開した全二重AI音声対話システム「J-Moshi」が人間すぎてヤバい
話を合わせる能力が高すぎるサンプルに驚愕
2025年2月19日 16:01
“やじうまの杜”では、ニュース・レビューにこだわらない幅広い話題をお伝えします。
少し前の話になってしまうのですが、さる1月24日に名古屋大学大学院情報学研究科 東中竜一郎教授の研究グループが、世界初の日本語で利用可能なFull-duplex音声対話モデル「J-Moshi」なる物を公開しました。この「J-Moshi」の公開されているサンプルが凄すぎたので、遅くなりましたが驚きを共有させてください。
日本語リアルタイム音声対話モデルJ-Moshiを公開しました!@kyutai_labsのMoshiをベースとし、人間のように「話す🗣️」と「聞く🎧」を同時に行います。
— Atsumoto Ohashi (@atsumoto_ohashi)January 24, 2025
日本語で利用可能な初めてのモデルです。
モデルサイズは7Bと軽量なのでぜひお試しください‼️#NLP2025で発表予定です。https://t.co/t2EKifkO46pic.twitter.com/EOBSqQER4F
音声対話モデルとは人間の音声に対してAIが受け応えするAIで、Full-duplex(全二重)とは聞くことと応えることを同時にこなすということみたいです。つまり、人間が話している最中に合いの手を入れたり、かぶせて話始めたりできる会話AIということ。
サンプルを聞くと『うん、うん、うん』とか、『ふーん』とかいった合いの手を、人間が話している間に入れてくるのですが、これが絶妙な間で言われなくてはAIとは思えないレベル。私のような話下手なんかより数段上の会話テクニックなのです。電話だったら絶対に気付かないでしょう。
「J-Moshi」はまだ試作とのことで、一部話す内容が不自然だったり、イントネーションがおかしかったりしますが、日本語が上手な外国人だと思うとむしろ自然だったり……。話の合わせ方が何かの勧誘並みに上手いので、普通に聞き流してしまいます。
しかも、「J-Moshi」はCC BY-NC 4.0ライセンスでGitHubで公開されています。研究目的での利用を想定しており、営利目的には使用できませんが、とにかく無料で試すことが可能です。ただし、実行には24GB以上のVRAMを搭載したLinuxが必要とのことで、編集部では試せませんでしたが、これが一般のPC上で動作させられる(VRAM 24GBは一般的とは言えませんか……)というのは、驚きとしか言えません。