ニュース

“超高速”な日本語音声生成モデル、東大発ベンチャーのNABLASが開発

ベースはGoogleの「SoundStorm」、独自のデータセットで学習

NABLAS、日本語に対応した“超高速”な音声生成モデルを開発

 東大発スタートアップのNABLAS(株)は8月13日、米Googleの音声生成モデル「SoundStorm」をベースとした日本語音声生成モデルを開発したと発表した。本モデルは、数秒のデータを用いて瞬時に日本語の音声生成が可能。同社独自の日本語データセットを用いてモデルの学習を行ない、自然な日本語での音声生成を実現した。

 ベースとなった「SoundStorm」は、TPU-v4を使用した環境下で3秒程度のオリジナル音声データから本物のような音声をわずか0.5秒の速さで生成可能だが、現在、英語を基本言語として開発されており、日本語での音声生成には未対応。そこで今回、数秒のデータを用いた“超高速”での音声生成に対応した日本語モデルの開発が行なわれることとなった。

 NABLASの音声生成モデルは、数秒の話者Aの音声データと、発話させたい内容を含む話者Bの音声データをもとに、わずか数秒の処理で話者Aの音声で話者Bの発話内容を生成するSpeech to Speechの音声生成が可能で、対話生成には未対応。

 本技術を活用することで、将来的には医療分野における発話困難者への支援や、カスタマーサポートにおける感情的な音声のリアルタイムな声色調整、エンターテインメント分野での音声生成活用など、幅広い分野での応用が期待できるとしている。

音声生成モデルの出力イメージ

 また、SoundStorm内部に構築されているConformerモデル(Google発のテキストの全体的な文脈と局所的な文脈を同時にとらえることができる技術を搭載したモデル)の構造をベースとして開発を実施。これにより、音声生成のクオリティやスピードを維持した日本語対応モデルを実現した。

SoundStormの性能を維持

 出力される音声の品質に関わるオーディオコーデックにおいて、同社では日本語での音声生成に適したオーディオコーデックを用いてモデル開発を行なった。その結果、SoundStormが出力する音声品質(不自然さ・ノイズなど)や生成音声の類似度スコアよりも、同社開発のモデルがわずかに上回る結果を得たとのこと。

 今回のモデルは、同社独自に処理を行なった日本語音声データセットだけで学習した日本語特化の音声生成モデルとなる。データセットには、日本語音声コーパスから取得したデータに対し、人の声だけのデータとなるよう背景の騒音や音を除去する処理が行なわれている。

各モデルの構成比較