ニュース
産総研、日本語音声基盤モデル「いざなみ」「くしなだ」を公開 ~少量データで音声AIを構築可能に
約6万時間に及ぶ学習データ、音声感情認識に性能を発揮
2025年3月11日 15:03
国立研究開発法人 産業技術総合研究所(産総研)は3月10日、音声AI構築に利用可能な日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開した。両モデルは「Hugging Face」よりダウンロード可能。
音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルのことで、今回公開された「いざなみ」「くしなだ」は、約6万時間という過去最大規模の日本語音声データを用いて構築。モデルの名前は、今後多様な音声AIの生みの親やサポート役となることを願い、日本の神話より採用された。
「いざなみ」は利用者のデータを用いて容易に改良可能で、「くしなだ」は日本語の音声感情認識と音声認識に高い性能を発揮するとのこと。これらのモデルにより、高齢者の音声や感情豊かな表現を含む会話など、教師データが少量しかない場合でも高性能な音声AIを構築できるとしている。
日本語音声基盤モデルの学習データとしては、喜怒哀楽の感情表現豊かな音声や多様な世代の音声が含まれているテレビ放送音声に注目。構築手法としては「いざなみ」にwav2vec2.0が、「くしなだ」にはHuBERTが使用された。
性能評価の結果では、日本語の演技感情音声の音声感情認識(喜び/怒り/悲しみ/平常の識別)において「いざなみ」で80.12%、「くしなだ」で84.77%の正解率を達成した。この性能は、日本語音声基盤モデルを用いない場合の正解率70.65%と比べて10ポイント以上改善。また、他の日本語基盤モデルとの性能比較も行ない、「いざなみ」と「くしなだ」の性能が上回っていることが確認された。
今後、産総研は音声AIの地域や世代による性能差の改善のために、日本語音声基盤モデルを使って日本語方言の音声認識の性能向上に取り組んでいくとのこと。
新たな方言音声データセットの構築などを行ない、地域や世代の違いにより音声AIの性能が低下する問題の改善に取り組むほか、「いざなみ」および「くしなだ」を企業・大学等と連携して活用し、少量データを活用した音声AIの構築・普及に貢献していくとしている。