ニュース

世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開

商用・非商用を問わず、誰もが自由に利用・改変・再配布可能

林恭平

2023年1月20日 09:00

　（株）レアゾン・ホールディングスは1月18日、高精度な音声認識モデルを中心とするプロダクト群「ReazonSpeech」を、オープンソースとして公開した。

　「ReazonSpeech」は、レアゾン・ヒューマンインタラクション研究所が開発した音声認識モデルと音声コーパス作成ツール、および実際作成された19,000時間の音声コーパス（音声とテキストを発話単位で関連付けて集めたデータセット）の総称。音声認識モデルと音声コーパス作成ツールは商用利用可能で、3つの製品全てが無償で提供されている。

　同社は、深層学習を用いた音声認識では、高精度な音声認識モデルを得るために音声コーパスが大量に揃っていることが必要不可欠で、誰もが自由に使える形で大規模な音声コーパスが公開されれば技術の迅速な発展に大きく寄与するという。しかし、英語等ではこうした音声コーパスが多数公開されているのに対して、日本語では商用利用も含めて自由に利用できるなコーパスは量が少なく、日本語における音声認識技術の発展と普及を妨げる大きな要因となっていたとしている。

　「ReazonSpeech」では高性能な音声認識モデル開発に向けた大規模な音声コーパスを作るため、ワンセグ放送の録画データから音声コーパスを自動抽出した後、自由なライセンス（CC-0）で利用できる音声コーパス「Mozilla Common Voice」から構築した音声認識モデルでアラインメント処理を行い、そこで得られた音声コーパスを基にして再度アラインメント処理を実行するという過程を重ねることによってサイズを増やしたとしている。現在のサイズは19,000時間だが、今後さらに拡大するとしている。

　音声認識モデルはアメリカの人工知能研究所OpenAIが2022年に公開した高性能音声認識モデル「OpenAI Whisper」に匹敵する音声認識モデルだとし、「ReazonSpeech」のコーパスを用いて構築した「ESPnet」（End-to-End音声処理のためのツールキット）と、主要な音声認識モデルである「OpenAI Whisper」、「LaboroTVSpeech」との精度比較結果を公開している。

CER（Character Error Rate、文字誤り率）音声認識精度の比較（小さいほど良い）

　また、一般に音声認識モデルのパラメータ数と精度はトレードオフの関係にあるなかで、「ReazonSpeech」＋「ESPnet」は、少ないパラメータ数で「OpenAI Whisper」の最大サイズモデルであるlarge-v2と同等の精度を達成したとしている。

「Common Voice」でのCER音声認識精度（小さいほど良い） vs モデルパラメータ数（少ないほど良い）

　音声認識モデルと音声コーパス作成ツールのライセンスはApache-2.0で、商用・非商用を問わず、誰もが自由に利用・改変・再配布し、コーパスの構築・共有活動に参加できるる。音声コーパスのライセンスについては、CDLA-Sharing-1.0を予定しているが、これは著作権法30条の4を含む適用法令を遵守し、現著作権者の権利を侵害しないことが前提だとしている。