レビュー

爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は？

実際にローカルで実行してOpenAIの「Whisper」と比較してみた

咲文でんこ

2024年11月1日 16:14

「kotoba-whisper-v2」のページ

　ビジネスシーンでは、議事録作成や打ち合わせの記録など、「この会議の内容が文字にできると良いな」と思われる方は少なくないのでしょうか。

　私たち記者もその1人です。1時間以上に及ぶインタビューや記者発表会などは少なくありません。もちろん、取材中はメモを取りますが、すべてをメモに取りきることは難しく、録音を聞き直してチェックするのは必須となっています。

　ですが、録音データを文字にするという専門職の方が存在するように、この作業は非常に手間がかかることで、それゆえに相応の対価が発生する仕事なのです。

　そういった作業を手助けしてくれる、生成AIを活用した文字起こしツールが近年注目を集めています。例えば、LINE WORKSが提供する「CLOVA Note」などが代表的なサービスとして知られています。ただし、社内の機密情報や重要データをクラウド環境にアップロードすることには、セキュリティ上の懸念が伴うのも事実ですよね。

ローカルで動作する文字起こし用生成AI

　そこで注目したいのが、ローカル環境で動作する文字起こし用の生成AIです。その代表格が、OpenAIが無償で提供している「Whisper」です。日本語にも対応しており、オープンソースモデルとして誰でも利用可能です。

　「Whisper」には、処理能力に応じてtiny、base、small、medium、largeという5つのモデルが用意されています。さらに、large-v3を最適化・高速化したturboモデルも存在します。基本的には、モデルが大きいほど精度の高い結果が得られます。

　今回紹介する「kotoba-whisper-v2.0」は、この「Whisper」の「whisper-large-v3」を蒸留技術によって最適化した日本語特化型のWhisperモデルです。特筆すべきは、large-v3と同等のエラー率を維持しながら、6.3倍の高速推論を実現している点です。今回は実際に私のローカル環境でテストを行ってみましたので、その結果をご紹介します。

スタートアップ企業が開発し、誰でも無料で利用出来る日本語音声認識モデル

　このモデルを開発・公開しているのは、音声基盤モデルの開発などを進めるスタートアップ企業、Kotoba Technologiesです。2024年4月に「kotoba-whisper-v1.0」を公開し、2024年9月にはさらなる性能向上を実現した「kotoba-whisper-v2.0」をリリースしました。

　モデルはHugging Faceで公開されており、また、Web上で試せるデモページも用意されているため、誰でも無料で試すことができます。

Hugging Faceで公開されている「kotoba-whisper-v2.0」のデモページ。誰でも無料で利用可能

「kotoba-whisper-v2.0」と「whisper-large-v3」を比較テスト

　今回は、641TOPSのTensorコアと12GBのVRAMを搭載したNVIDIA GeForce RTX 4070 Tiを搭載したPCを使用し、「whisper-large-v3」と「kotoba-whisper-v2.0」の性能を比較検証しました。

短文で比較

　まずは短文での比較テストです。以前、私が読み上げた下記の音声データを使ってみます。

【【テスト用のデータ】】

「窓の杜」（まどのもり）は、編集部が厳選したオンラインソフトなどを紹介するサイトです。ニュースや記事を掲載する「窓の杜Webサイト」と、オンラインソフトをダウンロード可能なように収録した「窓の杜ソフトライブラリ」の2つのサービスからなります。

　まずは「whisper-large-v3」を試しました。処理時間は52.297秒で、下記のような結果になりました。

窓の森は編集部が厳選したオンラインソフトなどを紹介するサイトです。ニュースや記事を掲載する窓の森ウェブサイトと、オンラインソフトをダウンロード可能なように収録した窓の森ソフトライブラリの2つのサービスからなります。

　続いて「kotoba-whisper-v2.0」を試してみます。処理時間は33.618秒で、下記のような結果になりました。

窓の森は編集部が厳選したオンラインソフトなどを紹介するサイトですニュースや記事を掲載する窓の森ウェブサイトとオンラインソフトをダウンロード可能なように収録した窓の森ソフトライブラリーの2つのサービスからなります

　短文での比較では、精度はほぼ同等のようですが、「whisper-large-v3」の方が句読点を上手く処理しています。処理速度は「kotoba-whisper-v2.0」の方が速いという結果になりました。この程度の音声の長さでは、モデルの読み込み時間などが含まれるため、処理時間の差は比較的小さくなっているようです。

長文で比較

　より明確な差を確認するため、長文でのテストも実施しました。今回は国立国会図書館が公開している青空文庫の音声コーパスから、宮沢賢治「注文の多い料理店」の音声ファイルを連結したもの（17分49秒）を使用しました。

⇨ndl-lab/hurigana-speech-corpus-aozora: 青空文庫振り仮名注釈付き音声コーパスのデータセット: https://github.com/ndl-lab/hurigana-speech-corpus-aozora

　まず、「whisper-large-v3」の処理時間は5分19.505秒、「kotoba-whisper-v2.0」の処理時間は53.150秒という結果になりました。複数回テストを実施しましたが、ほぼ同様の結果で、約6倍の処理速度の差が確認できました。

　出力結果については長文になるため省略しますが、目視で確認したところ、テキストの精度について、一部で「kotoba-whisper-v2.0」の方が誤りが目立つ結果となりました。

　冒頭の数行と、大きく異なった部分をピックアップします。（句読点はそのまま、改行は筆者）

冒頭部分

　冒頭部分では「kotoba-whisper-v2.0」に若干の間違いが見られるものの、そこまで差はありません。

whisper-large-v3

二人の若い紳士がすっかりイギリスの兵隊の形をしてピカピカする鉄砲を担いで白クマのような犬を二匹連れて、だいぶ山奥の木の葉のかさかさしたとこをこんなことを言いながら歩いておりました。
全体ここらの山はけしからんね。鳥も獣も一匹もいやがらん。何でもかまわないから鹿の黄色な横っ腹なんぞに。それはだいぶの山奥でした。案内してきた専門の鉄砲打ちもちょっとまごついてどこかへ行ってしまったくらいの山奥でした。

それにあんまり山がものすごいので。その白クマのような犬が二匹一緒にめまいを起こしてしばらくうなって、それから泡を吐いて死んでしまいました。と一人の紳士がその犬のまぶたをちょっと返して見て言いました。ともう一人が悔しそうに頭を曲げて言いました。

kotoba-whisper-v2.0：

2人の若い紳士がすっかりイギリスの兵隊の形をしてピカピカする鉄砲を担いで白クマのような犬を2匹連れてだいぶ山奥の木の木のかさかさしたとこをこんなことを言いながら歩いておりました。
全体、ここらの山はけしからんね。鳥も獣も一匹も嫌がらん、何でも構わないから、鹿の黄色な横っ腹なんぞに、それはだいぶの山奥でした。案内してきた専門の鉄砲撃ちも、ちょっと間ごついてどこかへ行ってしまったくらいの山奥でした。

それにあんまり山がものすごいので、その白クマのような犬が二息一緒にめまいを起こしてしばらくうなってそれから泡を吐いて死んでしまいましたと一人の神師がその犬のまぶたをちょっと返して見ていましたとも一人が悔しそうに頭を曲げて言いました。