使ってわかるCopilot+ PC

第4回

【AIに無茶ぶり】歌の歌詞を「ライブ キャプション」は文字起こしできるのか?

バラードからハードコアまで、いろいろなジャンルで試してみた

「Copilot+ PC」の1つ、「Surface Laptop 13.8インチ(第7世代)」

音声を文字起こし機能

 「Copilot+ PC」のAI機能の1つ「ライブ キャプション」は、音声を読み取ってテキストに変換する機能。いわゆる文字起こしであるが、PCに入力されたあらゆる音声をソースにできるのが特徴だ。

 例えばWeb会議やラジオニュースなどに使用すれば、スピーカーの音声出力をOFFにしていても、読み取ったテキストで内容で把握できる。何かしらの理由で音を出せない状況で活用できる機会はあるだろうし、会議のコメントを聞き逃さないための予防策にも役立つ。

 またリアルタイム翻訳機能も有している。現時点では日本語を含む多数の言語を聞き取り、英語に翻訳するというもの。厳密にはこの翻訳機能が「Copilot+ PC」のAI機能であり、NPUを使った処理となる。日本語を含む英語以外の言語へのリアルタイム翻訳機能はまだ未実装なので、今後にも期待したい。

日本語音声の読み取りはほぼ完璧。翻訳はNPUで行う

 今回はこちらの機能を使って、いくつかのYouTube動画の音声を聞き取れるかを試してみる。使用した機材は、「Surface Laptop 13.8インチ(第7世代)」。

 「ライブ キャプション」を使用するには、タスクバーにある[クイック設定]を開き、[ライブ キャプション]を選ぶ。すると画面上部に横長で半透明のウインドウが表示される。ここにテキストが表示される仕組みだ。

[クイック設定]から[ライブ キャプション]を選択
画面上部に横長のウインドウが現れる
言語設定を日本語に変更すると、日本語での文字起こしになる。英語のままだと日本語が英語に翻訳される
ウインドウの背景色や文字色もいくつか選べる

 初期設定では表示言語が英語になっているため、リストの中から日本語を探して変更する。こうすれば日本語音声だけを読み取り、日本語で文字起こしをしてくれる。英語の設定にしておけば、日本語音声を読み取って英語のテキストで出力してくれる。

英語に翻訳して文字起こしすると、NPUを使用する。それほど負荷は高くないようだ。それほど負荷は高くないようだ

 「ライブ キャプション」のウインドウは、初期位置だと画面上部に横いっぱいに表示されるのだが、位置やサイズは自由に変更できる。以降は記事で見やすいよう、適切なサイズに変更して試していく。

 設定から[マイク オーディオを含める]を選択すると、マイクの音声を読み取って、自分が話した声をすぐさまテキスト化できる。何か意図があってマイクの音声を拾いたい時にはこれをONにし、普段はマイクの声を拾わないようにOFFにしておくのがいい。

 では文字起こしを試してみよう。まずは[マイク オーディオを含める]をONにして、PCの前で話してみる。読み取りやすいようにハキハキと喋ってみると、全く漏れなく日本語のテキストが表示された。

丁寧に読んだ日本語は漏れなく聞き取りテキスト化された。「窓の杜」も間違えずに書かれていて優秀だが、「Copilot+ PC」はわからなかった模様

いろんなYouTube動画を聞き取らせてみる

 次はYouTubeの動画で試してみる。普通に聞かせれば問題ないことはわかったので、編集部チョイスによる意地悪な動画を使用する。1つは早口言葉、残り5つはジャンルの違うヴォーカル曲だ。

 まずは早口言葉。

早口言葉の文字起こし
英語にもしてみた。出力精度はさらに落ちる感じだが、内容的には面白い

 そもそも早口言葉を言えているのかという問題はあるが、およそ日本語として成立していない部分が多い。内容的にも大半が間違えている上、発言の半分近くは聞き取れずに文字起こしをしていない。さすがに厳しいようだ。

 次はバラード。

バラードの文字起こし

 画像は関係ない部分にモザイクをかけて、この曲で読み取った部分だけを残している。数分ある曲のうちに文字起こししたのはこの6行だけ。それも正確性にはかなり欠ける。

 次はポップ。

ポップの文字起こし

 音程の変化が少ない部分は文字起こしをしようという動きをするが、それ以外は無反応なことが多い。曲らしい部分は文字起こししない考え方なのかなと思う。

 次はロック。

ロックの文字起こし

 たった9文字である。しかも内容も意味をなしていない。声質的にも聞き取りにくいのかもしれない。

 次はラップ。

ラップの文字起こし

 音程なく言葉を発するラップは文字起こしの対象になるようで、かなり積極的に出力される。1曲が終わったころには表示領域2つ分くらいは使用しており、この画面より上にも前半部分が書かれている。ただ正確性には欠け、歌詞の雰囲気がわかる程度。

 最後はハードコア。

ハードコアの文字起こし

 ご覧のとおり、全面モザイク。1文字も起こさなかった。まあ、声質や楽器音の大きな曲の内容からして当然かな……と傾向がわかってきた。

 結論、「ライブ キャプション」は基本的にヴォーカル曲の文字起こしをしようとしない。BGMとして曲が流れていても、喋っている人の音声を聞き分けて文字起こしをしたいから、というような意図ではないかと思う。

 何のために試したんだと思わないでもないが、こういうものだよねという理解が深まったということで納得しておきたい。また最初に検証したとおり、通常の話し声であればかなり正確に読み取ってくれるので、うまく活用していただければと思う。

著者プロフィール:石田賀津男(いしだ かつお)

1977年生まれ、滋賀県出身

ゲーム専門誌『GAME Watch』(インプレス)の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載『初月100円! オススメGame Pass作品』、『週末ゲーム』などを執筆。

・著者Webサイト:https://ougi.net/