ニュース

「Microsoft Teams」に音楽の自動認識と高音質(Hi-Fi)音楽モード

ネットワーク帯域を圧迫せず話し声以外も忠実に伝送

 「Microsoft Teams」では、ほとんどの環境で機械学習ベースのノイズ抑制が既定で有効化されている。これはミーティングの邪魔になるバックグラウンドノイズ(騒音)を自動的に除去できる便利な機能だが、一方で話し声と認識されないサウンド、たとえば音楽まで除去されてしまうことがある。「Teams」のノイズ抑制は「高」、「自動」(既定)、「低」の3段階で調整可能で、「低」に設定すればメンバーとともにオーディオやビデオを楽しむことができるが、わざわざ設定を切り替えなければならないのはやはり不便だ。

 そこで米Microsoftは1月24日(現地時間)、「Teams」にオーディオ関連の新しい機能を導入したことを明らかにした。

 1つ目は、自動で音楽を検出機能する機能だ。同社はこの機能を実現するため、マイクの種類や室内の音響など、録音条件の異なる1,000,000以上ものオーディオクリップを準備し、ディープニューラルネットワークを学習させた。音声と音楽の識別精度には0.1%の偽陽性(スピーチやノイズが音楽として分類されること)という非常に厳しい条件が設けられたが、それでも81%以上という結果が得られたという。これはこの分野で発表されているすべての研究を大幅に上回る成果とのこと。

 音楽の自動検出は、今後数カ月のうちに一般的に利用できるようになる予定。通話やミーティング中に音楽が検出されると、もう1つの新機能「忠実度の高い音楽モード」(High-fidelity music mode)を有効にするよう促すポップアップが現れる。

通話やミーティング中に音楽が検出されると、もう1つの新機能「忠実度の高い音楽モード」を有効にするよう促すポップアップが現れる

 「High Fidelity」(Hi-Fi)とは、音声分野では「原音に忠実な音」を指す。「Teams」のようなコミュニケーションツールの場合、音声データを効率よく転送するため、話し声の特徴をとらえて圧縮を行うことが多いが、前述の通り、それでは音声ではないサウンドの品質が低下したり、カットされてしまう場合がある。「忠実度の高い音楽モード」ではこれを避けるため、128kbpsで32kHzのサンプリングレートをサポートし、内部のオーディオ処理も音声の再現性に重きを置いて最適化される。ネットワーク帯域が不十分な場合は48kbpまで減らして対応するという。

 実際に聞き比べたい場合は、公式ブログのサンプルを視聴してみるとよいだろう。

公式ブログで聴き比べが可能