ニュース

オンライン会議がより楽しく、軽快に ~NVIDIA、ストリーミングビデオ向けAI技術「NVIDIA Maxine」を発表

通信帯域を大幅に軽減。クラウドベースでモバイルデバイスにも恩恵

NVIDIA、クラウドネイティブのストリーミングビデオ向けAIプラットフォーム「NVIDIA Maxine」を発表

 米NVIDIAは10月5日(現地時間)、クラウドネイティブのストリーミングビデオ向けAIプラットフォーム「NVIDIA Maxine」を発表した。オンライン会議ソリューションに組み込むことで、視線の補正や解像度の向上、ノイズキャンセリング、顔の再照明といった新しい効果をユーザーに提供できるようになる。

 「NVIDIA Maxine」の特徴は、AIによるビデオ加工処理がクラウドで処理される点だ。エンドユーザーは特殊なデバイスを追加する必要がなく、スマートフォンやタブレットといった比較的非力な環境でも恩恵を受けることができる。デスクトップ端末であっても、CPUやGPUリソースの消費が少ないのはメリットになりうるだろう。

 さらに、帯域幅を減らしながら、通信品質を向上できるのもポイント。「Maxine」は画面すべてのピクセルをストリーミングするのではなく、ミーティングに参加するメンバーの顔など、オンライン会議で重要な要素を分析し、その動きだけをピンポイントで転送する。また、NVIDIA GPUを活用したAIベースの新しい動画圧縮技術により、H.264ビデオストリーミングの1/10にまで帯域幅の仕様を削減できるとのこと。こうした工夫により、インターネットでやりとりされるデータ量とそれに伴う通信料を大きく減らしながらも、ビデオストリーミングの品質を維持できるというわけだ。

重要な要素を分析し、その動きだけをピンポイントで転送

 加えて、「Maxine」はオンライン会議にインタラクティブな要素を付け加えることもできる。たとえばAIによる顔の位置調整を利用すると、通話中によそ見をしていても相手と正面から向き合っているように自動補正される。視線の補正も可能で、カメラから目を離していてもアイコンタクトをシミュレーションして相手に伝えることが可能だ。

顔の位置調整や視線の補正も可能

 また、「Zoom」や「Microsoft Teams」ですっかりお馴染みとなった“バーチャル背景”を利用したり、アバターを身にまとい、声から分析された感情に基づきリアルタイムで表情をアニメーションさせることもできる。在籍時のフレームから人物像を合成し、スクリーンから離れていてもあたかもその場にいるかのように見せかける自動フレーム機能なども利用可能。ノイズの除去や音声の認識、文字起こし、クローズドキャプション、翻訳といった最近トレンドのAI機能も網羅している。

アバターを身にまとい、声から分析された感情に基づきリアルタイムで表情をアニメーション

 「NVIDIA Maxine」はまだ開発の途上にあるが、音声およびビデオのアプリ・サービスを開発しているコンピュータービジョンAIの開発者やソフトウェアパートナー、コンピューターメーカーであれば早期アクセスを申し込むことが可能。今後の展開に期待したい。

AI-Powered Video Conferencing with NVIDIA Maxine