ニュース

Microsoft、新しい小規模言語モデル「Mu」を発表 ~「設定」検索AIの頭脳

NPUを用いたローカル動作に最適化、「Phi-3.5-mini」の1/10でありながら速さは同等

現在「Copilot+ PC」でテストされている「設定」アプリの検索エージェントで用いられる「Mu」

 米Microsoftは11月23日(現地時間)、最新のオンデバイス小規模言語モデル(SLM)「Mu」を発表した。複雑な入力と出力の関係を推論する必要があるシナリオに適しており、ローカルで実行する際にも高いパフォーマンスを発揮するように設計されているという。

 「Mu」は「Copilot+ PC」搭載のAIプロセッサー「NPU」で小規模に展開することへ特化した、効率的な330Mエンコーダー/デコーダー言語モデル。「Mu」が活躍するのは、たとえば現在「Copilot+ PC」でテストされている「設定」アプリの検索エージェントだ。

 この設定エージェントは自然言語の入力クエリ(「マウスカーソルが小さすぎる」など)を受け取ると、「設定」アプリの機能呼び出し(「マウスカーソルを3ポイント大きくする」)にマッピングする。従来であればこうした処理の完了にはかなりの時間がかかり、ユーザーは検索して結果を受け取るまでに長い時間を待たされるが、「Mu」は処理をNPUにオフロード(任せる)ことで、1秒あたり100トークンを超える応答速度を実現する。そのため、バックグラウンドで比較的重いAI処理が行われているにもかかわらず、応答時間の目標は500ミリ秒以下で、通常の検索機能とほとんどかわらない使い勝手が得られる。

 「Mu」は「Phi Silica」をNPUで実行できるようにするにあたり、最適なパフォーマンスと効率を得るためのモデルチューニングに取り組んだ際に得られた知見が応用されているという。入力トークンと出力トークンをわけて処理するエンコーダー=デコーダーアプローチにより、入力・出力シーケンス全体を考慮する必要がなくなり、計算とメモリのオーバーヘッドを大幅に削減できるようになるのが肝で、同様のサイズのデコーダーのみのモデルと比較して、ファーストトークンのレイテンシー(遅延)が約47%低く、デコード速度が4.7倍も向上したという。こうした特徴は、オンデバイスおよびリアルタイムアプリケーションにとって非常に重要だ。

入力トークンと出力トークンをわけて処理するエンコーダー=デコーダーアプローチ(左)とでコードのみのモデル(右)

 そのほかにも、「Mu」はNPUの制約や機能にあわせて慎重に調整されているとのこと。AMD、Intel、Qualcommと連携し、ハードウェアごとの最適化も実施さた。さらに、同社の「Phi」モデルから知識蒸留を行うことにより、高効率化も図られている。

 その結果、同様に微調整された「Phi-3.5-mini」と比較しても、「Mu」は1/10のサイズであるにもかかわらず、パフォーマンスがほぼ同等であり、数万の入力コンテキスト長と1秒あたり100を超える出力トークンを処理できる。

 設定エージェントでは短くてあいまいなクエリを扱う必要があるため、たとえば、「明るさを上げる」のような単純なクエリであっても、デュアルモニター環境であればそれがプライマリモニターなのか、セカンダリモニターなのかといった区別が難しいことがある。こうしたシナリオにも対処するため、同社は今後も、トレーニングデータの改良などを通じてエクスペリエンスを改善するとしている。