ニュース
Microsoft、「Phi-4-mini-flash-reasoning」を発表 ~スループットは10倍、レイテンシは2~3倍削減
非力なデバイスでも動作する小規模言語モデル(SLM)
2025年7月10日 10:17
米Microsoftは7月9日(現地時間)、小規模言語モデル(SLM)「Phi」ファミリーの新エディション「Phi-4-mini-flash-reasoning」を発表した。計算能力やメモリ、レイテンシ制限などの厳しいシナリオに特化して設計されており、エッジデバイスやモバイルアプリケーションなどのリソースが制限された環境でも高度な推論が可能だ。
「Phi-4-mini-flash-reasoning」 は基本的に既存の「Phi-4-mini」を発展させたもので、高度な数学推論に最適化されている。パラメーターは38億で、64Kのトークンコンテキスト長をサポートし、「Phi」ファミリーの他のモデルと同様、シングルGPUで展開できる。2025年2月までの知識を持つ静的モデルで、入出力ともにテキストのみの対応となる。
特徴は、新たに採用された「SambaY」と呼ばれるアーキテクチャーだ。多層化されたニューラルネットワークで学習がうまくいかなくなったり、最初のほうに入力した情報を忘れてしまう問題を解決するため「Gated Memory Unit」(GMU)というメカニズムを導入したほか、「Mamba」(State Space Model)と「Sliding Window Attention」(SWA)を組み合わせたセルフデコーダーと1層のフルアテンションが含まれる。
これによりデコード効率が劇的に改善され、ロングコンテキストの検索性能が向上。推論性能を犠牲にすることなく、最大で10倍のスループットと平均2~3倍のレイテンシ削減を実現できるとのこと。「Phi-4-mini-reasoning」と比べ、とくに長いコンテキスト生成とレイテンシに厳しい推論タスクにおいて優位にあるという。数学と構造化推論を得意とする軽量モデルということで、教育技術、軽量シミュレーション、自動評価ツールなどへの応用に期待がかかる。
「Phi-4-mini-flash-reasoning」は現在、「Azure AI Foundry」、「NVIDIA API Catalog」、「Hugging Face」から利用可能だ。