使ってわかるCopilot+ PC

第33回

NPU対応LLM「DeepSeek R1」の7B/14Bが追加されたので試してみた

7B/14Bなら日本語も饒舌に話してくれるのか？

石田賀津男

2025年3月7日 06:55

「Visual Studio Code」の「AI Toolkit」ウインドウ

より大規模なNPU対応ローカルLLMが登場

　2月の頭、「Copilot+ PC」のNPUを利用できるLLMとして、「DeepSeek R1」の蒸留モデルが登場した。AIで最も注目されるLLMにおいて、ついにNPUが使用できるということで注目を集めた。

　それから1カ月ほど経ち、よりパラメーターの多い大規模な「DeepSeek R1」の蒸留モデルで、NPUに対応したものが2つ追加された。以前のものは1.5B、15億パラメーターと小さく、知識量はもとより日本語にも不自由するものだったが、今回はどうだろう？

今回も「Visual Studio Code」を使用

　今回新たに追加されたのは、「DeepSeek R1」の蒸留モデルのうち、パラメーターが7Bと14Bの2つ。1.5Bの5倍と10倍程度の規模のモデルとなる。

　LLMは規模が大きくなるほど知識量が増え、的確な回答ができるようになるとともに、会話能力も高まって饒舌になっていく。学習内容などによって得手不得手あり、パラメーターサイズが大きければ優秀とは限らないが、基本的には上質になる。

　ただし、サイズが大きくなるほど計算量とメモリ占有量も増えていく。1.5Bであれば一般的なPCで十分動かせる規模だが、7Bだとちょっと多めにメモリを積んだPCがいいし、14Bだと外付けGPUを積んだPCが欲しい、という印象がある。サイズを減らす量子化技術などもあり一概には言えないが、NPUがどこまで頑張れるか見るにはちょうどいいサイズだ。

　利用方法は以前の記事でお伝えしたとおり、「Visual Studio Code」から「AI Toolkit for Visual Studio Code」を利用し、各LLMをダウンロードする。

　モデル選択は以前と少しインターフェイスが変わり、現在は［CATALOG］の［Model］で、［All Filters］を選び、［Local run w/ NPU］を選択することで、NPUを使用するローカル動作用モデルだけを選べる。表示されたモデルで［Add］のボタンをクリックすればダウンロードとインストールが始まる。

以前よりNPU対応モデルを探しやすくなっている

7B/14Bの日本語能力はいかに？

　ではまず小さい方の「DeepSeek R1 Distilled 7b」から試してみよう。日本語を話せるか聞いてみたところ、英語で思考した後、日本語で回答した……というか、しようとしたがちょっと怪しい。日本語の質問としては理解しているようだ。

日本語が通じ、日本語で返そうとしているのはわかる

　では他の質問もしてみよう。窓の杜を知っているか尋ねたところ、全く違うものの解説を始めた。しかも回答の一部がループしており、あまり良くない状態だ。ちなみに回答のループは規模の小さいLLMではよく見られるもので、これが特別悪いわけではない。

窓の杜について尋ねたが、全く違う回答

　さらに日本の少子化問題や、現在のアメリカ大統領は誰かといった質問を投げてみたが、適切な回答は得られなかった。こちらの質問は受け取ってくれているが、上手い答えが返せない。おそらく日本語を使うことが問題になっているのではないかと思う。

少子化問題について聞くと、思考の途中でループが発生してしまった

アメリカ大統領の最新情報を持っていないのはわかっていたが、間違った回答を続けてしまう

　生成速度は、秒間5トークン程度。生成されるテキストが目で追えるくらいの速さだが、チャット相手として許せる範囲だ。もっとも、まだ会話と呼べる内容ではないのだが。NPUは確かに使用しているが、使用率は3割程度と低め。

NPUが使われているのを確認

　続いて大きい方こと「DeepSeek R1 Distilled 14b」。こちらも日本語を話せるか聞いてみたところ、謎の笑い声の羅列が永遠に続くループに入ってしまった。こういう反応もLLMあるあるなのだが、パラメーターサイズが大きくなっているだけに残念。

日本語を話せるか聞いたが完全におかしい

　続いて窓の杜について聞いてみると、今度はそこそこ読める日本語が返ってきた。内容は全くもっておかしいのだが、日本語を話す能力は上がっているようだ。少子化問題について尋ねた時も、内容はともかく、日本語の正確性が高まっているのはわかる。

窓の杜についてはそれらしい日本語で答えたが、内容は支離滅裂

少子化問題もそれっぽく答えるが、日本語がややおかしい

　ただ、日本語の質問に対して中国語で返答されることもあり、挙動は不安定。今回の蒸留モデルは日本語向きではないようだ。

日本語の質問に中国語で返答してしまうことも

　会話は秒間6～7トークンくらいで出力されており、7Bモデルと同等か少し早い。ただし16GBのメインメモリを搭載した「Surface Laptop」で実行する場合、メモリはかなりギリギリいっぱいまで使用する。NPUの使用率も8割近くで、こちらの方が格段に高い。

メモリ使用量やNPU使用率は14Bの方が格段に高い

より多くのLLMがNPUに対応するのを待ちたい

　今回のモデルは日本語ではまだ実用的と言えるレベルではない。「Copilot」などのクラウドベースのLLMとは比べるべくもない状態だ。

　ただ、これはモデル個別の問題であり、NPUを使うことによる問題ではない。実際に7Bや14Bのサイズで、日本語を的確に話し、立派な会話能力を有するLLMも多数ある。マイクロソフトにはこの調子でNPU対応のローカルLLMをどんどん出していただいて（あるいは他社から提供できるようになって）、比較検討できるくらいになればと思う。

　あと、現状では「Visual Studio Code」という開発者向けツールを使う必要があるのもネック。「AI Toolkit」もAIチャットツールとしてはUIの使い勝手が良いとは言えない。せっかくのNPU対応なので、ローカルLLMもっとカジュアルに試せる環境が整備されることを期待したい。

著者プロフィール：石田賀津男（いしだかつお）

1977年生まれ、滋賀県出身

ゲーム専門誌『GAME Watch』（インプレス）の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載『初月100円！オススメGame Pass作品』、『週末ゲーム』などを執筆。

・著者Webサイト：https://ougi.net/

Amazonで購入

「DeepSeek」関連商品 Amazonで購入