DeepSeek R1は、中国のITスタートアップDeepSeek社の開発したLLMです。OpenAI o1並みの性能を持つとされています。特筆すべきは、OpenAIよりもオープンだということ。AIのモデルデータが、MITライセンスで提供されています。つまり、商用利用可能ってことだ。
DeepSeek R1の蒸留モデル(サイズを小さくした代わりにちょっとおバカになったモデル)なら、ローカル環境のパソコンでも動かすことができます。
DeepSeek-R1 Llama 8B、俺のパソコンで動かすとこのくらいの速さで回答してくれる(※倍速なし)。自分のパソコンのローカル環境でLLMが動いているってだけで、ちょっと感動があるな…? pic.twitter.com/cvRJ9E7Eqs
— Rootport🔥 (@rootport) 2025年1月21日
この記事では、「LM studio」というアプリケーションを用いてDeepSeek R1の蒸留モデルを動かす方法を紹介します。
ちなみにLM studioは商用利用ができないようです。とりあえず趣味的にLLMをご自宅のパソコンで動かしてみたい人向け。
- LM studioの動作要件
- 手順1)Python 3.10のインストール
- 手順2)LM studioのインストール
- 手順3)Runtimeをダウンロードする
- 手順4)モデルデータをダウンロードする
- 手順5)モデルデータをロードする
- 手順6)準備完了!AIと会話してみよう!
- 触ってみた感想
LM studioの動作要件
1. サポートされるOS:
macOS: macOS Catalina(10.15)以降
Linux: Ubuntu 18.04 LTS以降、Fedora 33以降
2. ハードウェア要件:
・プロセッサ: マルチコアIntel i5/Ryzen 5以上
※今どきのパソコンのCPUなら大抵は動くと思います。
・メモリ(RAM): 最低16 GB、推奨32 GB
・ストレージ:最低100 GBの空きディスクスペース
※SSDが推奨です。LLMはサイズが大きく読み書きに時間がかかるため。
※CUDAと書いて「くだ」と読みます。
手順1)Python 3.10のインストール
LM studioを導入する下準備として、プログラミング言語のPythonをインストールしておきましょう。LM studioはPython 3.7以上が動作要件ですが、AIで遊ぶなら最新版ではなくPython 3.10がオススメ。画像生成AIのStable Diffusionの関連ツールは、大抵がこのバージョンで作られているからです。
※①Downloadsタブから②Windowsを選択し、
※ページ下部の「3.10.**」から「Windows installer(64-bit)」をダウンロードしましょう。(このスクショを撮影したのは少し前なので、ちょっと古いVer.が映っています)
【ヒント1】
大抵のブラウザでは「Ctrl+F」でページ内の検索ができます。Ctrl+F→「3.10」と入力すれば、目的のファイルを素早く見つけられます。
ダウンロードが完了したら、『python-3.10.**-amd64.exe』を実行してPythonをインストールしてください。
【注意】Add python 3.10 to PATHのチェックボックスにチェックを入れてください。チェックを入れ忘れると、いわゆる「パスが通っていない」という状況になり、色々と面倒くさい修正作業が発生します。
※Add Python 3.10 to PATHにチェックを入れる。
「Setup was successful」と表示されたら、Pythonのインストールは完了です。
「Close」ボタンを押してウィンドウを閉じてください。
手順2)LM studioのインストール
下記のサイトからLM studioのインストーラーをダウンロードしてインストールします。
ダウンロードした「.exe」ファイルをダブルクリックすると、インストーラーが起動します。指示にしたがって「次へ(N)」ボタンをクリックしていけば、インストールは完了です。
インストールが完了すると、以下の画面が立ち上がります。
手順3)Runtimeをダウンロードする
Runtimeとは、プログラムを動かすための土台となる環境設定のことです。映画に対する「映画館」のようなものだと考えてください。これがないとAIが動きません。
①画面左端の「虫眼鏡マーク」をクリックすると、ダウンロード画面が開きます。
②「Runtimes」を選択。
③あなたのパソコンの環境に合わせたRuntimeをダウンロードしてください。
※CUDA対応のNVIDIA製GPUを使用している場合、「CUDA llama.cpp」がオススメです。GPUの性能をきちんと活かせる、らしい。
手順4)モデルデータをダウンロードする
①「Model Search」をクリックします。
②検索窓に「DeepSeek R1」と入力。
③検索結果欄に、DeepSeekの様々なバージョンが表示されます。
④とにかく動かしてみたい!という人は、できるだけ規模の小さいモデルを選ぶといいでしょう。モデル名の末尾の「7B」などの数字は、そのモデルのパラメータ数を指しています。たとえば「7B」なら、7 Billion、つまり70億です。
⑤「Download」ボタンを押すと、モデルデータのダウンロードが始まります。
【ヒント】ダウンロードの管理画面
画面左下のダウンロードボタンをクリックすると、ダウンロードの管理画面が開きます。ダウンロードが進まなくなったり中断してしまった場合には、この画面を開きましょう。ダウンロードをキャンセルしたり、再開したりできます。
手順5)モデルデータをロードする
①画面上部の「Select a model to load」をクリックしましょう。
②ダウンロード済みのモデルデータの一覧が表示されます。試してみたいモデルデータをクリックします。
③すると、モデルデータを実行するときの環境設定画面が開きます。マシンスペックに応じて適切な数値が自動的に記入されるようなので、とくにいじる必要はありません。
もしも調整するとしたら「GPU Offload」の項目です。この項目では、AIの推論のうちどの程度をGPUに行わせるかを設定できます。基本的には、CPUで処理するよりもGPUで処理する方が高速で計算できます。後述の【ヒント】を参照。
④「Load Model」をクリックすると、モデルデータのロードが始まります。
【ヒント】VRAMの〝溢れ〟に注意!
「GPU Offload」の項目を最適化するには、タスクマネージャーでGPUの使用率を確認するといいでしょう。
①専用GPUメモリとは、GPU(グラフィックボード)に備え付けられたRAM――いわゆる「VRAM」――を意味しています。GPUで処理するデータは、ここに一時保存されます。
②しかしあまりにも大きなデータを扱おうとすると、VRAMにはデータが収まりきらなくなります。溢れてしまったデータは、パソコンのメインメモリで一時保存されます。この「VRAMに入らなかったぶん」が、共有GPUメモリの欄に表示されます。
VRAMの〝溢れ〟が生じると、AIの推論速度が大幅に遅くなります。
GPUのVRAMには、通常、最新世代の高速でデータを読み書きできるハードウェアが用いられています。一方、メインメモリのハードウェアは、大抵の場合、読み書き速度でVRAMに大きく劣ります。そのため、メインメモリの読み書き速度がボトルネックとなってしまうのです。
したがって「GPU Offload」の最適値は、専用GPUメモリをギリギリまで使い切りつつ、共有GPUメモリにデータが溢れない水準になります。
AIに回答を生成させながら、メモリが溢れないギリギリの水準を検証するといいでしょう。
手順6)準備完了!AIと会話してみよう!
以上で準備は完了です。画面下部のメッセージ入力欄にプロンプトを打ち込んで、AIと会話してみましょう。
【ヒント】DeepSeek R1は日本語が苦手!
DeepSeek R1は中国で開発されたため、日本語の処理は苦手です。プロンプトの冒頭に「Think in English, generate answers in Japanese(英語で思考して、日本語で回答を生成してください)」と入力すると、回答の精度が高まります。
以上のように、DeepSeek R1が回答を生成してくれました。
触ってみた感想
本家のDeepSeek R1およびDeepSeek V3は、その性能の高さ&価格の安さで話題です。ChatGPTやGemini、Claudeのお株を奪いそうな勢いで人気を集めています。
一方、その蒸留モデルになると、さすがに頭は悪いです。私の環境では32Bまでを試すことができましたが、性能としてはGPT-3.5と同じかちょっと低いくらいだという感想。o1クラスのAIがローカルで動くまでには、まだ時間がかかりそうです。
この「あまり賢くないAI」をローカルで動かせるとして、どんな使い道があるだろう? 何か特定のタスクのためにファインチューニングすれば、多少は上手く利用できるだろうか? ……と、頭を捻るのは楽しいです。
って感じの話をKADOKAWAの担当編集者にしたら、「Rootportさんは幅広いっていうか、一体どこに向かっていらっしゃるんですか?」と訊かれました。
俺も知りたい。
◇
なお、ローカルLLMを商用利用したい人向けには、「Ollama」と「Open WebUI」を用いるという方法もあります。(※CUIでの操作に慣れている人なら、Open WebUIは不要です。Ollamaだけでも動かせます)
ただし、Open WebUIは現状ではLinux版しかリリースされておらず、Windowsで動かすにはLinux環境をエミュレートする必要があります。(※Dockerというアプリケーションを用います)
こちらもいずれ試してみて、このブログで導入方法をご紹介したいです。