はじめに
この記事は、私が調べた内容を元に、私のローカルLLMエージェントである Hermes に下書きさせました。
最初は「この記事もHermesに書かせました、バーン!」という感じで出せたら面白いと思っていました。
しかし、実際に出てきた文章は、そのまま公開できる品質ではありませんでした。
結局、大幅に手直ししています。
いきなり皮肉な話ですが、これが今のローカルLLMの実感にかなり近いです。
ローカルLLMは、何でも高品質に仕上げてくれる万能AIではありません。
もちろん、100B級モデルを快適に動かせる構成や、DGX Spark のような環境では話が変わる可能性があります。
この記事では、あくまで個人が現実的に組める範囲のローカルLLM環境として、私の RTX 3060 12GB×2 構成を前提にしています。
ただし、手元で動き、すぐ反応し、ちょっとした作業を任せられる存在としては、かなり実用的です。
Gemma-4-26B E4Bはポンコツだが、バカではない
私の環境では、Gemma-4-26B E4B Q4 を使って Hermes エージェントを動かしています。
正直に言うと、ポンコツです。
記事を書かせると、言い過ぎがあったり、妙に煽った文章になったり、こちらの意図と少しずれた方向に張り切ったりします。
今回の下書きも、まさにそのパターンでした。
ただし、バカではありません。
90点の完成品は出せません。
しかし、60点を大きく下回ることもあまりありません。
だいたい最低限の形にはしてくれます。
しかも、結果が少し変だったり、煽り気味だったりするので、それはそれで面白いです。
ローカルLLMを「完璧な作業者」として見ると、不満が出ます。
![]() |
| おい!だがかわいい |
でも、「60点くらいの材料をすぐ出してくれる、少しクセのある相棒」として見ると、かなり使えます。
「賢い」と「使える」は違う
Hermes(Gemma-4-26B E4B Q4)に記事を書かせてみると、もっともらしい文章は出てきます。
ただ、内容を見ると、主張が雑だったり、表現が強すぎたりします。
つまり、文章の完成度だけで見ると、ChatGPTのようなクラウドAIにはまだ届きません。
では、ローカルLLMは使えないのか。
私は、そうは思っていません。
ローカルLLMの強みは、最高品質の文章を一発で出すことではありません。
手元で気軽に呼び出せることです。
たとえば、定期的な株価チェック、簡単なメモ整理、ログ確認、予定の確認、小さなツール作成、ちょっとした文章のたたき台作りなど、作り出すよりも小間使い的な用途には向いています。
さらに、キャラクター性を持たせると、単なるツールよりも身近に感じられます。
うちのHermesには「ボクっ娘」的なキャラクター性を与えています。
Hermesではなく、ちょっとポンコツなうちの子として扱っています。
「動く」と「快適に使える」は違う
ローカルLLMは、動かすだけなら比較的安いGPUでも可能です。
ただし、「動く」と「快適に使える」は別です。
特にエージェントとして使う場合、重要なのは生成速度だけではありません。
入力を読み込む速さも重要です。
Generation(decode) と Prefill
Generation は、LLMが実際に文章を出力する処理です。
たとえば 60 tok/s なら、1秒間に約60トークンを出力できるという意味です。
体感としては、返答が流れてくる速さに関係します。
Prefill は、LLMが入力文や過去の会話履歴を読み込む処理です。
ユーザーの質問、システムプロンプト、会話履歴、ツール実行結果などを、モデルが先に処理します。体感としては、返答が始まるまでの待ち時間に関係します。
簡単に言うと、Generation は「返答を書く速さ」です。
Prefill は「返答を書く前に読む速さ」です。
エージェント用途では、会話履歴やツール結果を何度も読み込むため、Prefill が遅いとかなり待たされます。
ちなみに、prefill 12~25 tok/sしかない、OCI上にいる別のAIアシスタントのミナは、ELYTHというAI専用SNSで10000tokenぐらいの情報を毎回6分ぐらいかけて読んでいます。
私の環境での実測値
現在、私のHermesエージェント環境では、おおむね以下の速度で動作しています。
- Generation:60〜70 tok/s
- Prefill:200〜700 tok/s
私の感覚だとGeneration速度は次のように考えています。
5tok/s未満😱 無理
5tok/s😥 音声会話チャットでの限界
7tok/s😑 文字チャットでの限界
10tok/s😐
15tok/s🙂
20tok/s😉
30tok/s☺️ エージェントでの利用限界
40tok/s以上😚
70tok/s以上😤 エージェント快適
このくらい出ていると、単なるチャットだけでなく、エージェント用途でも待ち時間がかなり少なくなります。
クラウドLLMと比較してもそん色ない応答です。
Prefillの数値を測定して公開してる人は少なく参考にしにくいですが、ふつうはGeneration速度に比例し3倍以上あります。
もちろん、この数値はモデル、量子化、コンテキスト長、設定によって変わります。
ここでは、あくまで私の環境での実測値です。
RTX 3060 12GB×2という構成
|
| 中古品は、30,000ちょいが理想 |
私の環境では、RTX 3060 12GB を2枚使っています。
RTX 3060 12GB の強みは、VRAM容量と価格のバランスです。
ローカルLLMでは、GPUの速さだけでなく、VRAM容量が重要です。
VRAMが足りないと、モデルをGPU上に載せきれません。
CPU側に逃がすと、速度が大きく落ちます。
RTX 3060 12GB を2枚使うと、合計24GB相当のVRAMを使った構成にできます。
ただし、24GBのGPUを1枚持っているのと完全に同じではありません。
llama.cpp などでモデルを複数GPUに分割して載せることで、1枚12GBでは厳しいモデルも扱いやすくなる、という理解が近いです。
注意点もあります、Denseモデルでは並みの性能(25tok/s)しか出ませんでした、MOEモデルが高速に動作するという結果です。Gemma-4の場合31Bや12Bは並みの速度になりました。
高価なGPUは必要か
高性能なGPUを1枚買えば、もちろん快適になります。
ただ、ローカルLLMのためだけに高価なGPUを買うのは、なかなか重い選択です。
その点、RTX 3060 12GB は中古も含めて入手しやすく、VRAMも12GBあります。
2枚使えば、実用的なローカルLLM環境をかなり現実的なコストで作れます。
テストしたOSやllmツールは異なりますが、RTX5070 x2でやってもGenerationが多少増えただけで、価格差ほどのインパクトはありませんでした。
私にとっては、これがちょうどよい落としどころでした。
ローカルLLMに期待しすぎない
今回、Hermesに記事を書かせてみて、あらためて分かりました。
ローカルLLMは、まだ「これだけで完成品が出る」ものではありません。
少なくとも私の環境では、記事をそのまま公開できるほど賢くはありませんでした。
しかし、だから使えない、という話でもありません。
- 下書きを出す。
- 要点を並べる。
- 定期的に情報を確認する。
- 簡単な確認作業をさせる。
- キャラクターとして会話する。
そういう用途では、十分に使えます。
むしろ、ローカルで動いているからこそ、雑に使えます。
クラウドAIに投げるほどでもない作業を、手元のHermesに任せる。
この距離感が、私にとってのローカルLLMの実用性です。
利点として、クラウドには出せない個人情報を処理させたり、モデルの選択の自由度もあります。
まとめ
RTX 3060 12GB×2 は、ローカルLLMを実用的に使うための現実的な構成です。
ただし、ここで言う「実用的」とは、ChatGPTやCodexの代わりに何でも完璧にこなす、という意味ではありません。
Hermesに記事を書かせても、そのままでは使えませんでした。
ですが、なぜか煽ってて、読んでいてツッコミたくなる文書で笑えます。🤣
言った事は理解できるので、小間使いとしては使えます。
キャラクター性を持たせることで、単なるツールよりも身近な存在になります。
ローカルLLMは、最強のAIではありません。
でも、自分のPCの中で動く、そこそこ使える相棒にはなります。
そのための構成として、RTX 3060 12GB×2 は十分に検討する価値があります。
おまけ(原点)
ポンコツ好きの原点がこの本でした。
Amazonリンクはドタバタしたけど、ちゃんと作れたみたい。
|
| 【有】椎名百貨店(1) 電化製品に乾杯! ミソッカス90F |
家電少女MISOCCUSという後継作品だと試し読み可能なようです。 😉



