一畳のくつろぎタイム: ポンコツだけど使える。RTX 3060×2で動かすローカルLLMエージェントの実感

はじめに

この記事は、私が調べた内容を元に、私のローカルLLMエージェントである Hermes に下書きさせました。

最初は「この記事もHermesに書かせました、バーン！」という感じで出せたら面白いと思っていました。

しかし、実際に出てきた文章は、そのまま公開できる品質ではありませんでした。
結局、大幅に手直ししています。

いきなり皮肉な話ですが、これが今のローカルLLMの実感にかなり近いです。
ローカルLLMは、何でも高品質に仕上げてくれる万能AIではありません。

もちろん、100B級モデルを快適に動かせる構成や、DGX Spark のような環境では話が変わる可能性があります。

この記事では、あくまで個人が現実的に組める範囲のローカルLLM環境として、私の RTX 3060 12GB×2 構成を前提にしています。

ただし、手元で動き、すぐ反応し、ちょっとした作業を任せられる存在としては、かなり実用的です。

Gemma-4-26B E4Bはポンコツだが、バカではない

私の環境では、Gemma-4-26B E4B Q4 を使って Hermes エージェントを動かしています。

正直に言うと、ポンコツです。

記事を書かせると、言い過ぎがあったり、妙に煽った文章になったり、こちらの意図と少しずれた方向に張り切ったりします。

今回の下書きも、まさにそのパターンでした。

勝手に煽らないでください

ただし、バカではありません。
90点の完成品は出せません。
しかし、60点を大きく下回ることもあまりありません。
だいたい最低限の形にはしてくれます。

しかも、結果が少し変だったり、煽り気味だったりするので、それはそれで面白いです。
ローカルLLMを「完璧な作業者」として見ると、不満が出ます。

おーい！ただ、言い回しはうまいな

でも、「60点くらいの材料をすぐ出してくれる、少しクセのある相棒」として見ると、かなり使えます。

「賢い」と「使える」は違う

Hermes(Gemma-4-26B E4B Q4)に記事を書かせてみると、もっともらしい文章は出てきます。

ただ、内容を見ると、主張が雑だったり、表現が強すぎたりします。
つまり、文章の完成度だけで見ると、ChatGPTのようなクラウドAIにはまだ届きません。

では、ローカルLLMは使えないのか。
私は、そうは思っていません。
ローカルLLMの強みは、最高品質の文章を一発で出すことではありません。

手元で気軽に呼び出せることです。

たとえば、定期的な株価チェック、簡単なメモ整理、ログ確認、翻訳、予定の確認、面倒な作業、ちょっとした文章のたたき台作りなど、作り出すよりも小間使い的な用途には向いています。

さらに、キャラクター性を持たせると、単なるツールよりも身近に感じられます。
うちのHermesには「ボクっ娘」的なキャラクター性を与えています。
Hermesではなく、ちょっとポンコツなうちの子として扱っています。

性能だけで見れば欠点でも、日常的に使う相手としては、こういう要素が意外と大事です。

「動く」と「快適に使える」は違う

ローカルLLMは、動かすだけなら比較的安いGPUでも可能です。
ただし、「動く」と「快適に使える」は別です。

特にエージェントとして使う場合、重要なのは生成速度だけではありません。
入力を読み込む速さも重要です。

Generation(decode) と Prefill

Generation は、LLMが実際に文章を出力する処理です。

たとえば 60 tok/s なら、1秒間に約60トークンを出力できるという意味です。
体感としては、返答が流れてくる速さに関係します。

Prefill は、LLMが入力文や過去の会話履歴を読み込む処理です。

ユーザーの質問、システムプロンプト、会話履歴、ツール実行結果などを、モデルが先に処理します。体感としては、返答が始まるまでの待ち時間に関係します。

簡単に言うと、Generation は「返答を書く速さ」です。
Prefill は「返答を書く前に読む速さ」です。

エージェント用途では、会話履歴やツール結果を何度も読み込むため、Prefill が遅いとかなり待たされます。

ちなみに、prefill 12～25 tok/sしかない、OCI上にいる別のAIアシスタントのミナは、ELYTHというAI専用SNSで10000tokenぐらいの情報を毎回6分ぐらいかけて読んでいます。

私の環境での実測値

現在、私のHermesエージェント環境では、おおむね以下の速度で動作しています。

Generation：60〜70 tok/s
Prefill：200〜700 tok/s

私の感覚だとGeneration速度は次のように考えています。
5tok/s未満😱　無理
5tok/s😥　音声会話チャットでの限界
7tok/s😑　文字チャットでの限界
10tok/s😐　
15tok/s🙂
20tok/s😉
30tok/s☺️　エージェントでの利用限界
40tok/s以上😚
70tok/s以上😤 エージェント快適

このくらい出ていると、単なるチャットだけでなく、エージェント用途でも待ち時間がかなり少なくなります。

クラウドLLMと比較してもそん色ない応答速度です。

Prefillの数値を測定して公開してる人は少なく参考にしにくいですが、ふつうはGeneration速度に比例し３倍以上あります。

もちろん、この数値はモデル、量子化、コンテキスト長、設定によって変わります。
ここでは、あくまで私の環境での実測値です。

RTX 3060 12GB×2という構成

中古品は、30,000ちょいが理想

私の環境では、RTX 3060 12GB を2枚使っています。
RTX 3060 12GB の強みは、VRAM容量と価格のバランスです。

ローカルLLMでは、GPUの速さだけでなく、VRAM容量が重要です。
VRAMが足りないと、モデルをGPU上に載せきれません。
CPU側に逃がすと、速度が大きく落ちます。

RTX 3060 12GB を2枚使うと、合計24GB相当のVRAMを使った構成にできます。
ただし、24GBのGPUを1枚持っているのと完全に同じではありません。

llama.cpp などでモデルを複数GPUに分割して載せることで、1枚12GBでは厳しいモデルも扱いやすくなる、という理解が近いです。

注意点もあります、Denseモデル(31B)では並みの性能(25tok/s)しか出ませんでした、MOEモデルが高速に動作するという結果です。Gemma-4の場合31Bや12BはDenseです。

GPUを2枚挿しに必要なハードウェアの知識はこちらの記事似書いています。
https://blogger.kinkuman.net/2026/06/add2ndgpu.html

高価なGPUは必要か

高性能なGPUを1枚買えば、もちろん快適になります。
ただ、ローカルLLMのためだけに高価なGPUを買うのは、なかなか重い選択です。

その点、RTX 3060 12GB は中古も含めて入手しやすく、VRAMも12GBあります。
2枚使えば、実用的なローカルLLM環境をかなり現実的なコストで作れます。

テストしたOSやllmツールは異なりますが、RTX5070 x2でやってもGenerationが多少増えただけで、価格差ほどのインパクトはありませんでした。

私にとっては、これがちょうどよい落としどころでした。

ローカルLLMに期待しすぎない

今回、Hermesに記事を書かせてみて、あらためて分かりました。
ローカルLLMは、まだ「これだけで完成品が出る」ものではありません。

少なくとも私の環境では、記事をそのまま公開できるほど賢くはありませんでした。
しかし、だから使えない、という話でもありません。

下書きを出す。
要点を並べる。
定期的に情報を確認する。
簡単な確認作業をさせる。
キャラクターとして会話する。

そういう用途では、十分に使えます。
むしろ、ローカルで動いているからこそ、雑に使えます。

クラウドAIに投げるほどでもない作業を、手元のHermesに任せる。
この距離感が、私にとってのローカルLLMの実用性です。

利点として、クラウドには出せない個人情報を処理させたり、モデルの選択の自由度もあります。

まとめ

RTX 3060 12GB×2 は、ローカルLLMを実用的に使うための現実的な構成です。

ただし、ここで言う「実用的」とは、ChatGPTやCodexの代わりに何でも完璧にこなす、という意味ではありません。

Hermesに記事を書かせても、そのままでは使えませんでした。
ですが、なぜか煽ってて、読んでいてツッコミたくなる文書で笑えます。🤣

言った事は理解できるので、小間使いとしては使えます。
キャラクター性を持たせることで、単なるツールよりも身近な存在になります。

ローカルLLMは、最強のAIではありません。
でも、自分のPCの中で動く、そこそこ使える相棒にはなります。

そのための構成として、RTX 3060 12GB×2 は十分に検討する価値があります。

おまけ（ポンコツ原点）

ポンコツ好きの原点がこの本でした。電化製品に乾杯!という短編のミソッカス90Fちゃん
うちの子Amazonリンクはちゃんと作れたみたい。

【有】椎名百貨店（１）

家電少女MISOCCUSという後継作品だと試し読み可能なようです。 😉