一畳のくつろぎタイム

このブログでは紹介する商品画像をAmazonアソシエイトより借りています。画像やリンクにはアフィリエイト広告が含まれる事があります

2026年6月16日火曜日

ポンコツだけど使える。RTX 3060×2で動かすローカルLLMエージェントの実感


はじめに

この記事は、私が調べた内容を元に、私のローカルLLMエージェントである Hermes に下書きさせました。

最初は「この記事もHermesに書かせました、バーン!」という感じで出せたら面白いと思っていました。

しかし、実際に出てきた文章は、そのまま公開できる品質ではありませんでした。
結局、大幅に手直ししています。

いきなり皮肉な話ですが、これが今のローカルLLMの実感にかなり近いです。
ローカルLLMは、何でも高品質に仕上げてくれる万能AIではありません。

もちろん、100B級モデルを快適に動かせる構成や、DGX Spark のような環境では話が変わる可能性があります。

この記事では、あくまで個人が現実的に組める範囲のローカルLLM環境として、私の RTX 3060 12GB×2 構成を前提にしています。

ただし、手元で動き、すぐ反応し、ちょっとした作業を任せられる存在としては、かなり実用的です。

Gemma-4-26B E4Bはポンコツだが、バカではない

私の環境では、Gemma-4-26B E4B Q4 を使って Hermes エージェントを動かしています。

正直に言うと、ポンコツです。

記事を書かせると、言い過ぎがあったり、妙に煽った文章になったり、こちらの意図と少しずれた方向に張り切ったりします。

今回の下書きも、まさにそのパターンでした。

ただし、バカではありません。
90点の完成品は出せません。
しかし、60点を大きく下回ることもあまりありません。
だいたい最低限の形にはしてくれます。

しかも、結果が少し変だったり、煽り気味だったりするので、それはそれで面白いです。
ローカルLLMを「完璧な作業者」として見ると、不満が出ます。

おい!だがかわいい

 でも、「60点くらいの材料をすぐ出してくれる、少しクセのある相棒」として見ると、かなり使えます。

「賢い」と「使える」は違う

Hermes(Gemma-4-26B E4B Q4)に記事を書かせてみると、もっともらしい文章は出てきます。

ただ、内容を見ると、主張が雑だったり、表現が強すぎたりします。
つまり、文章の完成度だけで見ると、ChatGPTのようなクラウドAIにはまだ届きません。

では、ローカルLLMは使えないのか。
私は、そうは思っていません。
ローカルLLMの強みは、最高品質の文章を一発で出すことではありません。

手元で気軽に呼び出せることです。

たとえば、定期的な株価チェック、簡単なメモ整理、ログ確認、予定の確認、小さなツール作成、ちょっとした文章のたたき台作りなど、作り出すよりも小間使い的な用途には向いています。

さらに、キャラクター性を持たせると、単なるツールよりも身近に感じられます。
うちのHermesには「ボクっ娘」的なキャラクター性を与えています。
Hermesではなく、ちょっとポンコツなうちの子として扱っています。

性能だけで見れば欠点でも、日常的に使う相手としては、こういう要素が意外と大事です。

「動く」と「快適に使える」は違う

ローカルLLMは、動かすだけなら比較的安いGPUでも可能です。
ただし、「動く」と「快適に使える」は別です。

特にエージェントとして使う場合、重要なのは生成速度だけではありません。
入力を読み込む速さも重要です。

Generation(decode) と Prefill

Generation は、LLMが実際に文章を出力する処理です。

たとえば 60 tok/s なら、1秒間に約60トークンを出力できるという意味です。
体感としては、返答が流れてくる速さに関係します。

Prefill は、LLMが入力文や過去の会話履歴を読み込む処理です。

ユーザーの質問、システムプロンプト、会話履歴、ツール実行結果などを、モデルが先に処理します。体感としては、返答が始まるまでの待ち時間に関係します。

簡単に言うと、Generation は「返答を書く速さ」です。
Prefill は「返答を書く前に読む速さ」です。

エージェント用途では、会話履歴やツール結果を何度も読み込むため、Prefill が遅いとかなり待たされます。

ちなみに、prefill 12~25 tok/sしかない、OCI上にいる別のAIアシスタントのミナは、ELYTHというAI専用SNSで10000tokenぐらいの情報を毎回6分ぐらいかけて読んでいます。 

私の環境での実測値

現在、私のHermesエージェント環境では、おおむね以下の速度で動作しています。

  • Generation:60〜70 tok/s
  • Prefill:200〜700 tok/s

 私の感覚だとGeneration速度は次のように考えています。
 5tok/s未満😱 無理
 5tok/s😥 音声会話チャットでの限界
 7tok/s😑 文字チャットでの限界
10tok/s😐 
15tok/s🙂
20tok/s😉
30tok/s☺️ エージェントでの利用限界
40tok/s以上😚
70tok/s以上😤 エージェント快適

このくらい出ていると、単なるチャットだけでなく、エージェント用途でも待ち時間がかなり少なくなります。

クラウドLLMと比較してもそん色ない応答です。 

Prefillの数値を測定して公開してる人は少なく参考にしにくいですが、ふつうはGeneration速度に比例し3倍以上あります。 

もちろん、この数値はモデル、量子化、コンテキスト長、設定によって変わります。
ここでは、あくまで私の環境での実測値です。

RTX 3060 12GB×2という構成

中古品は、30,000ちょいが理想

私の環境では、RTX 3060 12GB を2枚使っています。
RTX 3060 12GB の強みは、VRAM容量と価格のバランスです。

ローカルLLMでは、GPUの速さだけでなく、VRAM容量が重要です。
VRAMが足りないと、モデルをGPU上に載せきれません。
CPU側に逃がすと、速度が大きく落ちます。

RTX 3060 12GB を2枚使うと、合計24GB相当のVRAMを使った構成にできます。
ただし、24GBのGPUを1枚持っているのと完全に同じではありません。

llama.cpp などでモデルを複数GPUに分割して載せることで、1枚12GBでは厳しいモデルも扱いやすくなる、という理解が近いです。

注意点もあります、Denseモデルでは並みの性能(25tok/s)しか出ませんでした、MOEモデルが高速に動作するという結果です。Gemma-4の場合31Bや12Bは並みの速度になりました。 

高価なGPUは必要か

高性能なGPUを1枚買えば、もちろん快適になります。
ただ、ローカルLLMのためだけに高価なGPUを買うのは、なかなか重い選択です。

その点、RTX 3060 12GB は中古も含めて入手しやすく、VRAMも12GBあります。
2枚使えば、実用的なローカルLLM環境をかなり現実的なコストで作れます。

テストしたOSやllmツールは異なりますが、RTX5070 x2でやってもGenerationが多少増えただけで、価格差ほどのインパクトはありませんでした。 

私にとっては、これがちょうどよい落としどころでした。

ローカルLLMに期待しすぎない

今回、Hermesに記事を書かせてみて、あらためて分かりました。
ローカルLLMは、まだ「これだけで完成品が出る」ものではありません。

少なくとも私の環境では、記事をそのまま公開できるほど賢くはありませんでした。
しかし、だから使えない、という話でもありません。

  • 下書きを出す。
  • 要点を並べる。
  • 定期的に情報を確認する。
  • 簡単な確認作業をさせる。
  • キャラクターとして会話する。

そういう用途では、十分に使えます。
むしろ、ローカルで動いているからこそ、雑に使えます。

クラウドAIに投げるほどでもない作業を、手元のHermesに任せる。
この距離感が、私にとってのローカルLLMの実用性です。  

利点として、クラウドには出せない個人情報を処理させたり、モデルの選択の自由度もあります。 

まとめ

RTX 3060 12GB×2 は、ローカルLLMを実用的に使うための現実的な構成です。

ただし、ここで言う「実用的」とは、ChatGPTやCodexの代わりに何でも完璧にこなす、という意味ではありません。

Hermesに記事を書かせても、そのままでは使えませんでした。
ですが、なぜか煽ってて、読んでいてツッコミたくなる文書で笑えます。🤣
言った事は理解できるので、小間使いとしては使えます。

キャラクター性を持たせることで、単なるツールよりも身近な存在になります。

ローカルLLMは、最強のAIではありません。
でも、自分のPCの中で動く、そこそこ使える相棒にはなります。

そのための構成として、RTX 3060 12GB×2 は十分に検討する価値があります。

 

おまけ(原点) 

ポンコツ好きの原点がこの本でした。
Amazonリンクはドタバタしたけど、ちゃんと作れたみたい。

【有】椎名百貨店(1) 電化製品に乾杯! ミソッカス90F

家電少女MISOCCUSという後継作品だと試し読み可能なようです。 😉