一畳のくつろぎタイム: 元Sandyおじさんがコスパ重視で生成AI用PC(主にLLM)を組む

SandyおじさんからRyzenおじさんに進化した私ですが、Sandyおじさんの証、i7-2600Kはサブサブ全裸PCとして手元で稼働しています。

2024/8現在、Intelの13世代、14世代CPUにトラブルがある中、Ryzenは電力的にも改善した9000シリーズが登場し話題になっています。

そんな状況の中で新しくPCを組むことになりましたが、当然Ryzen9000シリーズのCPUなんという高額なものは買いません。

元Sandyおじさんの私としては、Ryzenおじさんに進化した時点でむこう１０年はＰＣの構成を変える必要なんてないのですが、日々ChatGPTやGeminiを活用するようになった今では、自分専用のLLMをいろいろ試したく、おそらく人生の中で一番GPUが欲しいと感じる日々を送っています。

おじさんのGPU歴

いかにショボいGPUを使ってきたか見てほしい、

古すぎる過去 Geforce3 Ti500->Radeon X700(ノートPC) -> RADEON X1950 PRO(２万ぐらい） -> Geforce GT520(5千円ぐらい) -> Geforce GTX750Ti(１万ちょい) -> Radeon RX580(マイニング落ち１万) 記事

Geforce3Ti500は割と高かったみたいですが、もらい物でした。
気張って買ったのは２万ちょいのRadeon X1950Proぐらいです。
X1950Proはファンがかなりやかましく、静かは価値だということを教えてくれた反面教師となったグラボです。

マイニング落ちのRX580を入手して、自分史上最高のグラボを手に入れたと喜んでたレベルです。

このラインナップ、いかに金をかけてないか分かってもらえると思います。

VRAMの多いGPUが欲しい

お絵かきAIなどと違い、LLMの場合GPU性能よりもGPUのVRAM量が重要で、一般向けに販売されているGPUでは最大で24ギガバイト程度搭載しています。

しかし値段がやばい。
一番安いと思われるPalit製で2024/09のこの記事の時点で30万580円という価格。

Palit(パリット) GeForce RTX 4090 なんか画像つぶれてるね・・

グラフィックボードに30万円とか、私の金銭感覚では清水の舞台から飛び降りる覚悟でもないと買えません。

ではもう少しお値打ちで、VARM量が多いものを探しますと・・

GeforceRTX4070 Ti Super 16GByte

ASUS TUF Gaming GeForce RTX 4070 Ti SUPER 搭載 16GB

というカードが13万～15万あたりで購入できます。VRAM量は16ギガバイトで圧倒的大容量とはいえません。
RTX4090が30万することを思えば半額なので、まだ頑張れなくはない金額ですが、普通に高い。

もう1段階下を検討すると、さらに半額の８万ぐらいでGeforceRTX4060 Tiには16GByteのモデルも存在します。これお手頃でいいかも？（金銭感覚麻痺）、RTX3060に比べメモリバス帯域が微妙に減っていたりと、新規で8万出す価値が見いだせません。

RTX4060Ti 搭載グラフィックボード GDDR6 16GB

他節約方法(データセンターGPU)

VRAM量は多めなデータセンター向けGPUの中古を買うといった方法もあるようです。
いろいろ調べていたら外国のサイトで「PCをクローゼットの中に押し込んで忘れられる人」でもない限り、おすすめしないと書かれており、ファン（自分で別設置）がうるさくてヤバいようだった。

Radeon1950Proレベルで音を上げていた自分では耐えられないと思われる。

データセンターGPUについてはオノセーさんという方が、実際に稼働させるまでの記録を公開してくださっていて、もしもデータセンターGPUを使うのであればとても参考になると思います。

オノセーさんのNote
https://note.com/seiyotsuba/n/na45631d3ef97

全部読んでみて、ヘタレ素人の自分が手を出すには沼が深い世界に感じた。

ウォーズマン理論(x2)

他にも、いろいろ調べていたら

こういう方やこういう方たちを見つけ、LLMに関してはウォーズマン理論が通用する事がわかりました。

グラボ二刀流でVRAM2倍だぁーー
VARM 12ギガ+ 12ギガで24ギガだぁーー

世の中ではさらにジャンプ（＋１GPU）と回転（＋１GPU）して12+12+12+12で48ギガのVRAMを確保した勇者もいました。
M2NVMeからPCI-Express取り出してつなぐとか、もう尊敬する。

コスパ重視なSandyおじさんとしては、これしかない！

元Sandyおじさんがグラボ2枚刺しを本気で考える

PCを新しく組む目的はグラボ２枚搭載によるLLMの活用です。
グラボ2枚刺しとか、一生縁の無い世界だと思っていました。

実はRadeonRX580のようなAMD製GPUではいろいろ不便だったため、どうしてもGeforceが欲しく生成AI用にコスパが素晴らしいRTX3060(12G)を買って、余っているPCを生成AI用として使用していました。

手元にあるGeForceRTX3060(12G)でも7BのLLMは動作しますが、ちょっとメインメモリにはみ出しており、そのせいで動作が遅いです。
もうちょっとVRAMがあったらなぁと思うことが多々あります。

RTX3060を２枚ならば、１枚4万円程度を２枚で8万円程度で12G+12G=24GのVRAMが手に入ります。RTX4060Tiを買うのと同じぐらいの金額ですがRTX3060は1枚所持しているため、もう1枚分（＋４万）追加するだけで済みます。

(12G+12G)24GとなればRTX4090のVRAM容量と並びます。13Bのモデルだと26G必要なのでいつかは12G+16G=28Gにできたらいいなと思っております。

新PCのスペック要件(マザーボード)

GPU２枚差したいのですが、今使用している生成AI用PCのマザーボードがMicroATXで物理的に場所がありません、そのためATXが必要です。

２枚目のGPUを刺すため、２つめのPCI-Expressスロットのスペックについて気にしなければなりません。

RTX3060はPCIExpress3.0x8程度の帯域があれば十分っぽく、特に高スペックを要求するわけではないようです。

いろいろ調べたのですが拡張性を考えると、どうしても高価になってしまうため、X570チップセットというそろそろ終わりそうなチップセットに白羽の矢が立ちました。
チップセット側のPCI-Expressで4.0x4が使え、やかましいと評判のチップセットファンが無く、価格も安いasrokのX570S Riptideに決めました。

ASRock ATXマザーボード X570S PG Riptide Soket AM4 対応

PCI-Express4.0のx4ならPCI-Express3.0のx8と帯域幅は同じです。
PCI-Express3.0のx4でも十分なのかもしれませんが、まぁ、いまさらB550チップセット買っても面白くないし価格も同じぐらいです。

Intelの方がレーン分割機能が使えて4.0のx16を2本に分割してx8を２本として使えるようですが、
Intelの13世代／14世代CPUが爆熱Pentium4の黒歴史を継承しているみたいでIntelには触りたくありません。本音を言えばお値段高いし。

しかしソケットAM4が出た2016年からもう8年、いまだに新CPUが発売されるAM4は新たなSandyBridgeではないでしょうか？(CPUソケットの名前だけど）

AM4おじさん？

CPU選択

intelの評判が悪く、そのわりに高価なのでRyzenを選ぶしかありません。
2024/08では世代の終わりが近いからかRyzen7 5700Xが2万3000円程度で買えてしまいました。
8コアもあるのに圧倒的に安いので、これを買わない選択肢はなさそうです。

AMD Ryzen 7 5700X without cooler

Ryzen7 5700というXなしのモデルも存在し、こちらはもっと安いのですがどうもＸの有無だけの違いではなくRyzen5700Xとは作りが別のCPUらしく、値段以外でこちらを選ぶ理由はなさそうです。CPUファンついてきてお得だったりはします。

まぁ、仕事するのはGPUなんでCPUはなんでもよかったりします。

メモリ選択

もともと生成AI用マシンがCPUで頑張ることも考えて64G+32Gで96Gメモリがあったので、再利用します。買いません。

ふつうにDDR4-3200のメモリです。

2枚目のGPU

以前RTX3060を購入するときに、ちょっとだけ割高なAsusのRogStrixの3060を買ったところ、通常作業で15W程度、なんか静かだと思っていたらファン回さないでも動ける場合は回さない制御になっており、見た目ゴッツイGPU買ったのに静かで低電力で大変驚きました。

そんな思いもあり、RogStrix3060中古で検索してみたところ、パソコン工房に中古がでており、しかも他の3060カード、TUFとかMSIのVentusとか下位と同じ値段で売ってて即ポチリました。

ページ消えました
~~https://www.pc-koubou.jp/products/detail.php?product_id=1078567~~

RogStrix RTX3060は2.7スロット分の厚みがあるので、3スロット分の場所が取れるX570S Riptideにギリギリ収まります。

あと補助電源が8pinでOK。

CPUクーラー選択

Ryzen5 5700Xという選択になったためCPUクーラーは別に買う必要がでました。
AM3、LGA1156用のは余っていますが、AM4とは互換性がない（ついたって人もいたけど）ので新しく買う事にしました。

普通に買うと定番虎徹とかになるんですが、最近はDEEPCOOLというメーカーが評判が良いらしくラインナップを見ると、CPUの温度を表示する液晶搭載という面白い商品があり、面白いので買ってみました。

DeepCool自体は中国系なんですが、輸出制限破って、なんかロシアに輸出していたかなんかでAmazonから消されたようで商品リンク画像が貼れません。

AK400 DIGITAL

組んでみて

わー、エレクトリカルパレードだぁ、光がうるさい。
CPU温度が見えるのは良い、GPU温度も見たい。

後日：AuraSyncというのを使えば消灯可能でした

全パーツなにも不具合なく動作、GPU2枚使ってLLMを読み込ますも、GPU温度35度ぐらいでファンが全く回らず、LLMに質問を投げると回答作成にガーとGPU使われるが温度が45度ぐらいで頭打ちして返事が返ってくるので返事の内容を読んでる間にヒートシンクだけでGPU冷える。

結果、GPUファンが回らない。（夏場、冷房27度設定）

GPU1枚のときは、ファンは回っていたような気がする。

消費電力倍増、騒音倍増を覚悟していましたが、めちゃくちゃ静かだし、さほど電力増えてないし、なんじゃこりゃ。

両方のGPUが頑張ってました。

~~画面出してる方のGPUはメモリだけ使われ、もう1枚の遊んでるGPUが頑張って仕事してる感じで、GPU使用率も85%ぐらいが平均。~~

~~２枚のGPUはメモリ以外で協力するわけではないので、追加したグラボは実質増設メモリ扱い、メモリ以外は遊んでます。~~

回答を生成しているときのOpen Hardware Monitorでの表示

7B（量子化なし）のモデルでは質問を出した瞬間返事が来る。

GPUが働いている時はGPUだけで70Wぐらいの電力を使っているが、回答を生成する数十秒の間に使われるだけなので時間単位で考えると思っていたより消費電力は多くないので、意外な結果となった。

性能の見方はいまいちまだわかってないのですが、Swallow 7B instructのモデルをそのままでVRAM14ギガ+動作時2ギガ？読み込ませて

応答の性能はこんな感じ

Output generated in 4.19 seconds (5.72 tokens/s, 24 tokens, context 84, seed 1654831837)
Output generated in 26.15 seconds (9.25 tokens/s, 242 tokens, context 1054, seed 2027855432)
Output generated in 9.57 seconds (8.47 tokens/s, 81 tokens, context 1314, seed 100090776)
Output generated in 4.11 seconds (6.57 tokens/s, 27 tokens, context 1410, seed 1752152348)
Output generated in 6.73 seconds (7.58 tokens/s, 51 tokens, context 1449, seed 2099290232)
Output generated in 8.67 seconds (8.08 tokens/s, 70 tokens, context 1511, seed 1020592405)
Output generated in 36.67 seconds (9.03 tokens/s, 331 tokens, context 1598, seed 1600489131)

5～9 tokens/sで、じわじわと返事が返ってくるチャットタイプだと読んでる間に文字出力が完了するので、円滑なチャットは出来ていると感じます。

TechnoEdgeさんのサイトによると

>人間の読書速度は（1秒間に5-7トークン）

らしいので、感覚と一致します。

LLMは性能がよければよいほどイイお絵描きAIと異なり、7Bモデルあたりを自分一人で使うのであればGPU性能はRTX3060程度でも必要十分に感じます。

グラボ２枚差しの記事を書いてるみなさんお金持ちなのか、運用コスト面の話とか、一緒に暮らせるレベルの騒音なのかなど書いてないので書いてみました。

意外にランニングコストは高くないし、GPUファンも回らないので６畳の部屋で一緒に寝られます。
16ギガを7Bのお話AIに、残り8ギガはお絵描きAIに使って両方常時稼働とかもできるのかな？

とりあえず、使ってみた感想でした。

5～9 tokens/sでの返事はこんな感じ

(モデル:tokyotech-llm_Llama-3.1-Swallow-8B-Instruct-v0.3)