当ブログはWeb広告を導入しています（景表法による表示）

2024.04.02 グラフィックボード / GPU やかもち（管理人）

【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】

月額料金なし、無制限の生成枚数でAIイラストをガシガシ描くなら、Stable Diffusionをローカル環境にインストールする「AUTOMATIC1111版Stable Diffusion WebUI」が必要です。

しかし、ローカル版AIイラストはグラフィックボードも必須です。

VRAM容量が多くないとダメ
RTX 4000シリーズが良い
Radeonは絶対にNG

などなど･･･。いろいろな情報が飛び交っていますが実際のところはどうなのか？

やかもち

グラフィックボードをなぜか40枚ほど所有している筆者が、実際にStable Diffusionを動かして徹底的に検証します。

（公開：2023/3/8 | 更新：2024/4/3）

この記事の目次

AIイラスト（Stable Diffusion）におすすめなグラボを検証

検証方法：AIイラストの生成速度をテストする

AIイラスト（Stable Diffusion）に適したグラフィックボードをテストする方法はシンプルです。

実際にAIイラストを何枚か描かせて、処理にかかった時間と生成速度を記録します。AIイラストの生成速度が速いグラフィックボードが、AIイラストに適したグラボです。

今回のStable Diffusionベンチマークでは、以下の2つの数値を「性能」として扱います。

ログに表示される生成速度（Iterations per Second）
リザルトに表示される描写時間（Time taken）

生成速度は「it/s」と表示され、1秒あたりのステップ回数らしいです。正直ちょっと直感的に分かりづらいので、よく分からない人は描写時間に注目しましょう。

リザルト画面に表示される「Time taken」は、スタートを押してからAIイラストの生成が終わるまでにかかった時間を示します。

たとえば、イラストを10枚描かせて62秒かかったなら、イラスト1枚あたり6秒の処理時間です。

テスト環境：使用したグラボとPCスペックを紹介

テスト環境「ちもろぐ専用ベンチ機（2024）」
スペック	NVIDIA GeForce	AMD Radeon	Intel ARC
CPU	Core i9 13900K
マザーボード	ASUS TUF GAMING Z690-PLUS WIFI D5
メモリ	DDR5-4800 16GB x2使用モデル「Crucial DDR5-4800」
グラボ	RTX 4090 RTX 4080 Super RTX 4080 RTX 4070 Ti Super RTX 4070 Ti RTX 4070 Super RTX 4070 RTX 4060 Ti 16GB RTX 4060 Ti RTX 4060 RTX 3090 24 GB RTX 3080 10 GB RTX 3070 RTX 3060 Ti RTX 3060 12 GB RTX 3050 8 GB RTX 2080 Ti RTX 2080 Super RTX 2070 Super RTX 2060 Super RTX 2060 12 GB RTX 2060 6 GB GTX 1660 Ti GTX 1660 Super GTX 1650（GDDR6） GTX 1080 Ti GTX 1080 GTX 1070 Ti GTX 1060 6 GB	RX 7900 XTX RX 7800 XT RX 6800 XT RX 6700 XT RX 6600 XT 【以下：動作せず】 RX 7600 RX 6500 XT RX 6400	Arc A770 16GB
SSD	1 TB（NVMe）	500 GB（NVMe）	1 TB（NVMe）
OS	Windows 11 Pro （22H2）	Ubuntu 22.04 LTS	Windows 11 Pro （22H2） WSL2 : Ubuntu 22.04 LTS
ドライバ	NVIDIA 551.23	AMD Adrenalin 24.1.1	Intel 31.0.101.5085
ライブラリ	NVIDIA CUDA	AMD ROCm	Intel oneAPI

今回のStable Diffusionベンチマークで使用するテスト機のPCスペックです。

CPUにCore i9 13900K（24コア32スレッド）、DDR5-4800メモリを容量たっぷり32 GBなど。グラフィックボードの足を引っ張らないスペックを使っています。

テストに使用したグラフィックボードは全部で36枚です。

筆者のお財布事情と時間の都合で、すべてのグラフィックボードが揃っているわけではないものの、ベンチマークとして性能を比較するのに不足しない量を揃えています。

【グラボ別】AIイラスト（Stable Diffusion）の生成速度

目次：ベンチマーク結果

512×512：ハローアスカベンチマーク
512×768：神里綾華ベンチマーク
512×768：神里綾華（LoRA）ベンチマーク
512×768：神里綾華（LoRA + ControlNet）
1024×1536：神里綾華（LoRA + ControlNet + アップスケーリング）
1024×1024：トキ（SDXL）ベンチマーク
1024×1536：神里綾華（SDXL + LoRA）ベンチマーク
1024×1648：神里綾華（SDXL + LoRA + ControlNet）

全8種類のベンチマークで生成速度をテストします。テストごとに使用したモデルやプロンプト、細かい設定やシード値はそれぞれのテストごとに記載します。

Stable Diffusionの起動オプションはこちら

Stable Diffusionの起動オプション
GeForceシリーズ（共通）	–xformers –opt-channelslast
GTX 1600シリーズ	–no-half
GeForceシリーズ VRAM：4～6 GB	–medvram
GeForceシリーズ VRAM：4 GB未満	–lowvram
Radeonシリーズ（共通）	–opt-sdp-attention –opt-sdp-no-mem-attention ※Hires.Fix時「なし」に変更
Radeonシリーズ VRAM：6～8 GB	–medvram
Radeonシリーズ VRAM：2～4 GB	–lowvram
SDXLベンチマーク	VRAMが不足 or VRAM起因の低速化で –medvram-sdxl

グラフィックボードの仕様に合わせて、Stable Diffusionの起動オプションを調整しています。

「–xformers」と「–opt-channelslast」はTensorコアを搭載するGeForceシリーズで、生成速度の高速化が見込めるコマンドです。「–no-half」はGTX 1600シリーズの高速化設定。

「–medvram」と「–lowvram」は生成速度を犠牲にするかわりに、VRAM容量が少ないグラボでAIイラストの生成を可能にします。ただし、生成される内容の再現性がやや悪化します。

「–opt-sdp-attention –opt-sdp-no-mem-attention」はRadeon RXシリーズ（ROCm）用の高速化設定です。Radeonでは「–xformers」が使えないので、代替案としてSDPAを使います。

ただし、SDPAはVRAMの利用効率がやや悪化するため、VRAMの使用量が極めて多いHires.Fix時のみ無効化してベンチマークします。

最後にSDXLベンチマークについて、基本的なオプションは同じですがVRAM容量が不足、またはVRAMが原因で著しく低速化した場合に「–medvram-sdxl」を適用します。

グラフィックボードによっては、–medvram-sdxlを使ったほうが生成速度が速かったです。

GeForceシリーズの環境設定
3D設定の管理	システムメモリフォールバックなしを優先
VRAMの設定	set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6, max_split_size_mb:128
セキュリティ	Windows Defender「リアルタイム保護」を無効化

GeForceシリーズの環境設定は以上のとおりです。どちらの設定も、VRAMを効率よく使う高速化設定で、VRAMがギリギリになる状況で持ちこたえる（低速化を防ぐ）効果が見込めます。

テストに使用したStable Diffusionはこちら

テストに使用したStable Diffusion
GeForce用	AUTOMATIC1111 / stable-diffusion-webui （git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.）
GeForce用（Forge版）	lllyasviel / stable-diffusion-webui-forge （git clone https://github.com/lllyasviel/stable-diffusion-webui-forge）
Radeon用	stable-diffusion-webui / ROCm 6.0 （https://g-pc.info/archives/35474/）
Intel Arc用	Stable Diffusion Web UI for Intel Arc （https://www.reddit.com/r/IntelArc/comments/11an12q/stable_diffusion_web_ui_for_intel_arc/）

上記のURLから入手できるStable Diffusionをベンチマークで使います。

GeForce用のStable Diffusionは2つ使います。ド定番のAUTOMATIC1111版と、1111版にlllyasviel氏が改良を加えたForge版の2つです。どちらもNVIDIA「CUDA」で動作します。

Radeon用は「DirectML」と「ROCm」版があり、今回はUbuntu 22.04 LTSにROCm版を導入します。DirectML版はVRAMの利用効率が悪く、生成速度も劣悪です。

ROCm 6.0版Stable Diffusionを簡単インストール！（g-pc.info）

ROCm版の方がずっと効率がいいので、Lisaちゃん（@KotoriKanase）氏が公開している自動インストーラーを使ってROCm版Stable Diffusionを導入しました。

Intel Arc用は「oneAPI」版を、Windows 11で動作するLinux（WSL2）に導入してテストします。DirectML版より生成速度が速いですが、ControlNetに未だ非対応です。

512×512：ハローアスカベンチマーク

「Hello Asuka Benchmark」の設定はこちら

使用するモデル：nai.ckpt

プロンプト（呪文）設定
Positive	masterpiece, best quality, masterpiece, asuka langley sitting cross legged on a chair
Negative	lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name
各種設定
sampling method	Euler	sampling steps	28
Width	512	Batch count	10
Height	512	Batch size	1
CFG Scale			12
Seed			2870305590

PNG INFOのダウンロードはこちら

「ハローアスカベンチマーク（Hello Asuka Benchmark）」は、NovelAIでAIイラストを生成した結果と一致した結果を得られるかを検証する方法です。

設定を揃えるとほとんどのグラフィックボードでまったく同じ結果を生成できるため、同じ条件で揃えて性能を比較するベンチマークに適しており、Stable Diffusionの定番ベンチマークとして扱われています。

512x512：ハローアスカベンチマーク（Stable Diffusionのベンチ結果）

ハローアスカベンチマーク（512×512）の生成速度をグラボ別に比較したグラフです。

予想通り、RTX 4090やRTX 4080が猛威をふるいますが、512×512程度の生成ならRTX 3060 12GBやRTX 4060など、ミドルクラスのグラボでそこそこのスピードで生成できます。

次は、ハローアスカベンチマーク（512×512）の描写速度をグラボ別に比較したグラフを見てみましょう。

描写時間（10枚の生成にかかった時間）で見ると、RTX 3060 12GBやRTX 4060がAIイラスト入門用にコスパがいいグラボと評価できます。

最上位モデルのRTX 4090は約4倍も速い10秒未満で10枚生成できますが、RTX 3060 12GBより価格が約7倍も高いです。

生成ガチャを大量に回すやり方ならハイエンドモデルが有利なものの、最近は狙い通りのイラストを高い確率で生成する手法が整備されているため、512×512程度のAIイラストはRTX 3060 12GBクラスで十分です。

「RTX 3060」搭載のおすすめBTO PCを5つ紹介

やかもち

去年（2023年）と同じく、512×512はRTX 3060 12GBで十分ですね。

512×768：神里綾華ベンチマーク

「Ayaka Benchmark」の設定はこちら

使用するモデル：Anything V5（anything_inkBase）
https://civitai.com/models/9409/anything-or

プロンプト（呪文）設定
Positive	masterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kote, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background,
Negative	nsfw, (worst quality, low quality, bad anatomy, extra digits), signature, artist name, watermark, bad_prompt,
各種設定
sampling method	DPM++ 2M Karras	sampling steps	20
Width	512	Batch count	10
Height	768	Batch size	1
CFG Scale			7
Seed			20210928

PNG INFOのダウンロードはこちら

ここからは筆者が作成したオリジナルベンチマークで、AIイラストの生成速度を比較します。

イラストサイズを512×768に変更して、特定のキャラクター（原神：神里綾華）を呼び出すベンチマークです。なお、設定をきちんとコピーすると結果をほぼ再現可能です。

神里綾華ベンチマーク（512×768）の生成速度をグラボ別に比較したグラフです。

生成サイズが1.5倍（26.2万画素 → 39.3万画素）に増えたため、VRAM容量の少ないグラフィックボードは生成途中でVRAM不足エラーに陥りテストに失敗します。

RTX 4090とRTX 4080は相変わらずトップクラスの生成速度です。512×512でおすすめなRTX 3060 12GBも引き続き、コスパのいい性能で競っています。

期待の新星RTX 4060 Ti 16 GBは残念ながら8 GB版と大差なし。VRAM使用量が少ない使い方だと性能差が出ないです。

描画時間（10枚分）を確認します。

RTX 4090は512×768サイズをわずか10秒で完了。1枚あたり1秒で描写を終える圧倒的な性能です。

定番のRTX 3060 12GBだと1枚あたり4.5秒で、体感的に少し遅く感じますが、値段を考えるとコスパがいい事実に変わりないかと。

後継モデルのRTX 4060やRTX 4060 Tiも悪くない生成スピードでおすすめできそうに見えて、VRAMの容量が8 GBに減っているのがネック。AIイラストはVRAMが多いほうが何かと便利です。

RTX 3060 12GBの在庫がまだある内は、基本的にRTX 3060 12GBが入門向けおすすめグラボに挙げられます。

やかもち

512×768くらいだと、VRAM容量よりシンプルにグラボの性能が効いています。

512×768：神里綾華（LoRA）ベンチマーク

「Ayaka LoRA Benchmark」の設定はこちら

使用するモデル：Anything V5（anything_inkBase）
https://civitai.com/models/9409/anything-or
使用するLoRAモデル：Kamisato Ayaka (Springbloom Missive)
https://civitai.com/models/12566?modelVersionId=14816

プロンプト（呪文）設定
Positive	masterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background, <lora:kamisato ayaka:0.9>
Negative	nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling method	DPM++ 2M Karras	sampling steps	20
Width	512	Batch count	10
Height	768	Batch size	1
CFG Scale			7
Seed			20210928

PNG INFOのダウンロードはこちら

先ほどのベンチマークでは、割といい感じに特定のキャラクター（原神：神里綾華）を再現できますが、服装の再現度に難ありです。特定のキャラクターをより正確に生成するなら「LoRAモデル」の出番です。

LoRAを適用すると、ほぼ100%に近い確率※で特定のキャラクターや特徴を狙って生成できます。

※使用するモデルとLoRAモデルの組み合わせや、LoRAモデル自体の品質によって確率は大きく変わります。今回使った組み合わせと設定では、ほぼ100%に近い確率で神里綾華が出現します。

512×768：LoRAベンチマーク（Stable Diffusionのベンチ結果）

LoRAモデルを適用した場合の生成速度です。

古いStable DiffusionではLoRA適用時に生成速度が下がる傾向がありましたが、最近の新しいバージョンなら解消されています。先のベンチマークとおおむね同じ生成速度です。

10枚分の描画時間を確認します。

特に傾向は変わらず、RTX 4090が10秒台、定番のRTX 3060 12GBが45秒前後です。512×768にLoRAを適用する場合、やはりRTX 3060 12GBで十分と評価できます。

予算に余裕があるなら、RTX 4070かRTX 4070 Superがおすすめでしょう。RTX 4070はRTX 3060の約2倍の値段ですが、生成時間が約2.1倍なのでコストパフォーマンスが同じです。

RTX 4070 SuperはRTX 3060より約2.5倍高いものの、生成時間も約2.5倍に短縮できるので意外とコストパフォーマンスに差がありません。

コスパ = 値段あたりの性能を見ると、RTX 4070やRTX 4070 Superを選ぶと幸せです。RTX 3060で十分と言いつつ、やはり速いほうがいろいろと試せて楽しいです。

512×768：神里綾華（LoRA + ControlNet）

「Ayaka LoRA + ControlNet Benchmark」の設定はこちら

使用するモデル：Anything V5（anything_inkBase）
https://civitai.com/models/9409/anything-or
使用するLoRAモデル：Kamisato Ayaka (Springbloom Missive)
https://civitai.com/models/12566?modelVersionId=14816

プロンプト（呪文）設定
Positive	masterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background, <lora:kamisato ayaka:0.9>
Negative	nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling method	DPM++ 2M Karras	sampling steps	20
Width	512	Batch count	10
Height	768	Batch size	1
CFG Scale			7
Seed			20210928
ControlNet設定
Image
Preprocessor	depth_anything	Model	diff_control_sd15_depth_fp16 https://huggingface.co/kohya-ss/ControlNet-diff-modules/tree/main

PNG INFO + ControlNetの素材画像はこちら

次は特定のキャラクターだけでなく、狙った構図やポーズを決めてAIイラストを生成します。

そのままプロンプト（呪文）を入れて生成させても、毎回ランダムな構図やポーズで生成されてしまいますが、「ControlNet」を適用すると高確率で狙った構図やポーズを生成可能です。

ControlNetを適用すると生成速度がやや下がるものの、自分の欲しい構図やポーズを高い確率で生成でき、結果的に時間を節約できます。

512×768：LoRA + ControlNetベンチマーク（Stable Diffusionのベンチ結果）

ControlNetを適用した結果、生成速度が平均26%も下がります。

イラスト10枚分の描写速度を比較したグラフです。

処理がかなり重たくなってきた印象を受けます。ド定番のRTX 3060 12GBですら、10枚で60秒（約1分）もかかってしまい、体感的にストレスがたまる待ち時間です。

AIイラストを25000枚ほど生成させた筆者の経験から言うと、10枚で1分超えは遅く感じます。予算次第ですが、1分を切れてVRAM容量も多いRTX 4060 Ti 16GBや、欲を言えばRTX 4070以上を検討したいです。

コスパ（価格あたり性能）で見ると、RTX 3060 12GBとRTX 4070（RTX 4070 Super）に大差ありません。RTX 4070は2倍の値段で2.1倍の性能を、RTX 4070 Superは2.2倍の値段で2.4倍の性能です。

価格差以上の性能（コストパフォーマンス）を得られるのでRTX 4070 Superあたりを推したいです。

やかもち

ControlNetを使うと、512×768でも負荷がかなり大きくなりました。

1024×1536：神里綾華（Hires.Fixアップスケーリング）

「Ayaka LoRA + ControlNet Benchmark」の設定はこちら

使用するモデル：Anything V5（anything_inkBase）
https://civitai.com/models/9409/anything-or
使用するLoRAモデル：Kamisato Ayaka (Springbloom Missive)
https://civitai.com/models/12566?modelVersionId=14816

プロンプト（呪文）設定
Positive	masterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background, <lora:kamisato ayaka:0.9>
Negative	nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling method	DPM++ 2M Karras	sampling steps	20
Width	512	Batch count	10
Height	768	Batch size	1
CFG Scale			7
Seed			20210928
Hires.Fix設定
upscale	x2.0	steps	10
upscaler	Latent	Denoising strength	0.6
ControlNet設定
Image
Preprocessor	depth_anything	Model	diff_control_sd15_depth_fp16 https://huggingface.co/kohya-ss/ControlNet-diff-modules/tree/main

PNG INFO + ControlNetの素材画像はこちら

一度に大きなサイズのイラスト（1000×1000以上）を生成すると、デッサンが完全に狂った奇形（双頭や多頭体など）が生成される※可能性が上昇します。

かといって512×768程度では、顔周りの解像度が不足してしまって第一印象の弱さが目立ちます。

※筆者がよく使う二次元用モデル（7th Anime）の場合、768×768以上から奇形化が目立つ印象です。Hires Fixで軽くアップスケーリングして、その後Tile Diffusion + Tile VAEを用いて元イラストのニュアンスを維持したまま4K化しています。

奇形化を防ぎつつ、高解像度なAIイラスト生成に役立つ機能が「Hires.Fix」です。

今回はアップスケーラーに「Latent」、アップスケール倍率に「2.0」、ノイズ除去の強さを「0.6」に設定して1024×1536サイズの高解像度イラストを生成します。

同時にLoRAモデル（原神：神里綾華）とControlNet（depth_anything）も適用して、かなり高負荷なAIイラストベンチマークに仕上げました。

768x1536：LoRA + ControlNet + Hires.Fixベンチマーク（Stable Diffusionのベンチ結果）

生成速度は意外と性能差に比例しています。しかし、生成速度には最終仕上げ（VAE）の処理時間が含まれていません。

5枚の生成にかかった時間で比較すると、性能差が一目瞭然。･･･ControlNetとHires.Fix（倍率：2倍）の同時適用はかなり負荷が大きく、VRAM使用量も跳ね上がります。

グラフィックボードの性能が良くても、VRAM容量が少ないと効率よく性能を出せなくなり、VRAM容量の差で性能が逆転するグラボが出ています。

代表例がRTX 4060 Tiです。8 GB版が約3分30秒（1枚あたり42秒）かかり、16 GB版なら約1分30秒（1枚あたり18秒）で終えています。ほぼ同じ性能のグラボでも、VRAM容量の差で2倍以上の性能差がついた例です。

RTX 4070とRTX 3060 12GBの性能差も注目。値段差が2倍近いのに、性能差はむしろ縮小します（※VRAMの利用効率がいいForge版なら順当な性能差になります）。

RTX 4070 TiとRTX 4070 Ti SuperもVRAM容量の性能差がはっきりと出ます。生成時間が約2倍に短縮され、RTX 4080に迫るスピードながら価格は2万円前後の差額です。

高倍率なHires.Fixを使うなら、できるかぎりVRAM容量が多く、かつ演算性能も高いグラフィックボードをおすすめします。

やかもち

RTX 4060 Ti 16GBか、Forge版を使う前提であればRTX 4070～RTX 4070 Superがいいです。

1024×1024：トキ（ネイティブ高解像度イラスト）

「Toki SDXL Benchmark」の設定はこちら

使用するモデル：animagineXLV3_v30
https://civitai.com/models/26026

プロンプト（呪文）設定
Positive	1girl, toki \(blue archive\), blue archive, toki sits cross-legged in her chair. looking at viewer, cowboy shot, masterpiece, best quality, newest,
Negative	nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
各種設定
sampling method	Euler a	sampling steps	15
Width	1024	Batch count	5
Height	1024	Batch size	1
CFG Scale			7
Seed			50

PNG INFOの素材画像はこちら

2024年1月、アニメやゲームキャラに特化したSDXLモデル「Animagine XL 3.0」が一般公開されました。

1000×1000以上の高解像度でも奇形化しづらく、LoRAモデルなしに特定のキャラクターを再現できる、極めて高性能なAIイラストモデルです。

（Hires.Fixは使ってません、ただ「beautiful face」と唱えるだけ）

顔周りの描写力も格段に改善されています。Hires.Fixを使わずに、破綻の少ない高解像度なポートレイトイラストが生成できてしまい、初めて使った時はあまりの性能に腰を抜かしました。

（ファンアートがほぼ無い20代神里綾華もこのとおり）

よって、ここまで紹介してきたSD 1.5世代のベンチマークはあまり参考にしなくていいでしょう。SDXL 1.0世代のベンチマークが重要です。

1024x1024：SDXL 1.0ベンチマーク（Stable Diffusionのベンチ結果）

生成速度の比較グラフです。

生成時は意外と普通に動くものの、ステップ処理が終わった後の最終仕上げ（VAE）で一気にVRAM使用量が爆発するので、あまり参考にならないです。

イラスト5枚分の生成時間です。

VRAMの使用量が多いため、値段の割にVRAM容量が多いRadeon RXシリーズがRTX 4000シリーズと同等の性能を出せるシーンが出てきます。

たとえばRX 7900 XTXが代表例。値段が3～4万円も高いRTX 4080に匹敵する性能を出せており、Ubuntu（Linux）環境に抵抗がなければコスパの良い選択肢です。

一方でVRAMの利用効率が高いForge版だと、RTX 4070 SuperがRTX 4080を軽々と上回る性能を叩き出します。1枚あたり5秒なら、SDXL 1.0をSD 1.5に近い感覚で楽しめます。

生成結果も安定しているので、トータルで使う時間を節約できるでしょう。特にNSFW用途でSD 1.5を使っている人なら、SDXL 1.0（Animagine XL 3.0※）で確実に時間を節約できます。

※マニアックなNSFWが目的なら「Pony Diffusion V6 XL」や「ebara_pony_1」もおすすめ。個人的によく使うのはebaraよりもPony V6（複数のLoRAとTextual Inversionを併用）です。

やかもち

VRAMをうまく使うForge版を使う前提なら、RTX 3060 12GBもアリ。10秒くらいで1枚（1024×1024）仕上がります。

1024×1536：神里綾華（SDXL + LoRA）

「Ayaka SDXL LoRA Benchmark」の設定はこちら

使用するモデル：animagineXLV3_v30
https://civitai.com/models/26026
使用するLoRAモデル：Genshin_XL｜原神神里凌华 Kamisato Ayaka
https://civitai.com/models/161568

プロンプト（呪文）設定
Positive	1girl, kamisato ayaka \(heytea\), genshin impact, beautiful face, pony tail, serafuku, skirt, white pantyhose, from front, mature female, looking at viewer, collarbone, semi realism, white_background, simple_background, masterpiece, <lora:shenli3:0.5>
Negative	nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
各種設定
sampling method	Euler a	sampling steps	15
Width	1024	Batch count	5
Height	1536	Batch size	1
CFG Scale			7
Seed			4004

PNG INFOの素材画像はこちら

SDXLモデル「Animagine XL 3.0」にLoRAモデル「Genshin_XL（神里綾華）」を適用して、1024×1536の高解像度なAIイラストを生成します。

プロンプト（呪文）に対して適切な解像度を設定すれば、破綻の少ないネイティブ高解像度イラストを安定して生成できます。

1024x1536：SDXL 1.0 LoRAベンチマーク（Stable Diffusionのベンチ結果）

生成速度の比較グラフです。

最終仕上げ（VAE）の処理速度が含まれないため、あまり参考にならないです。実際にかかった生成時間を確認しましょう。

イラスト5枚分の生成時間です。

VRAMの使用量がさらに増えている影響で、値段の割に大容量なVRAMを備えるRadeon RXシリーズがかなり踏ん張っています。

とはいえ最上位のRX 7900 XTXがRTX 4070 Tiに匹敵するくらいで、現在の価格を考えるとあまりコスパがいいとも言えないです。

個人的にSDXL 1.0の場合、1枚あたり10秒くらいなら許容範囲に思えます。Forge版のRTX 4070 Superや、RTX 4070がおすすめです。

低予算ならForge版のRTX 3060 12GBを、もう少し予算を出せる方はRTX 4060 Ti 16GBが良さそうに見えます。

やかもち

Forge版Stable Diffusionのおかげで、SDXL 1.0の生成がかなり現実的になった印象。

1024×1648：神里綾華（SDXL + LoRA + ControlNet）

1024x1648：神里綾華（SDXL + LoRA + ControlNet）

「Ayaka LoRA + ControlNet SDXL Benchmark」の設定はこちら

使用するモデル：animagineXLV3_v30
https://civitai.com/models/26026
使用するLoRAモデル：Genshin_XL｜原神神里凌华 Kamisato Ayaka
https://civitai.com/models/161568

プロンプト（呪文）設定
Positive	1girl, kamisato ayaka \(genshin impact\), genshin impact, beautiful face, { labcoat, Pencil Skirt \| leather jacket \| wedding veil, white lace dress \| serafuku, pleated skirt \| red_coat, turtleneck_shirt}, cowboy shot, mature female, white_background, simple_background, masterpiece, <lora:shenli3:0.5>
Negative	nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
各種設定
sampling method	Euler a	sampling steps	15
Width	1024	Batch count	5
Height	1648	Batch size	1
CFG Scale			7
Seed			4004
ControlNet設定
Image
Preprocessor	depth_anything	Model	diffusers_xl_depth_full https://huggingface.co/lllyasviel/sd_control_collection/tree/main
Weight	0.3	Guidance	Guidance Start: 0 Guidance End: 0.98

PNG INFO + ControlNetの素材画像はこちら（mega.nz）

SDXLモデル「Animagine XL 3.0」にLoRAモデル「Genshin_XL（神里綾華）」を適用し、さらにControlNet（depth_anything）とDynamic Promptも同時に使用して、1024×1648の着せ替えAIイラストを生成します。

かなり複雑な工程に見えますが、いわゆる「差分CG（同じポーズのまま服装だけを変更）」を作るのに重宝します。ベンチマークのためにわざわざ重たい設定にしたわけではなく、筆者が実際によく使うやり方です。

1024x1648：SDXL 1.0 LoRA ControlNetベンチマーク（Stable Diffusionのベンチ結果）

生成速度の比較グラフです。

最終仕上げ（VAE）の処理速度が含まれないため、あまり参考にならないです。実際にかかった生成時間を確認しましょう。

イラスト5枚分の生成時間です。

並のグラフィックボードだとまったく歯が立たない超高負荷なベンチマークです。VRAM容量が8 GB以下のグラボは、ただVRAMが足りないだけで性能がほとんど出せない状態に。

高解像度なSDXL 1.0でControlNetを使うなら、最低でも容量12 GBのVRAMが必要です。

筆者のおすすめは1枚あたり10秒を切っているRTX 4090ですが、値段が高いので妥協案としてRTX 4070 Super（Forge版）が現実的でしょう。生成速度が40%遅いかわりに、値段が半額以下で済みます。

同じ理由でRTX 4070（Forge版）も候補です。生成速度が50%遅いかわりに、値段をたった3分の1まで抑えられます。

なお、RTX 4070未満のグラフィックボードは個人的に推奨できません。ド定番のRTX 3060 12GBなら1枚あたり30秒もかかってしまい、なかなか厳しい使用感でした※。

※筆者がふだん使っているAIグラボは「RTX 4090」です。一般人より感覚がズレている可能性を否定できないので参考程度に。

Forge版かどうかでだいぶ生成時間が変わるんだね･･･

Forge版はVRAMの使い方を最適化する改良版だけあって、VRAMが少ない環境で爆発的に生成時間を短縮できます。

Hires.Fixで奇形が発生しやすい、Dynamic Promptを使うと色移りが発生してメリハリのない衣装が生成される、オリジナル版と生成結果に差が生じるなど。

個人的に気になるデメリットが多いものの、VRAMが12 GBしかない環境でSDXL 1.0が快適に扱えるメリットは無視できないと考えています。

SDXL 1.0でネイティブ高解像度 + ControlNetの併用を想定している方は、ぜひForge版を前提にベンチマークデータを見てください。

やかもち

Forge版Stable Diffusionのおかげで、SDXL 1.0の生成がかなり現実的になりました。

今回のStable Diffusionベンチマーク調査で、「AIイラストにおすすめなグラボ」がざっくりと判明しました。

RTX 3060 12GB：AIイラスト向け入門グラボ

GALAKURO GG-RTX3060-E12GB/OC/DF

玄人志向 / ブーストクロック : 1777 MHz / ファン : デュアル内排気 / 厚み : 2スロット（41.5 mm） / TDP : 170 W（8 pin）

AIイラスト入門におすすめなグラフィックボードが「RTX 3060 12GB」です。

基本のベンチマーク「ハローアスカ」を見ると、同じ価格帯のRTX 4060が良さそうに見えますが、ハローアスカはVRAMに余裕がある状態です。

Hires.Fixなど、VRAMに負荷が大きい使い方をすると一気に性能差が開いてしまいます。

今後のAIイラストでスタンダードになる可能性が高い「SDXL 1.0」でも、RTX 3060 12GBは割りと動きます。

やはり容量12 GBのVRAMは安心感があり、VRAMの帯域幅もRTX 3060 12GBが優位です。

VRAM容量が12 GBもあるおかげで、LoRAモデルやDreamBoothモデルの「学習」もRTX 4060より速いです。モデルやツールの発展で学習に必要なVRAM容量は減りつつありますが、12 GBのメリットは意外と大きいです。

RTX 3060搭載のおすすめBTO PCを5つ紹介

やかもち

4万円台で容量12 GBのVRAMが付いているからAIイラスト入門グラボに最適です。

【注意点】RTX 3060の8GB版を買わないで

Amazonで約4.5万円から買える「RTX 3060 8GB」に要注意です。

名前こそRTX 3060ですが、VRAMの容量が4GBもカットされた8GB版かつ、VRAMの性能も1秒あたり360 GBから1秒あたり240 GBに激減しています。

12GB版と比較して9割の性能です。AIイラスト用途だとVRAM容量はないよりも、あった方がいいので、余計に8GB版は罠です。

RTX 4070：Forge版SDXLでおすすめなグラボ

ZOTAC RTX 4070 Twin Edge OC

ZOTAC / ブーストクロック : 2490 MHz / ファン : デュアル内排気 / 厚み : 2スロット（40 mm） / TDP : 200 W（8 pin）

VRAMを最適化する「Forge版」の登場により、容量12 GBのVRAMでも生成速度が大幅に向上します。

結果的にRTX 4060 Ti 16GBの立場が弱くなり、約9万円で買える「RTX 4070」がネイティブ高解像度なSDXLイラスト生成におすすめなグラボです。

またはギリギリ10万円で買える「RTX 4070 Super」もSDXLにおすすめできるグラボです。

神里綾華（SDXL LoRAベンチマーク）で、Forge版RTX 4070はRX 7900 XTX（約15～16万円）に迫ります。

値段が少しだけ高いForge版RTX 4070 Superなら、かつてのフラグシップRTX 3090（約20万円超え）すら超える性能です。

1024×1648生成とControlNetの同時適用ですら、Forge版RTX 4070はRTX 4060 Ti 16GBを大きく上回る生成速度です。Forge版RTX 4070 SuperはRTX 3090すら超えます。

予算に1万円ほど余裕があればRTX 4070 Superを、シンプルにコストパフォーマンス重視ならRTX 4070がいいでしょう。

（ControlNetでパースを与えなくても背景描写力がすごい）

（1024×1648のネイティブ高解像度でも奇形化が非常に少ない）

「RTX 4070」搭載でおすすめなゲーミングPC：4選

やかもち

Forge以前なら「4060 Ti 16GB」がベストでしたが、Forge登場後は「RTX 4070」や「RTX 4070 Super」推しです。

RTX 4090 24GB：価格差に見合った「最速のAIグラボ」

GeForce RTX 4090 GAMING OC

GIGABYTE / ブーストクロック : 2535 MHz / ファン : トリプル内排気 / 厚み : 4スロット（75 mm） / TDP : 450 W（16 pin） / 保証 : 4年

コンシューマ向け（業務向けを含まない）のグラフィックボードで、現行最速モデルが「RTX 4090 24GB」です。

他製品でまったく替えが効かない唯一無二の性能を誇る、文句なしの最強グラボです。予算に糸目をつけず最高のAIグラボを買うなら、RTX 4090 24GBで決まりです。

SDXL 1.0でControlNetを適用する場合、RTX 4090はRTX 4080に対して約1.9倍（Forge版で約1.4倍）、RTX 4080 Superに対して約1.8倍（Forge版で約1.4倍）も高性能です。

2024年4月時点、RTX 4090がおよそ27万円、RTX 4080が約20万円、RTX 4080 Superが約18万円で買えます。

価格差より性能差の方が大きく、RTX 4080番台を買うならRTX 4090を買った方が逆にコスパが良い状況です。Forge版なら80番台を買うメリットもありますが･･･、個人的にオリジナル版の生成結果が好みです。

グラフィックボード1枚に20万円近い金額を払える余裕があるなら、RTX 4090まで逝ってしまった方が後悔が少ないでしょう。筆者は4090と4080の性能比較をよくやりますが、そのたびに4090の圧倒的な性能差に打ちひしがれる思いです。

LoRAモデルを自分で作る「学習」においても、RTX 4090が突出して高性能です。

一般的に値段が高いほどグラフィックボードのコスパは悪化する傾向がありますが、AIイラストに関しては価格相応にパフォーマンスが伸びていきます。

とはいえ、あくまでも予算を無視してコスパだけを考えた場合の話です。実際には人それぞれ予算がありますので、買える範囲でベストなグラボを買いましょう。

ZOTAC RTX 4080 SUPER Trinity Black Edition

ZOTAC / ブーストクロック : 2550 MHz / ファン : トリプル内排気 / 厚み : 2.5スロット（58.5 mm） / TGP : 320 W（12 pin）

予算20万円なら「RTX 4080」や「RTX 4080 Super」のForge版がおそらくベストパフォーマンスですし、予算10万円なら「RTX 4070」や「RTX 4070 Super」のForge版がおすすめです。

「RTX 4090」搭載でおすすめなゲーミングPC：4選

やかもち

筆者がSDXLや学習で使っているグラボが「RTX 4090」です。一度使うと･･･もう普通のグラボに戻れません。

中古グラボなら：RTX 2060 12GBやRTX 3090なども

中古市場のグラボはマイニングあがりで経年劣化が進行しているリスクが高く、基本的に推奨できません。

リスクを承知の上で、とにかく安くAIイラスト用のグラフィックボードを買いたいなら、止めはしないです。

中古市場で狙い目のAIグラボはRTX 2060 12GB、またはRTX 3090 24GBです。

RTX 2060 12GBは約2～3万円で–medvram有効時にRTX 3070に匹敵する性能を発揮します。RTX 3090 24GBはVRAM容量のパワーで–medvram無しにRTX 4080をやや上回る性能です。

ゲーミング性能やワットパフォーマンスを考慮せず、ただただAIイラスト用と割り切って買う分にはそれほど悪くない選択になるでしょう。

以上「【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】」でした。

AIイラストの「学習」におすすめなグラボ

今回のテストで使用したように、特定のキャラクターや、何らかの特徴（鉄道風景や線画風など）だけを正確に呼び出したいときにLoRAモデルがとても役に立ちます。

しかし、自分のニーズに合ったLoRAモデルが出回っていない場合も多々あります。無いならどうするか、自分で作れば良い･･･というわけで、LoRAモデルの学習ベンチマークも試しています。

RTX 4000搭載のおすすめゲーミングPC【解説】

RTX 4090搭載のおすすめBTO PCを5つ紹介

「RTX 4070 Ti」搭載でおすすめなゲーミングPC：4選

「RTX 4070」搭載でおすすめなゲーミングPC：4選

RTX 3000搭載のおすすめゲーミングPC【解説】

RTX 3060搭載のおすすめBTO PCを5つ紹介

これからAIイラスト用にパソコンを用意するなら、基本的にBTOパソコンを推奨します。手っ取り早く完成済みかつプロが組み立てたパソコンを入手できます。

すでにパソコンを持っている方は、「グラフィックボードの増設・交換ガイド」を参考に、新しく買ってきたグラボを増設・交換するだけでOKです。

記事更新内容

2023/03/08：Stable Diffusion Web UIのGPUベンチマーク結果をアップ
2023/03/13：RTX 4070 Tiのベンチマーク結果を追加
2023/03/14：RTX 4000（最適化設定）の性能を追加
2023/04/15：RTX 4070の性能を追加
2023/08/08：RTX 4060 Ti 16GBの性能を追加
2023/08/09：SDXL 1.0のベンチマーク結果を追加
2024/02/08：RTX 4070 Superの性能を追加
2024/02/09：SD 1.5、SDXL 1.0、Forge版のベンチマーク結果を更新
2024/04/03：RTX 4070 Ti Super / RTX 4080 Superの性能を追加（UPDATE !!）

207 件のコメント

詳細なデータありがとうございます。
最近の高性能ＣＰＵやＧＰＵは私の使用目的では勿体なさ過ぎると感じていましたが、こういう使い方をする人にとってはわずかな出費の違いがパフォーマンスにものすごい差を示すのですね。

RTX 4090	10×1	5×2	2×5	1×10
512×512	13.08	9.35	8.78	7.18
512×768	16.15	11.66	–	–
512×768：LoRA	26.37	15.88	–	–
512×768：LoRA + ControlNet	33.68	18.25	–	–
512×1024：LoRA + ControlNet	35.01	24.91	–	–
1024×1532：LoRA + アップスケーリング	43.93	38.33	–	–

AIイラスト（Stable Diffusion）におすすめなグラボを検証

検証方法：AIイラストの生成速度をテストする

テスト環境：使用したグラボとPCスペックを紹介

【グラボ別】AIイラスト（Stable Diffusion）の生成速度

512×512：ハローアスカベンチマーク

512×768：神里綾華ベンチマーク

512×768：神里綾華（LoRA）ベンチマーク

512×768：神里綾華（LoRA + ControlNet）

1024×1536：神里綾華（Hires.Fixアップスケーリング）

1024×1024：トキ（ネイティブ高解像度イラスト）

1024×1536：神里綾華（SDXL + LoRA）

1024×1648：神里綾華（SDXL + LoRA + ControlNet）

まとめ：AIイラストにおすすめなグラボ【3選】

RTX 3060 12GB：AIイラスト向け入門グラボ

RTX 4070：Forge版SDXLでおすすめなグラボ

RTX 4090 24GB：価格差に見合った「最速のAIグラボ」

中古グラボなら：RTX 2060 12GBやRTX 3090なども

シェア！

207 件のコメント

コメントを残す コメントをキャンセル

ABOUTこの記事をかいた人

NEW POST最新の記事

LG 32GS95UE-B レビュー：4K 240 HzとフルHD 480 …

MOBIUZ EX240N レビュー：画質の悪いVAパネルでもBenQなら救…

ASUS PA279CRV レビュー：クリエイター向けモニターって何？【測定…

2024年のAmazonプライムデー【解説とおすすめセール品】

RECOMMENDこちらの記事も人気です。

RTX 3070 Tiベンチマーク & レビュー：3070（無印）より安くて…

RTX 4070 Ti Superをベンチマーク：4070 Tiとどっちがい…

海外通販「StockX」で貴重なグラボを買う方法【購入から届くまで解説】

RTX 2060 Superをレビュー：ゲーミングモニターに最高の1枚

Radeon RX 6800ベンチマーク & レビュー：RTX 3070より…

グラフィックボードの性能を示す「フレームレート」を解説

【レビュー】GTX 1660 Tiの性能は優秀、GTX 1060の後継として…

RTX 4060 Ti 16GB版に価値ある？：実際に8GB版と性能を比較し…

LINEスタンプ発売中

「ちもろぐ」の筆者

筆者が使ってる光回線

アーカイブ

カテゴリー

コメントを残すコメントをキャンセル