月額料金なし、無制限の生成枚数でAIイラストをガシガシ描くなら、Stable Diffusionをローカル環境にインストールする「AUTOMATIC1111版Stable Diffusion WebUI」が必要です。
しかし、ローカル版AIイラストはグラフィックボードも必須です。
- VRAM容量が多くないとダメ
- RTX 4000シリーズが良い
- Radeonは絶対にNG
などなど・・・。いろいろな情報が飛び交っていますが実際のところはどうなのか?


(公開:2023/3/8 | 更新:2023/8/9)
AIイラスト(Stable Diffusion)におすすめなグラボを検証
検証方法:AIイラストの生成速度をテストする

AIイラスト(Stable Diffusion)に適したグラフィックボードをテストする方法はシンプルです。
実際にAIイラストを何枚か描かせて、処理にかかった時間と生成速度を記録します。AIイラストの生成速度が速いグラフィックボードが、AIイラストに適したグラボです。
今回のStable Diffusionベンチマークでは、以下の2つの数値を「性能」として扱います。
- ログに表示される生成速度(Iterations per Second)
- リザルトに表示される描写時間(Time taken)

生成速度は「it/s」と表示され、1秒あたりのステップ回数らしいです。正直ちょっと直感的に分かりづらいので、よく分からない人は描写時間に注目しましょう。

リザルト画面に表示される「Time taken」は、スタートを押してからAIイラストの生成が終わるまでにかかった時間を示します。
たとえば、イラストを10枚描かせて62秒かかったなら、イラスト1枚あたり6秒の処理時間です。
テスト環境:使用したグラボとPCスペックを紹介

テスト環境 「ちもろぐ専用ベンチ機(2023)」 | |
---|---|
スペック | Raptor Lake |
CPU | Core i9 13900K |
マザーボード | ASUS TUF GAMING Z690-PLUS WIFI D4 |
メモリ | DDR4-3200 16GB x2使用モデル「Elite Plus UD-D4 3200」 |
グラボ | RTX 4090 24 GB RTX 4080 16 GB RTX 4070 Ti RTX 4070 RTX 4060 Ti 16GB RTX 4060 Ti RTX 4060 RTX 3090 24 GB RTX 3080 10 GB RTX 3070 Ti RTX 3070 RTX 3060 12 GB RTX 3050 RTX 2080 Ti RTX 2080 Super RTX 2070 Super RTX 2060 12 GB RTX 2060 6 GB GTX 1660 Ti GTX 1660 Super GTX 1650(GDDR6) GTX 1080 Ti GTX 1080 GTX 1070 Ti GTX 1060 6 GB GTX 1050 Ti GT 1030 RX 6800 XT RX 6700 XT RX 6600 XT RX 6500 XT RX 6400 RX 5700 XT RX 5600 XT Intel Arc A770 16GB |
SSD | NVMe 1TB使用モデル「Samsung 970 EVO Plus」 |
OS | Windows 11 Pro(22H2) |
ドライバ | NVIDIA 536.67 DCH(cuDNN 8.8.0) AMD Adrenalin 23.2.2 |
今回のStable Diffusionベンチマークで使用するテスト機のPCスペックです。
一応、CPUにCore i9 13900K(24コア32スレッド)、メモリ容量をたっぷり32 GBなど。グラフィックボードの足を引っ張らないスペックを使っています。
テストに使用したグラフィックボードは全部で36枚です。
筆者のお財布事情と時間の都合で、すべてのグラフィックボードが揃っているわけではないものの、ベンチマークとして性能を比較するのに不足しない量を揃えています。
【グラボ別】AIイラスト(Stable Diffusion)の生成速度

すべてのテストで共通の設定 | |
---|---|
Clip skip | 2 |
eta (noise multiplier) for ancestral samplers | 0.67 |
Hypernetwork | None |
Stable Diffusionベンチマークで使用した共通の設定は以上のとおりです。
- 512×512:ハローアスカベンチマーク
- 512×768:神里綾華ベンチマーク
- 512×768:神里綾華(LoRA)ベンチマーク
- 512×768:神里綾華(LoRA + ControlNet)
- 512×1024:刻晴(LoRA + ControlNet)
- 1024×1532:神里綾華(LoRA + アップスケーリング)
- 1600×1024:SDXL 1.0(ネイティブ高解像度)
テストごとに使用したモデルやプロンプト、細かい設定やシード値はそれぞれのテストごとに記載します。
Stable Diffusionの起動オプション | |
---|---|
GeForceシリーズ(共通) | –xformers |
GTX 1600シリーズ | –no-half |
GeForceシリーズ VRAM:4~6 GB | –medvram |
GeForceシリーズ VRAM:4 GB未満 | –lowvram |
Radeonシリーズ(共通) | –no-half –always-batch-cond-uncond –opt-sub-quad-attention |
Radeonシリーズ VRAM:6~8 GB | –medvram |
Radeonシリーズ VRAM:2~4 GB | –lowvram |
グラフィックボードの仕様に合わせて、Stable Diffusionの起動オプションを調整しています。
「–xformers」はTensorコアを搭載するGeForceシリーズで生成速度の高速化が見込めるコマンドです。「–no-half」はGTX 1600シリーズの高速化設定。
「–medvram」と「–lowvram」は生成速度を犠牲にするかわりに、VRAM容量が少ないグラボでAIイラストの生成を可能にします。ただし、生成される内容の再現性がやや悪化します。
「–no-half –always-batch-cond-uncond –opt-sub-quad-attention」はRadeon RXシリーズ用のコマンドです。いろいろ試した中で、今回のテスト環境でもっとも安定してAIイラストの生成が可能でした。
なお、Radeon RXシリーズはVRAMの使用効率が非常に悪かったため、「–medvram」「–lowvram」を使うVRAM容量をGeForceよりも低めに設定しています。
テストに使用したStable Diffusion | |
---|---|
GeForce用 | AUTOMATIC1111 / stable-diffusion-webui (git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.) |
Radeon用 | AUTOMATIC1111 / stable-diffusion-webui / DirectML (git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stable-diffusion-webui-directml && git submodule init && git submodule update) |
Intel Arc用 | Stable Diffusion Web UI for Intel Arc (https://www.reddit.com/r/IntelArc/comments/11an12q/stable_diffusion_web_ui_for_intel_arc/) |
GeForce用のStable Diffusionは「CUDA」で動作するバージョンを、Radeon用は「DirectML」で動作するバージョンを、それぞれ別々に用意しました。
RadeonでPyTorchを動かせる「AMD ROCm」はWindows環境で(今のところ)動作しないため、今回はDirectML版をテストに使用します。
Intel ArcはWindows上で動作するLinux(WSL2)に、oneAPI版を導入してテストします。DirectMLで動かすより高速ですが、ControlNetは動作しません。
Stable Diffusion XLについて | |
---|---|
GeForce用 | AUTOMATIC1111 / stable-diffusion-webui (git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.) |
2023年7月末から解禁された「SDXL 1.0」については、GeForce用のStable Diffusion Web UIをそのまま新規インストールして自動的に導入される最新版(ver 1.5.1 / torch : 2.01+cu118 / SPDA)を使います。
記事を公開後、コメント欄にて「xformersとpytorchを最新版にビルドし直すとRTX 4000はもっと速いはず」と重要な情報をいただきました。
- torch: 2.1.0.dev20230311+cu118
- xformers: 0.0.17+b6be33a.d20230313
(※2023年3月時点の最新版)
プログラミング知識ゼロながら知恵を絞ってなんとか上記の最新版にビルドし直したところ、大幅な性能アップを確認。最適化ビルドでテストを再度行い、比較グラフのデータを更新済みです。
512×512:ハローアスカベンチマーク

- 使用するモデル:nai.ckpt
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, masterpiece, asuka langley sitting cross legged on a chair | ||
Negative | lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name | ||
各種設定 | |||
sampling method | Euler | sampling steps | 28 |
Width | 512 | Batch count | 10 |
Height | 512 | Batch size | 1 |
CFG Scale | 12 | ||
Seed | 2870305590 |
「ハローアスカベンチマーク(Hello Asuka Benchmark)」は、NovelAIでAIイラストを生成した結果と一致した結果を得られるかを検証する方法です。
設定を揃えるとほとんどのグラフィックボードでまったく同じ結果を生成できるため、同じ条件で揃えて性能を比較するベンチマークに適しており、Stable Diffusionの定番ベンチマークとして扱われています。

ハローアスカベンチマーク(512×512)の生成速度をグラボ別に比較したグラフです。
予想通り、RTX 4090やRTX 4080が猛威をふるいますが、512×512程度の生成ならRTX 3060 12GBやRTX 2060 12GBなどミドルクラスのグラボでもそこそこのスピードで生成できます。

次は、ハローアスカベンチマーク(512×512)の描写速度をグラボ別に比較したグラフを見てみましょう。
こうして描写時間(10枚の生成にかかった時間)で見ると、RTX 3060 12GBとRTX 2060 12GBがかなりコスパの良いグラボだと評価できます。
もちろん、RTX 4090なら10枚の生成をわずか10秒で完了しますが、RTX 2060 12GBと比較して価格が6~8倍も高いです。
生成ガチャを大量に回すやり方ならハイエンドグラボが良いでしょうが、最近は狙ったイラストを高い確度で生成する手法が凄まじい勢いで整備されているため、512×512イラストの生成だけならRTX 2060 12GB~RTX 3060 12GBで十分です。

筆者も当然Radeonシリーズの異様な遅さに違和感を覚えて、起動オプションをいろいろ試したり、ドライババージョンを変更して性能差を比較したり手を尽くしました。
それでも目立った性能アップは無理でした。どうやら、Radeon用(DirectML版)はまだまだ最適化が進んでおらず、CUDAを使うGeForceシリーズほど速度を出せないようです。
VRAM容量の利用効率も非常に悪く、GeForceで3~4 GBで済んでいるイラスト生成が、Radeonだと8 GB全部使い切ってしまいます。

512×768:神里綾華ベンチマーク

- 使用するモデル:AbyssOrangeMix2_nsfw
https://civitai.com/models/4449/abyssorangemix2-nsfw?modelVersionId=5036
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, kamisato ayaka, serafuku, kamisato ayaka (heytea), official art, official alternate costume, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate, genshin, | ||
Negative | nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 1091979662 |
ここからは筆者が作成したオリジナルベンチマークで、AIイラストの生成速度を比較します。
イラストサイズを512×768に変更して、特定のキャラクター(原神より:神里綾華)を呼び出すベンチマークです。なお、設定をきちんとコピーすると結果をほぼ再現可能です。

神里綾華ベンチマーク(512×768)の生成速度をグラボ別に比較したグラフです。
生成サイズが1.5倍(26.2万画素 → 39.3万画素)に増えたため、VRAM容量の少ないグラフィックボードは生成途中でVRAM不足エラーに陥りテストに失敗します。
RTX 4090とRTX 4080は相変わらずトップクラスの生成速度です。RTX 3060 12GBとRTX 2060 12GBも引き続き、ほぼ同じ性能で競っています。
期待の新星RTX 4060 Ti 16 GBは残念ながら8 GB版と大差なし。VRAM使用量が少ない使い方だと性能差が出ないです。

描画時間(10枚分)を確認します。
RTX 4090は512×768サイズをなんと14秒ほどで完了。1枚あたり、わずか1.4秒で描写を終える圧倒的な性能です。
2023年4月に登場したRTX 4070だと、値段が2倍以上するRTX 3090とほぼ同じ描写時間(1枚あたり2秒)です。
RTX 3060 12GBとRTX 2060 12GBはどちらもほぼ同じ処理時間です。1枚あたり5秒でイラストの生成が完了します。ガチャを大量に回さず、設定を詰めて高確率で狙うなら十分な速度では?

512×768:神里綾華(LoRA)ベンチマーク

- 使用するモデル:AbyssOrangeMix2_nsfw
https://civitai.com/models/4449/abyssorangemix2-nsfw?modelVersionId=5036 - 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
https://civitai.com/models/12566?modelVersionId=14816
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, serafuku, kamisato ayaka (heytea), official art, official alternate costume, kamisato ayaka, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate <lora:kamisatoAyakaSpringbloom_v10:1> | ||
Negative | nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 1091979662 |
先のテストでは、特定のキャラクター(原神より:神里綾華)を上手く生成できませんでした。特定のキャラクターを正確に生成するなら「LoRAモデル」の出番です。
LoRAを適用すると生成速度がやや犠牲になりますが、ほぼ100%に近い確率※で特定のキャラクターを生成できます。
※使用するモデルとLoRAモデルの組み合わせや、LoRAモデル自体の品質によって確率は大きく変わります。今回使った組み合わせと設定では、ほぼ100%に近い確率で神里綾華が出現します。

LoRAモデルを適用した結果、RTX 4000シリーズで平均27%、RTX 3000シリーズで平均20%、RTX 2000シリーズで平均17%の性能低下が見られます。
生成速度の速いグラボほど、LoRAモデルによる性能低下が大きいです。結果的に上位グラボとの性能差が縮まり、相対的にミドルハイ~ミドルクラスのコスパが上がっています。
それでもRTX 4000シリーズのAIイラスト性能はやはり優秀です。RTX 4070 TiすらRTX 3090を約30%超える生成速度です。
価格が10万円を切るRTX 4070もかなり優秀で、RTX 3090に迫る性能を発揮します。

10枚分の描画時間を確認します。
RTX 4090は約18秒、RTX 4080が約22秒、RTX 4070 Tiが約25秒、RTX 4070が約29秒でした。RTX 3060 12GBとRTX 2060 12GBは約63~65秒(1枚あたり6秒半)です。
期待の新星RTX 4060 Ti 16 GBはやはり8 GB版と性能差が見られず、残念なコストパフォーマンスに・・・。
RTX 3060 12GBは引き続きコスパ優秀かと思いきや、意外とRTX 4070 TiやRTX 4070といい勝負だったりします。
RTX 3060 12GBが約4.5万円から、RTX 4070 Tiは約12万円で価格差が2.6倍に対して、描写速度の性能差もほぼ同じ2.5倍です。
RTX 4070もRTX 3060 12GBに対して価格差が2倍で、描写速度も2倍です。
コストパフォーマンスで見ると意外と差がないので、予算が許すならRTX 4070 TiやRTX 4070を選んだほうが幸せ。
512×768:神里綾華(LoRA + ControlNet)

- 使用するモデル:AbyssOrangeMix2_nsfw
https://civitai.com/models/4449/abyssorangemix2-nsfw?modelVersionId=5036 - 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
https://civitai.com/models/12566?modelVersionId=14816
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, serafuku, kamisato ayaka (heytea), official art, official alternate costume, kamisato ayaka, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate <lora:kamisatoAyakaSpringbloom_v10:1> | ||
Negative | nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 1091979662 | ||
ControlNet設定 | |||
Image | ![]() | ||
Preprocessor | openpose | Model | controlnetPreTrained_openposeV10 |
次は特定のキャラクターだけでなく、狙った構図やポーズを決めてAIイラストを生成します。
プロンプト(呪文)をどれだけ細かく指定しても、そのまま生成すると毎回ランダムな構図やポーズで描かれます。しかし、「ControlNet」を適用すると高確率で狙った構図やポーズを生成できます。
LoRAと同じくControlNetも生成速度をやや犠牲にするものの、自分の欲しい構図やポーズを高い確率で生成できるため、結果的にトータルでかかる時間を節約可能です。

ControlNetを適用した結果、RTX 4000~RTX 2000シリーズで平均22~25%の性能低下が見られます。

イラスト10枚分の描写速度を比較したグラフです。
依然として、RTX 4090やRTX 4070 Tiがトップクラスの速さです。RTX 4070 Tiだと、10枚を描くのに30秒(1枚あたり3秒)で事足ります。
約8~9万円で買えるRTX 4070ですら10枚で約40秒(1枚あたり4秒)と、RTX 3090に匹敵するスピードでAIイラストを生成できます。
ミドルクラスでコスパに優れるRTX 3060 12GBでは、10枚で82秒(1枚あたり8秒)です。
AIイラストを15000枚ほど生成させた筆者の経験から言うと、10枚で1分超えは遅く感じます。予算次第ですが、1分を切れるRTX 3070や、欲を言うならRTX 4070あたりを検討したいです。
ちなみに、コストパフォーマンスを計算するとなんとRTX 4070 TiまたはRTX 4070の方が良好です。
RTX 3060 12GBとRTX 4070 Tiの価格差は約2.6倍ですが、性能差は約2.7倍に達します。RTX 4070だと価格差が約2倍で性能差も約2倍です。
価格差以上の性能(コストパフォーマンス)を得られるのでRTX 4070 Tiを推したいです。

512×1024:刻晴(LoRA + ControlNet)

- 使用するモデル:Checkpoint Merger(混合モデル)
YesMix v1.5(0.7)+ AbyssOrangeMix2_nsfw(0.3) - 使用するLoRAモデル:Keqing | 3in1 LoRA & LoCon
https://civitai.com/models/15699?modelVersionId=18521
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | (Realistic painting style:1.1), masterpiece, best quality, absurdres, (1girl, solo:1.3), keqing (piercing thunderbolt) (genshin impact), keqing (genshin impact), (black pantyhose:1.3), pale purple hair, (twintails:1.0), cone hair bun, natural lips, medium breast, earrings, dress, pantyhose, black gloves, detached sleeves, braid, skirt, pink eyes, looking at viewer, long hair, sitting, white background, portrait, 100mm, bokeh, teasing smile:0.6, <lora:keqingGenshinImpact3in1_v10:1> | ||
Negative | nsfw, bare legs, (worst quality, low quality:1.4), worst face, huge breast, (zombie:1.1), text, bad_prompt, extra digits, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 1024 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 3724878326 | ||
ControlNet設定 | |||
Image | ![]() | ||
Preprocessor | openpose | Model | controlnetPreTrained_openposeV10 |
「512×1024」サイズに、LoRAモデル(原神より:刻晴)とControlNetを適用して、高負荷なAIイラストベンチマークをテストします。
なお、Stable Diffusion Web UIには優秀なアップスケーリング機能が備わっています。大きいイラストを生成するなら、生成サイズはそのままアップスケーリングを掛けたほうが良いです。
使用するモデルによっては、512×512より大きいサイズで生成するとイラストの内容が破綻したり、頭や腕が複数生えたり上半身と下半身が分裂したりと結果が安定しない場合があります。
あくまでも、ベンチマーク目的として「512×1024」サイズを試しただけです。

512×768テストと比較して、全体的に生成速度が下がります。高解像度になるほどVRAM容量による性能差が大きくなる予感がしますが、データを見る限りそれほど関係がない様子です。
VRAMが大きく関係しそうな高解像度のAIイラスト生成であっても、実際に生成速度に影響が大きいのはグラボの持つ演算性能です。

イラスト10枚分の描写時間です。
512×1024のイラスト10枚を1分以内に描写できたグラボは、RTX 4090、RTX 4080、RTX 4070 Ti、RTX 4070、RTX 3090、RTX 3080 10GBの6つだけです。
RTX 3080未満はすべて1分以上かかります。
RTX 3060 12GBは10枚描くのに105秒(1分45秒)、1枚あたり約11秒もかかります。個人的に、1枚あたり10秒以上の生成時間を待つのは苦しいです。
512×1024イラストの生成ではRTX 4070 Tiを推したいです。約2.6倍の価格ですが、性能も同じく2.5~2.6倍でコスパに違いがありません。
予算を抑えるならRTX 4070もあり。RTX 3060に対して約2倍の価格で、およそ2.1倍近い性能です。

1024×1532:神里綾華(LoRA + アップスケーリング)

- 使用するモデル:Checkpoint Merger(混合モデル)
YesMix v1.5(0.7)+ AbyssOrangeMix2_nsfw(0.3) - 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
https://civitai.com/models/12566?modelVersionId=14816
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | genshin impact, kamisato ayaka (flawless radiance), 1girl, official costume, arm behind head, arm up, bangs, ponytail, light blue hair, small breasts:0.5, cleavage:0.5, cowboy shot, blunt bangs, hair ribbon, red ribbon, hand up, holding, long hair, looking at viewer, parted lips, red background, navy eyes, mole under eye, solo, standing, skirt, zettai ryouiki:0.8, kote, kusazuri, underboob:0.7, japanese armor, <lora:kamisatoAyakaSpringbloom_v10:0.9> | ||
Negative | nsfw, (low quality:1.3), (worst quality:1.3),(monochrome:0.8),(deformed:1.3),(malformed hands:1.4),(poorly drawn hands:1.4),(mutated fingers:1.4),(bad anatomy:1.3),(extra limbs:1.35),(poorly drawn face:1.4),(signature:1.2),(artist name:1.2),(watermark:1.2) | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 5 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 2010019905 | ||
アップスケーリング(Hires Fix)設定 | |||
Upscaler | Latent | Denoising strength | 0.6 |
AIイラストは1000×1000以上のサイズ※を生成すると、複数の四肢や頭が生えてくる奇形化が目立ちます。奇形を防ぎつつ高解像度のイラストを生成するなら、アップスケーリング機能「Hires Fix」の出番です。
今回はアップスケーラーに「Latent」、アップスケール倍率に「2.0」、ノイズ除去の強さを「0.6」に設定して1024×1536サイズの高解像度イラストを生成します。
※筆者がよく使う二次元用モデルだと、768×768を超えてくると奇形化が目立つ印象です。Hires Fixで軽くアップスケーリングして、その後Tile Diffusionを用いて元イラストのニュアンスを維持したまま4K化しています。

結果、最新世代と旧世代でハッキリと性能差が出ます。
VRAM容量が24 GBあるRTX 3090ですら、RTX 4080(VRAM:16 GB)に約1.5倍も遅れています。RTX 4090が相手だと約2倍もの性能差です。
興味深いのがRTX 4060 Ti 16 GBです。イラストの生成時間は同じですが、Hires Fixの処理時間で8 GB版に大きく差をつけており、容量16 GBのVRAMが役に立った様子です。

イラスト5枚分の描画時間を比較します(※処理が非常に遅かったため5枚でテスト)。
RTX 4090は突出して処理が速く、わずか40秒で5枚(1枚あたり8秒)です。RTX 4080はギリギリ1分以内に5枚を描き、1枚あたり12秒でした。
RTX 4070 Tiは1分を超えてしまいますが、RTX 3090より10秒速いです。RTX 4070はRTX 3090に引き離され、RTX 3080に近いです。
ミドルクラスでコスパがいいRTX 3060 12GBでは、5枚分で約200秒(1枚あたり40秒)もかかっています。
結局のところ、ネイティブに高解像度イラストを出すか、アップスケールで高解像度に変換するか。どちらを使っても処理が非常に重たいです。
512×512サイズで大量にイラストを生成して、特に気に入った1枚だけをアップスケールするなら、おそらくRTX 2060 12GBやRTX 3060 12GBで十分です。
逆に、高解像度なイラストを日常的に生成させるなら、RTX 4070 TiやRTX 4080などハイエンドなグラフィックボードが要求されます。
もちろん、遅い生成時間でものんびりと待てる方は・・・、別に何を選んでもいいと思います。
筆者が試した限り、VRAM容量が8 GB以上あればHires Fixを用いた高解像度なイラスト生成は可能※です。ただ待ち時間がどうして長くなります。
※VRAMエラーが出た場合は、起動オプションに「–medvram」を付けて、問題が改善されるか要チェック。

1600×1024:SDXL 1.0(ネイティブ高解像度)

- 使用するモデル:astreapixieXLAnime_v16
https://civitai.com/models/122297?modelVersionId=133163
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | (masterpiece, best quality), (1girl, solo:1.3), (scenery:1.2), [(white shirt),(see-through shirt)0:1], [(white shirt),()1:2], outdoors, black hair, brown_eyes, girl, single hair bun, portrait, upper body, partially_underwater_shot, scenery, summer blue_sky, cloudy_sky, 4k wallpaper, | ||
Negative | (low quality, worst quality:1.2), 3d, (monochrome:1.1), poorly drawn, watermark, tree, [(),(bare back)3:4], | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 1600 | Batch count | 1 |
Height | 1024 | Batch size | 1 |
CFG Scale | 9 | ||
Seed | XYZ Plot : 256042,256047,256051,256088 | ||
アップスケーリング(Hires Fix)設定 | |||
Upscaler | なし | Denoising strength | なし |
- 作例(4枚)のダウンロードはこちらから(flickr.com)
2023年7月末から最新のStable Diffusion「SDXL 1.0」が一般公開されました。SDXL 1.0ではHires Fixなどアップスケーリングを使わず、そのまま高解像度で破綻の少ない高品質なイラストを出せるのが大きな強みです。

(高解像度でも奇形化しづらく、背景の品質が大きく改善された印象)
今回は1600×1024サイズのネイティブ高解像度なイラスト生成を検証します。VRAMの使用量が最大19 GB程度に達するため、「–medvram」を使った場合の性能も掲載しています。

VRAM容量が10 GB以下のグラボは、–medvramや–lowvramオプションなしにマトモな動作ができないです。11~12 GBのグラボですら、–medvramを使ったほうが高性能です。
VRAM容量が16 GBでようやく–medvramの効果が薄れ始め、容量24 GBから–medvramを使わず圧倒的なスピードで高解像度なイラストを生成できます。

1600×1024のイラスト4枚分の描画時間を比較します(※処理が非常に遅いので4枚でテスト)。
グラフを見ての通り、VRAM容量が多いほど描画時間が速いです。特にRTX 4090はわずか24秒でテストを終え、VRAM容量が同じ24 GBのRTX 3090に対して2倍以上の処理性能を発揮します。
VRAM容量によるグレード間の逆転も見られます。代表例がRTX 4060 Ti 16 GBです。–medvram有効時で約90秒と、RTX 4070 Tiの約100秒より処理が速かったです。
もう少しグレードを下げるとRTX 3060 12 GBが依然として優れています。–medvram有効で約200秒を叩き出し、上位モデルにあたるRTX 3070 TiやRTX 4060 Tiよりも高性能です。
結論、SDXL 1.0を使ってAIイラストを楽しむなら12 GB以上のVRAM容量を強く推奨します。これから新品で購入する場合、RTX 4060 Ti 16 GBがお財布に優しいです。
20万円までならRTX 4080を、20万円以上なら言うまでもなくRTX 4090をおすすめします。中古品に抵抗なければRTX 3090も候補ですが、マイニングによる劣化リスクがあるため自己責任です。
まとめ:AIイラストにおすすめなグラボ【3選】
今回のStable Diffusionベンチマーク調査で、「AIイラストにおすすめなグラボ」がざっくりと判明しました。
RTX 3060 12GB:AIイラスト向け入門グラボ

AIイラスト入門におすすめなグラフィックボードが「RTX 3060 12GB」です。

性能比較を見ると、同じ値段でより高性能なRTX 4060の方が良さそうに見えますが、上記の比較グラフはVRAMに余裕がある状態です。
Hires FixやTile Diffusionなどのアップスケーリング機能や、高解像度なイラスト生成に対応できるSDXL 1.0では、容量12 GBのVRAMが効いて性能が逆転します。
VRAMが12 GBもあるおかげで、LoRAモデルやDreamBoothモデルの「学習」もRTX 4060より速いです。モデルやツールの発展で学習に必要なVRAM容量は減りつつありますが、やはり12 GBあると嬉しいです。


Amazonで約4.5万円から買える「RTX 3060 8GB」に要注意です。
名前こそRTX 3060ですが、VRAMの容量が4GBもカットされた8GB版かつ、VRAMの性能も1秒あたり360 GBから1秒あたり240 GBに激減しています。
12GB版と比較して9割の性能です。AIイラスト用途だとVRAM容量はないよりも、あった方がいいので、余計に8GB版は罠です。
RTX 4060 Ti 16GB:SDXL 1.0も速いAI特化グラボ

約8万円の価格ながら、容量16 GBものVRAMを搭載する「RTX 4060 Ti 16 GB」は高解像度なAIイラスト生成に適したグラボです。
最新のSDXL 1.0でフルHD~HD相当のネイティブ解像度でイラストを生成するなら、現状トップクラスのコストパフォーマンス(価格あたり性能)を誇ります。

1600×1024イラスト生成において、RTX 4060 Ti 16 GB(約8万円)は価格が1.5倍近いRTX 4070 Ti(約12万円)よりも生成速度が高速です。
割合で表現すると、4割近い安い値段で1割強も生成スピードが速いです。もちろん、生成サイズを上げてVRAM使用量が大きくなるほど16 GB版が有利になります。
4060 Ti 16 GBより速いSDXL 1.0グラボはもうRTX 4080とRTX 4090に限られ、価格は一気に2~3倍まで跳ね上がります。現実的な予算で買える上限がRTX 4060 Ti 16 GBでしょう。

(SDXL 1.0はControlNetでパースを与えなくても背景描写力がすごい!!)

RTX 4090 24GB:価格差に見合った「最速のAIグラボ」

民生向け(業務向けを含まない)のグラフィックボードで、現行最速モデルが「RTX 4090 24GB」です。
他製品でまったく替えが効かない唯一無二の性能を誇る、文句なしの最強グラボです。予算に糸目をつけず最高のモノを買いたいなら、RTX 4090 24GBで決まりです。

SDXL 1.0の高解像度イラストやHires Fixを使ったアップスケーリングにおいて、RTX 4090はRTX 4080に対して軽々と2倍近い爆発的な高性能を示します。
約1.3倍の値段で性能が2倍強、つまり約1.6倍のコストパフォーマンスです。グラフィックボード1枚に20万円近く出せる余裕があるなら、思い切ってRTX 4090を選んだほうが後々後悔しないでしょう。
もちろん、あくまでも予算を無視してコスパだけを考えた場合の話です。実際には人それぞれ予算がありますので、買える範囲でベストなグラボを買いましょう。

予算の上限が20万円なら「RTX 4080」がベストパフォーマンスですし、10万円台が限界なら「RTX 4060 16 GB」の方がむしろ高性能です。

中古グラボなら:RTX 2060 12GBやRTX 3090なども

中古市場のグラボはマイニングあがりで経年劣化が進行しているリスクが高く、基本的に推奨できません。
リスクを承知の上で、とにかく安くAIイラスト用のグラフィックボードを買いたいなら、止めはしないです。

中古市場で狙い目のAIグラボはRTX 2060 12GB、またはRTX 3090 24GBです。
RTX 2060 12GBは約2~3万円で–medvram有効時にRTX 3070に匹敵する性能を発揮します。RTX 3090 24GBはVRAM容量のパワーで–medvram無しにRTX 4080をやや上回る性能です。
ゲーミング性能やワットパフォーマンスを考慮せず、ただただAIイラスト用と割り切って買う分にはそれほど悪くない選択になるでしょう。
以上「【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】」でした。
AIイラストの「学習」におすすめなグラボ
今回のテストで使用したように、特定のキャラクターや、何らかの特徴(鉄道風景や線画風など)だけを正確に呼び出したいときにLoRAモデルがとても役に立ちます。
とはいえ、自分のニーズに合ったLoRAモデルが出回っていない場合も多々あります。無いならどうするか、自分で作れば良い・・・というわけで、LoRAモデルの学習ベンチマークも試しています。
RTX 4000搭載のおすすめゲーミングPC【解説】
RTX 3000搭載のおすすめゲーミングPC【解説】
これからAIイラスト用にパソコンを用意するなら、基本的にBTOパソコンを推奨します。手っ取り早く完成済みかつプロが組み立てたパソコンを入手できます。
すでにパソコンを持っている方は、「グラフィックボードの増設・交換ガイド」を参考に、新しく買ってきたグラボを増設・交換するだけでOKです。
- 2023/03/08:Stable Diffusion Web UIのGPUベンチマーク結果をアップ
- 2023/03/13:RTX 4070 Tiのベンチマーク結果を追加
- 2023/03/14:RTX 4000(最適化設定)の性能を追加
- 2023/04/15:RTX 4070の性能を追加
- 2023/08/08:RTX 4060 Ti 16GBの性能を追加
- 2023/08/09:SDXL 1.0のベンチマーク結果を追加(UPDATE !!)
詳細なデータありがとうございます。
最近の高性能CPUやGPUは私の使用目的では勿体なさ過ぎると感じていましたが、こういう使い方をする人にとってはわずかな出費の違いがパフォーマンスにものすごい差を示すのですね。
現在RADEON用にnod-ai SHARKが有るので
もう少ししたらまともに使える様になるかしれません
検証お疲れ様でした
赤と緑ではライブラリに雲泥の差が有り
AIに関してはcudaの牙城が大き過ぎますからね
AMDが一朝一夕に追いつける物ではない
AI用途だと3060(12GB)>3060Tiという下剋上が発生するのかと思いきや
「VRAMありき」と世間が言うほどでは無いみたいですね。
次回の学習編でそれが覆るのか楽しみです。
3日前にAIをはじめて触ったんですけど
rtx3070のvram8GBだと、容量が大きい学習モデル同士のマージでエラーが起きたり
容量が大きい学習モデルを使用している場合、学習モデルの切り替えでエラーがおきたりと、VRAMを使い切ってエラーが発生するケースがわりとあって
特に学習モデルのマージはAIイラストをやりこむ上でかかせないので
VRAM8Gだと結構ストレスに感じます
某PCショップ中古のRTX3070が4万台だったので気になっていたけど
この書き込みがすごい参考になりました、ありがとうございます
4060Ti 16GBが出たあとにレビューを見てから、4070Tiにするか決めたいと思います
StableDiffusionは速度に関してはVRAM容量よりVRAM帯域幅とfp16演算性能が重要なので覆ることはないでしょう。
とはいえ3060はVRAM容量が大きい分解像度を上げたりBatch sizeを上げられるメリットがあります。
3060(12GB)と3060Ti、どちらがいいのでしょうか?
いや…ここまで記事まで読んでそれを聞くとか…
分からないなら素直におすすめの方を買えばいいと思う
検証おつでした
ブルプロの時も思ったんですが1660と3050って結構差が出るんですねぇ
ゲームやベンチ的なのだと同等と思ってたので意外でした
RTX 3000シリーズはTensorコアが搭載されたので、こういった機械学習系の用途だと性能が伸びやすいですね。
今後のアップデートでRTコア(レイトレ用)の演算性能も活用できるようになるらしいので、まだまだ伸びしろがありそうです。
各グラボでBatch sizeを最大まで上げた場合の効率も知りたいです。
組み合わせが多すぎるので、グラボの数を絞って検証する予定です。
私はこれほど多くのGPUで比較できず感覚的で申し訳ないですが、Batch sizeが4程度に大きい方が1枚あたりの時間が短く、並列数を上げるにはVRAMがより必要、と理解しています。
特にRTX4090は伸び幅が大きいように思います(ハローアスカは5×2生成で9秒を割ります)
とても参考になる情報ありがとうございます。
実際にバッチ回数 x バッチサイズを変更して、いくつかベンチマークを試したところ、VRAM消費量が1~2 GBほど増える代わりに、イラスト10枚分の描写時間がかなり短縮できました。
特に「512×768:LoRA + ControlNet」では、約46%もの高速化で割りと衝撃的です。
バッチ1回毎にメモリデータの初期化などで読み出し作業が入ってるんですかね。
1*10だと10回初期化して、2*5だと5回って感じで。
検証するなら、HDDとSSDで差が生じるのか、PCメモリの速度に依存するのか、学習モデル毎に差はあるのかとかですね。
期待してます。(他力本願)
お絵描きAIの影響で
GPUにもがっつりVRAMほしいという需要が発生してますね
グラボを30枚も持っているなんてすごいですね。自分も気になるのは買ってもいいのかと錯覚してしまいます。危ない。
正直、本気でやるなら速度よりvramが大事
解像度あげると絵のディティールもアップするし、アップスケーリングは違和感ある
ただ3090はvramの熱問題あるから自分で分解してグリス塗り直してサーマルパッド交換、追加してヒートシンクくっつけてファンも取り付けられる人にしかおすすめしない
結局バランスの4080か性能の4090か、コスパの4070になる
3090もノーマルのままで大丈夫なモデルも割と普通にありそうですよ。
4070Tiの12GBが選択肢に入る使い方なら、3080Tiもいけますね。
ちもちゃんを作りたい
リストが途中から1650Superから1660Superに替わっているんですが?
入力ミスでした・・・。
今回は「GTX 1650 Super」をテストしていないので、全部「GTX 1660 Super」が正しいです。間違ってるグラフを修正します。
RTX4系はワッパも書いた方がいいですよ
特に4090と4080は値段差を電力効率で埋めてしまえる程ですので…
検証記事を作成いただきありがとうございます。NVIDIA/AMD両陣営を横並びで比較した記事はあまり見かけないので、興味深く拝見させていただきました。
1点気になったこととして、現在”–xformers”オプションでインストールされるxformers、およびデフォルトで使用されるPytorchはRTX4000番台(Ada Lovelace世代)に最適化されていないため、そのままでは本来より低い性能しか出ません。
このコメント通りに新しいバージョンのxformers・Pytorchを導入すると、概ね1.5倍程度の性能を発揮するようになります。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/2449#issuecomment-1404540735
私の環境はi5-13600k + RTX4090(Powerlimit 75%)ですが、
記事中のHello Asuka Testでは33.2it/s、Ayaka Benchmarkでは19.1it/s程度が安定して出ています。
もちろん「インストールしたてのカスタムしない状態での比較検証」ということでしたら記事内容に誤りはないのですが、RTX4090を買うようなひとはきちんと最適化も行うのではないか。Ada Lovelace世代とそれ以前の世代の性能差を比較するという観点であれば、きちんと性能を発揮できる環境を整えて検証した方がいいのではないか・・・と考える次第です。
差し出がましいことを申し上げました。今後も記事を楽しみにしております。
参考になる情報ありがとうございます。
AD世代の最適化設定はけっこう複雑ですね。cuDNNを置き換えただけで満足してた(これで約1.3倍)のですが、他にもあっととは。試してみて見て効果があれば、グラフに「4090 最適化設定」という感じで追記します。
ご返信ありがとうございます。記事のアップデートを楽しみにしています。
ところで、sd-extension-system-info という拡張機能はご存じでしょうか。
CPUやGPU、インストールされている各種ライブラリのバージョン情報などを確認するツールですが、
ベンチマーク機能も搭載されており、ワンクリックするだけで画像生成の速度を計測することができます。
自動的にバッチサイズを変えながら生成速度を計測できるほか、様々な要因でスコアが低下してしまう初回生成のみ計測結果から除外するウォームアップ機能、オンラインでのスコア投稿・閲覧機能などもあります。
(有志が送信したスコアはこちらから一覧でき、CPUやGPU、使用するライブラリ等のバージョンから絞り込むこともできます https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html )
他の方のコメントで、バッチサイズを変えた場合のテスト結果を記事にまとめる・・・というようなことを書いていらっしゃるのをお見かけして、記事執筆のお役に立つのではないかと思い付いた次第です。
よければお試しください。
コメントありがとうございます。
教えていただいた情報をもとに、torchとxformersをビルドし直しました。
・torch: 2.1.0.dev20230311+cu118
・xformers: 0.0.17+b6be33a.d20230313
結果、RTX 4090が28.7 it/s → 35.3 it/sまで性能アップ(約1.2倍)、16000コアに見合う性能に近づいた感じです。ここまで性能が上がると、RTX 4080よりRTX 4090の方が優位ですね。
Web UI拡張ベンチマークはおいおい試してみます。
補足:
Pytorch2.0.0が正式公開されました。Pytorch2.0.0にはxformers的な機能が含まれているため、自前でxformersをビルドする必要がありません。
最新ビルドのxformersと比べて性能が劇的に上がるわけではなく(環境によってはちょっとだけ向上するらしい?私の環境では1~2it/sくらい上がりましたが誤差かも)、GTX1000番台くらいの古いGPUではxformersを使った方が高速だという噂も聞きますが、参考までに導入方法をお知らせします。
0. もしまだなら、Python3.10.x最新版とCUDA Toolkit 11.x最新版をインストールします。(コメント執筆時点では、それぞれPython3.10.11とCUDA Toolkit 11.8.0)
1. venvフォルダを削除します。
2. Stable Diffusion webuiを最新版にします。
3. webui-user.bat(またはwebui-user.sh)を以下のように書き換えます。
—-
@echo off
set PYTHON=
set GIT=
set COMMANDLINE_ARGS=–opt-sdp-no-mem-attention –opt-channelslast
set TORCH_COMMAND=pip install torch==2.0.0 torchvision –extra-index-url https://download.pytorch.org/whl/cu118
call webui.bat
—-
4. webui-user.bat(またはwebui-user.sh)を実行します。
ようは、–xformersのかわりに–opt-sdp-no-mem-attentionをつけ、TORCH_COMMAND行を追加するだけです。
なお、–opt-sdp-no-mem-attentionではなく–opt-sdp-attentionを指定してもかまいません。
公式ドキュメントによると、–opt-sdp-attentionのほうがわずかに早いと書いてありますが・・・私の環境では違いがわかりませんでした。
むしろ、同じseed値でも生成するたびに出力画像がわずかに変化してしまうので、–opt-sdp-no-mem-attentionのほうが実用的かと思います。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Optimizations
また、必要に応じて、その他のオプション(–no-half-vaeとか)などをつけてもかまいません。
私の環境では”set COMMANDLINE_ARGS=–opt-sdp-no-mem-attention –opt-split-attention –opt-channelslast –no-half-vae”としています。
イラストAIも長足の進歩を遂げており、情報をアップデートしていくのは大変かと思いますが、様々なGPU・環境を網羅的に検証いただけるちもろぐさんの記事は本当にありがたいです。
今後とも新規記事・記事のアップデートを期待しております!
こちらの変更方法を記事化していただけると嬉しいです。
RX570 8GBで768×768で問題なく出力出来てますけど、6600XTだと何で落ちるんでしょうね?
ちなみにRadeonでは–medvram等は今のところ効果が無いので、512×512でもVRAMエラーで落ちますね。
※RX570では–opt-sub-quad-attention –no-halfにしないと512×512も768×768もVRAMエラーで落ちました。(元々FP16非対応)
※xformars等もGeforce用なのでエラーの原因になる事があります。
Ryzen APUの場合はBIOSのVRAM設定を512MBから2GBに変更しておかないとBSODになる等、いくつか注意点があります。(gitに注意書きがあります)
あとはメモリを64GB増設しておけばVRAM32GBまで使えるので問題無いでしょう。
グラボのVRAMをOSや他アプリに使わせたくない場合は、iGPU付きCPUを選択した方が良いです。
そうしないとお絵描き中にYoutube等を開いたりするとVRAMが消費されますのでお絵描きがエラー落ちする原因になります。
お絵描きをGPU割り当てする場合はPython.exeをWindowsのGPU割り当てでグラボに割り当てる事で可能です。
firefox.exeやchrome.exeはiGPUに割り当てましょう。
少しでもグラボのVRAMを空けることで落ちにくくなります。
スタート→ゲーム→ゲームモード→グラフィック→アプリのカスタムオプション→アプリを追加する
[特定のGPU: RX570] C:\Users\User名\AppData\Local\Programs\Python\Python310\python.exe
[特定のGPU: RX570] C:\stable-diffusion-webui-directml\venv\Scripts\python.exe
僕はLinux+ROCm環境ですが、こちらも–medvramの効果がありませんでした。(RX 5500 XTを使用)
まさかmedvramもxformars同様にNVIDIA専用なのでしょうか? 公式レポジトリの引数解説にはそのような説明はありませんでしたが…
これから購入する人は3060は12GB版じゃない奴があるから気をつけろよ
エンコードのために1060->1660superにしてしまったがAIお絵描きでは1060の方が優秀だったとは…FP16バグが憎い
Loraあたりで学習編も期待してます
主要なグラボだけでいいんで
学習画像512×512,batch size 1での速度/512×512での最大batch数/batch size 1での最大サイズあたりがわかるといいんじゃないかなー
FP16バグを回避するために入れた起動オプション「–no-half」がかえって動作を不安定にしている気がします。
GTX 1060は描写時間こそダラダラとかかりますが、VRAMエラーを吐かずに最後まで出力できます。ただ、これから買うならRTX 3060 12GBの方が良いと思います(※なお、8GB版は安いけどAI目的なら買わない)。
40シリーズは全体的にワッパも良いよねー
lora回してるとやっぱり12GBある方が安心感はあるよね。バッチ数とかを増やせるのは嬉しい。
10万以上の資金を準備できないなら3060の12GBモデルを買うべきだと思う。
A4000みたいなのも気になる
横から失礼
海外で検証している人がいました
https://lambdalabs.com/blog/inference-benchmark-stable-diffusion
機械翻訳でザッと読んだ感じ、巨大なVRAMはバッチサイズを大きくしたときに効果的、といった内容ですね。
興味深い内容ではあるものの・・・、値段を見るとなかなか手が出せないですね(eBayのUsed品で約40万円ほど)。
検証お疲れさまでした。
非常に参考になりました。
先月末あたりから、ChilloutMixというリアル系高解像度AI画像生成モデルが出て1920などで生成するので、4090や3090/3090Tiの比較に役立つかと思われます。
検証お疲れ様です。
要望なのですがアホな自分のためにtorchとxformerをリビルドした流れをまとめてもらうと大変助かります。
My small addition to the 512×512 test with my RX 470 4gb with directml version of autmatic1111 (Win10) – Time taken: 20m 39.93s – 1239,93 seconds 😀 I really need to switch to nvidia and I’m thinking about buying a used 1070.
とても参考になる検証、記事をありがとうございます。
12GBのグラボ購入をしてみたくなりました。
技術的にわかっていないことが多くて恐縮ですが、12GBグラボを2枚差しにすればワットパフォーマンスは悪いですが、上位グラボに迫れるのではと妄想しました。
スクリプト側がうまく対応できていないのかもしれないですが、いくつかの作業だけでも担えるなら価値はあるのかなと思いました。
グラボのSLIでメモリ増やしたりは、ゲーミング向けのGeForceでは出来なくて、業務向けのTeslaやQuadroなどの上位機種ではメモリを共有出来るのでA100を複数使って数100GBのメモリを持ったお化けマシンで学習などされてます。
メモリが多くできない一般ユースのGeForceでは複数差しのメリットがないので、SLIで処理性能アップではなく、各グラボに個別の学習データ渡して其れに書かせるって感じになるのかなぁって思います。
表向きはSLIが要らないぐらい性能が上がってるからとか、言われるんですが、一番の理由は安い一般ユース品ではなく業務向けのバカ高い奴買えって事ですね。
ざっと調べた限り、複数のGPUを並列化してAIイラストの生成や学習を行う方法はなさそう?
BlenderやV-ray等、レンダリング系はそのまま挿すだけで並列化ができるので、進化が速すぎる今の機械学習界隈なら近いうちに対応しそう・・・。
PC Watchの西川さんのコラムでちもろぐさんがサラッと紹介されてました。
https://pc.watch.impress.co.jp/docs/column/nishikawa/1485422.html
今気づきました、紹介リンクのある記事はこっちでした。
https://pc.watch.impress.co.jp/docs/column/nishikawa/1487845.html
(ローカルで画像生成AIや大規模言語モデルを動かしたい!Google ColabからRTX 3070 Ti+GPU Boxへ乗り換え!? 西川 和久 2023年3月27日 06:14)
ここの下のほう「512×768:神里綾華ベンチマークのサイトより」の紹介リンクが、ちもさんの記事への直リンクになっていました。
本当に参考になる記事。
この記事だけでもRTX4070Tiを買いたくなるけど、今後書かれる予定の学習速度の記事を見て決めます。
AI絵師(笑)とか言いつつ実際はなんかのトレスかアニメキャラ〇人合成したやつしかできないのやめれ
まあ数年前の抽象画しかできなかった時よりは進歩してるんじゃね()
なお今のトレンドは生身絵師同士のトレパク冤罪吹っ掛けの模様
性悪に金と個人情報渡すならAIでええわ
台湾のRTX6000 AdaのAI画像生成レビュー出たので参考にどうぞ
https://www.coolpc.com.tw/tw/shop/gpu/nvidia-rtx-6000-ada-generation/
Linuxでしか動かないのがあれですがRadeonはROCmを使わないと性能出ませんよ。確かWSL2でも動いたはずなので試してみてください。
ただセットアップが地味に難しいんですよね。
ついにWindowsにもROCmが来るみたいですよ!
https://www.tomshardware.com/news/amd-rocm-comes-to-windows-on-consumer-gpus
これでRadeonでもAIをぶん回せるかも?VRAMが多いのが生きるといいですね
ありがとうございます。
とても分かりやすく参考になりました。
RTX2060 12GB購入を決意しましたw
先日発売された4070のスコアも追加していただけると嬉しいです。
多分コスパでトップだと思われます。
NVIDIAの最強グラボA100 80GBで検証してほしいですね。
個人購入できる代物じゃないから検証はクラウドの時間貸出とかでしか無理なのでは?
そもそも、レビュー対象になっていても困惑しそう。
むしろ、時間貸しの方法やその環境での実装方法をまとめてもらった方がありがたいですね。
VRAMの必要量が学習方法の進展によって結構変わりそうでなかなか難しいですね
一時期のdreambooth方式の学習だといくらあっても足りなかったけど、今はまあ最低8GB、できれば10GBあればほとんどの用途で不足はないですからね
いきなり高価なグラボで躓いたらもったいないので、最初は3060とか比較的安価なグラボで色々触るのがいいんじゃないかなあと思う
うわぁ、この早さで4070のデータ更新してくれたいありがたい!!!
4000番台は4090以外は物凄くコスパが悪いです
それなのにコスパ良く感じるのは前の世代がマイニング需要で高騰したせいで殆ど定価から値下がりしてないからです
1000番台2000番台の価格や性能アップを考えたら詐欺に等しいです
コスパ 4090は25万円するので、他の4000も実はそれなりで寧ろ逆なことも多そうですが。
たしかに「RTX 2080 Tiが6万円で投げ売り!」みたいな値下がりがほとんど見られないですね。マイニング需要はほぼオワコンですが、それでも値段が下がらないのは販売店の値段感覚がマイニング特需のせいでズレてしまった可能性は、たしかに有り得そう。
ただ、当時から大幅に円安が進んでいることも考慮した方が良さそうです。
仮に円レートがRTX 3080発売時(初売で95700円)から固定されていた場合、RTX 4070は82010円スタート、RTX 4070 Tiなら109390円スタートと計算できます。ここに楽天やヤフショのポイント還元を組み合わせると、それぞれ7万円台・9万円台で買えたはず・・・でした。
すみません(v17)とはどういう意味でしょうか?
(v17)はリビルドした「xformers version 0.0.17」を使った場合の性能です。ぼくのテスト環境だと、RTX 4000シリーズに関してはこの方が性能が出やすいので、RTX 4000シリーズはリビルド版xformersを使っています。
導入方法はこちらのコメント(#comment-98136)やコメント(#comment-99693)が参考になります。ぼくが導入した方法は#comment-98136の方です。
[…] そのような中で、「ちもろぐ」さんのグラボ比較記事がとても参考になりました […]
Windows Radeon環境だとDirectMLよりMLIR/IREEがかなり速いようです
nod-ai/SHARK: SHARK – High Performance Machine Learning Distribution https://github.com/nod-ai/SHARK
Lora有り
512×768 20step
で比較すると
Shark 700
1.5-2it/s
automatic 1111
0.2-0.6it/s
で確かにsharkが4倍以上速かったです。
ですが、VAEがエラーで使えなかったり、Loraが1つしか使えなかったり、強制終了したりしました。
加えて、起動時に毎回モデルの変換か読み込みを行っており、使えるまでに5分くらいかかります。
日々アプデが行われてますが、現在の最新版でもエラーがあり発展途上の印象です。
環境
windows 10
rx 6600 xt
i5 10400f
詳細な検証、参考になります。さて今、サイコムでは
・RTX A400 ¥194620<RTX 4080 ¥232320(共に16GB)
・Radeon 7900XTX ¥184160<RTX 4090 ¥347940(共に24GB)
ですが、stable diffusionでの性能はどんなものでしょうか。
ハローアスカの生成速度は
・RTX A4000:25~28秒
・RTX 4080:12~15秒
・RX 7900 XTX(ROCm 5.5 + Arch Linux):17~19秒
・RTX 4090:9~12秒
です。
RadeonはROCm版がWindows(もしくはWSL2)で動くようになれば、評価がかなり変わる予感がします。
現状は本家1111版の方が機能性(Tiles DIffusionやControlNet 1.1等)に優れていて、多様な表現に対応できるので基本的にGeForceで良いと思いますが、将来的にはRadeon(RDNA 3)が選択肢に入ってくるかもしれません。
すでにA4000で検証していたのですね、コメントを見落としていました。
たくさんの検証情報、ホント助かります!
pixivのAIイラストへの対策として規約改定を発表しましたね
リプ欄がAI絵師への憎悪が渦巻いていてすさまじい反響になってます…
これから始めるつもりの人蛇蝎のごとく嫌っている人も多いと認識して、特にネット上にイラストを上げることはくれぐれも注意されますよう
RTX3060買うより4070買ったほうがいいのか
NVIDIA H100での検証おねがいしたいですね。また、一台の時と複数台の時で変化がどれほどなのかも検証お願いします。
自分でやれ
ここ数日絵師がpixivで非公開にする人が続出してるのを見ると、AI絵師は宿主を殺す寄生虫みたいなもんだよなあって思わずにはいられない
技術の発展は凄いけど結局素材は余所から勝手に持ってきて生成するしかないから、無法地帯のstable diffusionは早晩行き詰まりを見せることになりそう
現状pixivやAIの書籍を取り扱っている所もどう対応していくのか…
他国と決定的に違うのはアニメや漫画文化で圧倒的に絵師の人数が多く、その絵師を支持してる人も多いため影響が桁違いだというところ
nijijourneyはそのへん良くわかっていて、版権などに酷似したものが生成された場合は報告して排除する仕組みがあるから独自の発展は遂げられるかもしれないけど
ここはAIイラスト作成のおけるグラボの比較情報を提供しているページであって、AIイラストの是非とかそんなのどうでもいいし見たくないんですけど。
子供じゃないんだから、もう少し時と場所をわきまえて戴けませんかね?
どうでもいいのにコメントは無視できなくて草
DLsiteやCi-en等次々にAI作品の停止措置を取らざるを得ない状況を少しは真面目に考えたら?
各方面でめちゃくちゃ損害出してるんだよ
まあそういう自分本位なやつばかりだからこうなってるんだけど
君の”負け”やで
ここはそれを話す場所じゃないでしょ?
と言ってるんですよ。
このページはあくまでも「グラボの評価」をしているところ。
AIイラストの是非をテーマにしたページではない。
そのあたりを話したいのなら、別のところでやってくれという話。
RTX4060TiのVRAM16GB版の噂が出てきたけどガチならAI用途に限ればかなり優秀な選択肢になるかもしれない
ファンボックスのAI生成作品禁止が来たね
まあ今の流れならそうなるだろうなとは思った
他の販売サイトが続くかどうか
さすがにlora実装以降は作風とキャラ学習のハードル下がったのもあって無法も過ぎた
お小遣い稼ぎのためにグラボ購入した人やしようとしてた人が少なからずいただろうけどどうなるかね
さすがにちょっとした遊びのために10万だすひとは少ないはずだし
今更やり始めても月に千円以下稼げるかどうかって感じだったしねぇ
自分は普通に好みのイラスト出力してみたいから買おうと思ってる
RTX4060ti 16G版のベンチマーク待ってます
VRAM 12Gと16Gで出来ることに変わりますか?
4060ti 16Gと3060 12Gで迷っています。
扱える解像度が変わってくる程度
高解像度になるほど大容量のVRAMが必要になるけど
VRAM8GBの3060Tiでも、解像度上げないなら処理速度は3060より速いから悪くないっていう程度
4060Tiが3060Ti~3070未満の性能しかないという噂なので、もしかしたら値段重視なら3060/3060Ti買った方がコスパ良い可能性もあるという
GTX1080からRTX4070tiに乗り換え、
個人的には早くなったと思っていました
ところがこちらのページを見たら大幅に遅かったことに気が付けました
cuDNNの更新などをしてスペック通りの速度が出せるようになりました
ここを見ていなかったらずっと遅いまま生成する所でした
ありがとうございます
ちもろぐ読者様
私もこのサイトを見てGPUどれにしようか考えています
たまたまこのコメントを見たのですが私もやり方がわるいのかちもろぐ様のベンチ通りしてもかなり生成が遅いのですが
cuDNNの更新というのが必須ということでしょうか?
CUDA Toolkit 12.2 Update 1 Downloadsというのを入れてみましたが速度は変わりませんでした。
なにかアドバイスいただければ幸いです
結局表をざっと見るに、現状は
GPUの処理速度 >>>メモリ容量
って感じですかね。
3060Ti 12GBが、3070 8GBを追い越すことが無いわけですし
PC Watchの西川和久氏が書いた記事に、このページへのリンクが貼ってありますね。
西川和久氏も見ているのか~!
最後のAyaka LoRA + Hires Fix Benchmarkのhires,fixのhires steps値はいくつになってますか? 記載してないのでデフォの数字になってるんだと思いますが、
自分の持ってるグラボと 最後のベンチだけが著しく違うのですが・・・「他はほぼ同じ」
この項目をいじるとかなり生成時間が変わるみたいです。
試しに「10」にすると まったく同じ結果になります
4060ti 16GBが3060 12GBと4070の間のどのあたりに入ってくるのかが気になって夜も寝れません
意外と3060に毛が生えた程度のモノかもしれませんね…
AIデビューしたいので検証お待ちしています
これはただの願望なのですが、外付けのGPUboxでRTX4090を使用したノートPCでどれくらいの速度が出るものなのか知りたいです。
RTX4090のデスクトップを買うか、出張が多いのでRTX4090のノートを買うかで迷っていますが、外付けのGPUboxという第三の選択肢があることに最近気づきました。が、そんなことをしている人がこの世に一人もいません。
ノートPC用RTX4090(正式名称:RTX4090 Laptop)は、デスクトップ版RTX4080の低クロック版ですよ
外付けGPUボックスを使う場合、USB3.2Gen2接続(10Gbps≒1.25GB/s)かUSB3.2Gen2x2接続(20Gbps≒2.5GB/s)になると思いますが、転送速度はデスクトップのPCI-Express3.0 x16接続(31.5GB/s)より大幅に遅く、PCIe3.0 x1接続(2GB/s)と変わらないです。
AI関連はゲームと違ってバスの転送速度も大事なので、外付けGPUボックス(5万)+RTX4090(30万)を買うなら、RTX4090Laptopを積んだノートPCを買って荷物少なく持ち運んで遊んだほうが幸せかもしれないです。
[…] 【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】 […]
某所でxformersを入れない4090は3060に劣るって言ってる人いるんだけどそんな事ある?
3060と3060tiどっちがいいんだ〜〜
3060ti 12GBがあったら即決でそれ買ってたのに
しれっと4060があって草
3060Tiと良い勝負してんじゃん
TDPからすれば4060も十分ありでは?たった110wで大健闘
というか4060のレビューはよ
ROCmのWindows版が出たことですし、Radeonも巻き返せませんかねえ。
せっかくVRAM多く積んでることですし。
SDXLの検証ありがとうございます
VRAM8GBでも動作するComfyUIから1024×1024の生成時の性能比較も見てみたいですね
現時点で1111は12GBではSDXLが安定動作しないため実用レベルに達していません
画像生成速度はいいんですが、LoRA学習の速度の差とか分かりませんか?
やっと4060ti 16GBくんに人権が…
要らない子じゃなかったんや!
それにしてもこの量のグラボの計測ほんとお疲れ様です…気が向いたらで良いので7900xtxくんもいつか記事見れると良いなあ。
RADEONはVRAMの使用効率がかなり悪いのでかなり振るわない感じみたいですが、改善するのにまだまだ時間を要しそうですね。
今のところSDXLはcomfyUIでちょっとお試し程度で使ってる人も多いだろうけど意図通りの絵を作るならa1111の拡張を使いたいし
SDXLへの各種拡張対応が進んで来たら当然必要VRAM量も膨大になるわけで4060Ti16GBの評価はガラッと変わるかも
hello, thank you so much for all your benchmark it’s very important for the AI community (^_^) i live in france and i want buy a new pc for try sdxl 1.0.
i think about rtx 4070 or 4070ti but after see the result of 1600×1024 (so coooooool) i want know if it’s same result with 1024×1024 (if the 12go about 4070 and 4070ti it’s better than 4060 ti 12go) it’s possible add the result with 1024×1024 ? or just tell me wich is better with this resolution please 😉 i wait your anwser for buy my computer. thank you so much.
resume question: with better for sdxl 1.0 with 1024×1024 resulution ?
– rtx 4060ti 16go
– rtx 4070 12go
– rtx 4070 ti 12go
and how many % difference (or iteration value… or time in second)
best regards 😀
Hi, Aglo 🙂
(sorry, I’m not the author of this article page.)
He (Mr, Yakamochi) has been updating and verifying this page since March of this year.
in this time, the Results show that SDXL’s image generation performance and learning performance depend on the amount of VRAM.
So out of those three options, he concludes that the 4060Ti 16GB with 16GB of VRAM is better.
(Please read his opinion using translation site)
Hello, thank you for your anwser 🙂
yes i see all this benchmark, very big different with sdxl (1600×1024) thats’s why i ask the question about 1024×1024 because i want use this definition
1600×1024 = 1 638 400 Total Pixels
1024×1024 = 1 048 576 Total Pixels
1024×1024 to 1600×1024 = x 1,56 more Pixels… i want know if with 1024×1024 the 12 go of rtx 4070 or 4070Ti are very limited same like 1600×1024 or not ?
i Hope with 1024×1024 with 12go Vram the result it’s more like result of the begin benchmark (512×1024)
if the result of 1024×1024 it’s little same delta difference of 1600×1024 => i prefere buy Rtx 4090
if the result of 1024×1024 it’s little same delta difference of 512×1024 (not very limited with 12Go Vram) => i buy Rtx 4070 or 4070Ti
because with 1600×1024 the 4060 Ti 16go (550€) it’s better than 4070 Ti 12go (850€)
i’m very curious about 1024×1024 with 4060Ti 16go, 4070 Go and 4070 Ti 12Go.
Please give me the anwser 😀 possibly i give money for this result (Benchmark in SDXL 1.0 with1024x1024 resolution for RTX card) 😉
Best Regards and good vibes
SDXLも含めた再検証お疲れ様です。
とりあえず、何買えばいいか判らず迷ったなら、分割払いででもいいからRTX4090買っとけ。は間違いなさそうですね…圧倒的すぎる。
ゲームしないクリエイティブユーザーなら、値下がりし始めた4060Ti 16GBは悪くない選択肢。(VRAM多いから動画編集でエフェクト多用できそう)
ゲームもするなら4070無印以上、か
記事読んだら、CPUなどシステム全体の実消費電力のランニングコストも含めたコスパの良いグラボ探しも面白そうって思ってしまいました。(検証する側にとって時間と労力のかかり具合半端ないですが…)
微妙だという話をよく見かける4060tiの16GB
AIイラスト目的だとやっぱりVRAM効果絶大ですね
とても参考になりました
512×512ですが、Intel ARK770/750に最適化ブーストが入ったそうです
https://www.tomshardware.com/news/stable-diffusion-for-intel-optimizations
RTX4060無印より性能が上になったとか
IntelもAMDも本腰入れて最適化して伸ばしてますね。
まだ一定条件という感じですがRTXに匹敵しはじめているようです。
ただし厳密には消費電力性能もですがまだまだAIではNVIDIAが強くかつ整っているので超えることはもちろん並ぶことも難しい現状ですね。
[…] 参考記事:https://chimolog.co/bto-gpu-stable-diffusion-specs/ […]
[…] 【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】 […]
試しにRX570 8GBでStable Diffusion XL 1.0 (1024×1024)をやってみたら、50stepsで19分かかりました。
寝る前に20枚出力したら5時間57分かかっていたようです。
(GPU1000MHz、VRAM1650MHzにダウンクロック、54℃、960rpm)
LowVRAMでPCIEとメインメモリ経由のデータ転送が頻繁に発生する為、GPU使用率が下がってかなり遅くなってしまいます。
VRAM16GB割り当てたRyzen APU(iGPU)の方がMedVRAMで動きそうなのと、転送がメインメモリ内で完結する為、その方が早そうです。
メインメモリは32GB積んでるんですが、コミットサイズが40GB超えることがチラホラあったので、スワップファイルを32~40GBに設定しています。
長期間やる場合は、スワップでSSDの寿命がゴリゴリ削れるのでメモリ増設が必要だと思います。
・GPU
Radeon RX570 8GB (Adrenalin 23.7.1 / AMD-Software-PRO-Edition-23.Q3-Win10-Win11-For-HIP)
・フロントエンド
lshqqytiger Stable Diffusion web UI with DirectML
・起動オプション1
set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6,max_split_size_mb:128
set COMMANDLINE_ARGS= –backend directml –opt-sub-quad-attention –no-half –lowvram –disable-nan-check –sub-quad-q-chunk-size 256 –sub-quad-kv-chunk-size 256 –sub-quad-chunk-threshold 94
・起動オプション2 (VRAM節約の為、Geforce GT635 [0]、RX570 [1]の環境です)
set CUDA_VISIBLE_DEVICES=1
・WEB UI設定
# ONNX Runtime
Enable the memory pattern optimization.: Yes
Enable the memory reuse optimization.: Yes
Reload model before each generation.: Yes
# Optimizetions
Cross attention optimization: sdp – scaled dot product
Negative Guidance minimum sigma: 1
Token merging ratio: 0.1
Pad prompt/negative prompt to be same length: Yes
Persistent cond cache: Yes
Batch cond/uncond: No
DirectML memory stats provider: atiadlxx (AMD only)
・Log
>Steps: 50, Sampler: DPM++ 3M SDE Karras, CFG scale: 8, Seed: 536594022,
>Size: 1024×1024, Model hash: 06e890b5be, Model: hassakuSdxlAlphav_alphaV01,
>Clip skip: 2, Token merging ratio: 0.1, RNG: CPU, NGMS: 1, Eta: 0.67, Refiner:
>sd_xl_refiner_1.0 [7440042bbd], Refiner switch at: 0.5, Pad conds: True, VAE Decoder:
>TAESD, Version: 1.6.0
>Time taken: 18 min. 52.2 sec.
>A: 7.33 GB, R: 8.00 GB, Sys: 8.0/8 GB (100.0%)
https://i.imgur.com/dNTBOKi.png
VAEを使用しない場合は、一部精度を落として、消費を更に減らせます。
以下の設定でVRAM消費6GB、メインメモリ消費30GBになりました。
set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6,max_split_size_mb:64
set COMMANDLINE_ARGS= –backend directml –lowvram –precision autocast –disable-nan-check
set CUDA_VISIBLE_DEVICES=1
CUDA_VISIBLE_DEVICESはマルチGPU環境の場合に使用します。
iGPU+dGPUの場合は、0を指定するとiGPU、1を指定するとグラボを使用します。
VRAM節約の為、iGPUにOSやその他アプリを割り当てれば、グラボのVRAMは全てStableDiffusionに使用出来ます。
iGPU側で動画を見たりソシャゲをプレイしても、グラボ側のStableDiffusionがVRAM不足で落ちたりしません。
https://i.imgur.com/BZ3LQAL.png
7900XTXのAIでのパフォーマンスが一気に上がったという記事を見かけました
https://wccftech.com/amd-radeon-7900-xtx-offers-higher-generative-ai-performance-per-dollar-than-nvidia-rtx-4080-after-990-speedup/
新しいドライバなどを適用した上での性能差の検証、ご検討いただけるとありがたいです
何気に2070superがめっちゃ頑張っとる
STARFIELD、DLSS 対応しましたねぇ
はやくFSR3にも対応して欲しいところ
このクラス、3060ti,4060,7600じゃ力不足だから
FGの有無結構大事だと思うんだけど
4060はFSR3のFG対応できるかどうかで評価額がガラリと変わってきそう