2024年のAmazonプライムデー【解説とおすすめセール品】
当ブログはWeb広告を導入しています(景表法による表示)

【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】

月額料金なし、無制限の生成枚数でAIイラストをガシガシ描くなら、Stable Diffusionをローカル環境にインストールする「AUTOMATIC1111版Stable Diffusion WebUI」が必要です。

しかし、ローカル版AIイラストはグラフィックボードも必須です。

  • VRAM容量が多くないとダメ
  • RTX 4000シリーズが良い
  • Radeonは絶対にNG

などなど・・・。いろいろな情報が飛び交っていますが実際のところはどうなのか?

グラボが棚に30枚ほど
やかもち
グラフィックボードをなぜか40枚ほど所有している筆者が、実際にStable Diffusionを動かして徹底的に検証します。

(公開:2023/3/8 | 更新:2024/4/3

AIイラスト(Stable Diffusion)におすすめなグラボを検証

検証方法:AIイラストの生成速度をテストする

Stable Diffusion Web UI

AIイラスト(Stable Diffusion)に適したグラフィックボードをテストする方法はシンプルです。

実際にAIイラストを何枚か描かせて、処理にかかった時間と生成速度を記録します。AIイラストの生成速度が速いグラフィックボードが、AIイラストに適したグラボです。

今回のStable Diffusionベンチマークでは、以下の2つの数値を「性能」として扱います。

  1. ログに表示される生成速度(Iterations per Second)
  2. リザルトに表示される描写時間(Time taken)
ログに表示される生成速度(Iterations per Second)

生成速度は「it/s」と表示され、1秒あたりのステップ回数らしいです。正直ちょっと直感的に分かりづらいので、よく分からない人は描写時間に注目しましょう。

イラスト生成にかかった時間(リザルト画面)

リザルト画面に表示される「Time taken」は、スタートを押してからAIイラストの生成が終わるまでにかかった時間を示します。

たとえば、イラストを10枚描かせて62秒かかったなら、イラスト1枚あたり6秒の処理時間です。

テスト環境:使用したグラボとPCスペックを紹介

Stable Diffusion用のテストスペック
テスト環境
「ちもろぐ専用ベンチ機(2024)
スペックNVIDIA
GeForce
AMD
Radeon
Intel
ARC
CPUCore i9 13900K
マザーボードASUS TUF GAMING
Z690-PLUS WIFI D5
メモリDDR5-4800 16GB x2使用モデル「Crucial DDR5-4800」
グラボRTX 4090
RTX 4080 Super
RTX 4080
RTX 4070 Ti Super
RTX 4070 Ti
RTX 4070 Super
RTX 4070
RTX 4060 Ti 16GB
RTX 4060 Ti
RTX 4060
RTX 3090 24 GB
RTX 3080 10 GB
RTX 3070
RTX 3060 Ti
RTX 3060 12 GB
RTX 3050 8 GB
RTX 2080 Ti
RTX 2080 Super
RTX 2070 Super
RTX 2060 Super
RTX 2060 12 GB
RTX 2060 6 GB
GTX 1660 Ti
GTX 1660 Super
GTX 1650(GDDR6)
GTX 1080 Ti
GTX 1080
GTX 1070 Ti
GTX 1060 6 GB
RX 7900 XTX
RX 7800 XT
RX 6800 XT
RX 6700 XT
RX 6600 XT
【以下:動作せず】
RX 7600
RX 6500 XT
RX 6400
Arc A770 16GB
SSD1 TB(NVMe)500 GB(NVMe)1 TB(NVMe)
OSWindows 11 Pro (22H2)Ubuntu 22.04 LTSWindows 11 Pro (22H2)
WSL2 : Ubuntu 22.04 LTS
ドライバNVIDIA 551.23AMD Adrenalin 24.1.1Intel 31.0.101.5085
ライブラリNVIDIA CUDAAMD ROCmIntel oneAPI

今回のStable Diffusionベンチマークで使用するテスト機のPCスペックです。

CPUにCore i9 13900K(24コア32スレッド)、DDR5-4800メモリを容量たっぷり32 GBなど。グラフィックボードの足を引っ張らないスペックを使っています。

テストに使用したグラフィックボードは全部で36枚です。

筆者のお財布事情と時間の都合で、すべてのグラフィックボードが揃っているわけではないものの、ベンチマークとして性能を比較するのに不足しない量を揃えています。

【グラボ別】AIイラスト(Stable Diffusion)の生成速度

全8種類のベンチマークで生成速度をテストします。テストごとに使用したモデルやプロンプト、細かい設定やシード値はそれぞれのテストごとに記載します。

Stable Diffusionの起動オプション
GeForceシリーズ(共通)–xformers –opt-channelslast
GTX 1600シリーズ–no-half
GeForceシリーズ
VRAM:4~6 GB
–medvram
GeForceシリーズ
VRAM:4 GB未満
–lowvram
Radeonシリーズ(共通)–opt-sdp-attention –opt-sdp-no-mem-attention
※Hires.Fix時「なし」に変更
Radeonシリーズ
VRAM:6~8 GB
–medvram
Radeonシリーズ
VRAM:2~4 GB
–lowvram
SDXLベンチマークVRAMが不足 or VRAM起因の低速化で
–medvram-sdxl

グラフィックボードの仕様に合わせて、Stable Diffusionの起動オプションを調整しています。

「–xformers」と「–opt-channelslast」はTensorコアを搭載するGeForceシリーズで、生成速度の高速化が見込めるコマンドです。「–no-half」はGTX 1600シリーズの高速化設定。

「–medvram」と「–lowvram」は生成速度を犠牲にするかわりに、VRAM容量が少ないグラボでAIイラストの生成を可能にします。ただし、生成される内容の再現性がやや悪化します。

「–opt-sdp-attention –opt-sdp-no-mem-attention」はRadeon RXシリーズ(ROCm)用の高速化設定です。Radeonでは「–xformers」が使えないので、代替案としてSDPAを使います。

ただし、SDPAはVRAMの利用効率がやや悪化するため、VRAMの使用量が極めて多いHires.Fix時のみ無効化してベンチマークします。

最後にSDXLベンチマークについて、基本的なオプションは同じですがVRAM容量が不足、またはVRAMが原因で著しく低速化した場合に「–medvram-sdxl」を適用します。

グラフィックボードによっては、–medvram-sdxlを使ったほうが生成速度が速かったです。

GeForceシリーズの環境設定
3D設定の管理システムメモリフォールバックなしを優先
VRAMの設定set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6, max_split_size_mb:128
セキュリティWindows Defender「リアルタイム保護」を無効化

GeForceシリーズの環境設定は以上のとおりです。どちらの設定も、VRAMを効率よく使う高速化設定で、VRAMがギリギリになる状況で持ちこたえる(低速化を防ぐ)効果が見込めます。

テストに使用したStable Diffusion
GeForce用AUTOMATIC1111 / stable-diffusion-webui
(git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.)
GeForce用
(Forge版)
lllyasviel / stable-diffusion-webui-forge
(git clone https://github.com/lllyasviel/stable-diffusion-webui-forge)
Radeon用stable-diffusion-webui / ROCm 6.0
(https://g-pc.info/archives/35474/)
Intel Arc用Stable Diffusion Web UI for Intel Arc
(https://www.reddit.com/r/IntelArc/comments/11an12q/stable_diffusion_web_ui_for_intel_arc/)

上記のURLから入手できるStable Diffusionをベンチマークで使います。

GeForce用のStable Diffusionは2つ使います。ド定番のAUTOMATIC1111版と、1111版にlllyasviel氏が改良を加えたForge版の2つです。どちらもNVIDIA「CUDA」で動作します。

Radeon用は「DirectML」と「ROCm」版があり、今回はUbuntu 22.04 LTSにROCm版を導入します。DirectML版はVRAMの利用効率が悪く、生成速度も劣悪です。

ROCm版の方がずっと効率がいいので、Lisaちゃん(@KotoriKanase)氏が公開している自動インストーラーを使ってROCm版Stable Diffusionを導入しました。

Intel Arc用は「oneAPI」版を、Windows 11で動作するLinux(WSL2)に導入してテストします。DirectML版より生成速度が速いですが、ControlNetに未だ非対応です。

512×512:ハローアスカベンチマーク

512x512:ハローアスカベンチマーク
  • 使用するモデル:nai.ckpt
プロンプト(呪文)設定
Positivemasterpiece, best quality, masterpiece, asuka langley sitting cross legged on a chair
Negativelowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name
各種設定
sampling methodEulersampling steps28
Width512Batch count10
Height512Batch size1
CFG Scale12
Seed2870305590

「ハローアスカベンチマーク(Hello Asuka Benchmark)」は、NovelAIでAIイラストを生成した結果と一致した結果を得られるかを検証する方法です。

設定を揃えるとほとんどのグラフィックボードでまったく同じ結果を生成できるため、同じ条件で揃えて性能を比較するベンチマークに適しており、Stable Diffusionの定番ベンチマークとして扱われています。

512x512:ハローアスカベンチマーク(Stable Diffusionのベンチ結果)

ハローアスカベンチマーク(512×512)の生成速度をグラボ別に比較したグラフです。

予想通り、RTX 4090やRTX 4080が猛威をふるいますが、512×512程度の生成ならRTX 3060 12GBやRTX 4060など、ミドルクラスのグラボでそこそこのスピードで生成できます。

512x512:ハローアスカベンチマーク(Stable Diffusionのベンチ結果)

次は、ハローアスカベンチマーク(512×512)の描写速度をグラボ別に比較したグラフを見てみましょう。

描写時間(10枚の生成にかかった時間)で見ると、RTX 3060 12GBやRTX 4060がAIイラスト入門用にコスパがいいグラボと評価できます。

最上位モデルのRTX 4090は約4倍も速い10秒未満で10枚生成できますが、RTX 3060 12GBより価格が約7倍も高いです。

生成ガチャを大量に回すやり方ならハイエンドモデルが有利なものの、最近は狙い通りのイラストを高い確率で生成する手法が整備されているため、512×512程度のAIイラストはRTX 3060 12GBクラスで十分です。

やかもち
去年(2023年)と同じく、512×512はRTX 3060 12GBで十分ですね。

512×768:神里綾華ベンチマーク

512x768:神里綾華ベンチマーク
  • 使用するモデル:Anything V5(anything_inkBase)
    https://civitai.com/models/9409/anything-or
プロンプト(呪文)設定
Positivemasterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kote, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background,
Negativensfw, (worst quality, low quality, bad anatomy, extra digits), signature, artist name, watermark, bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed20210928

ここからは筆者が作成したオリジナルベンチマークで、AIイラストの生成速度を比較します。

イラストサイズを512×768に変更して、特定のキャラクター(原神:神里綾華)を呼び出すベンチマークです。なお、設定をきちんとコピーすると結果をほぼ再現可能です。

512×768:ベンチマーク(Stable Diffusionのベンチ結果)

神里綾華ベンチマーク(512×768)の生成速度をグラボ別に比較したグラフです。

生成サイズが1.5倍(26.2万画素 → 39.3万画素)に増えたため、VRAM容量の少ないグラフィックボードは生成途中でVRAM不足エラーに陥りテストに失敗します。

RTX 4090とRTX 4080は相変わらずトップクラスの生成速度です。512×512でおすすめなRTX 3060 12GBも引き続き、コスパのいい性能で競っています。

期待の新星RTX 4060 Ti 16 GBは残念ながら8 GB版と大差なし。VRAM使用量が少ない使い方だと性能差が出ないです。

512×768:ベンチマーク(Stable Diffusionのベンチ結果)

描画時間(10枚分)を確認します。

RTX 4090は512×768サイズをわずか10秒で完了。1枚あたり1秒で描写を終える圧倒的な性能です。

定番のRTX 3060 12GBだと1枚あたり4.5秒で、体感的に少し遅く感じますが、値段を考えるとコスパがいい事実に変わりないかと。

後継モデルのRTX 4060やRTX 4060 Tiも悪くない生成スピードでおすすめできそうに見えて、VRAMの容量が8 GBに減っているのがネック。AIイラストはVRAMが多いほうが何かと便利です。

RTX 3060 12GBの在庫がまだある内は、基本的にRTX 3060 12GBが入門向けおすすめグラボに挙げられます。

やかもち
512×768くらいだと、VRAM容量よりシンプルにグラボの性能が効いています。

512×768:神里綾華(LoRA)ベンチマーク

512x768:神里綾華(LoRA)ベンチマーク
  • 使用するモデル:Anything V5(anything_inkBase)
    https://civitai.com/models/9409/anything-or
  • 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
    https://civitai.com/models/12566?modelVersionId=14816
プロンプト(呪文)設定
Positivemasterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background, <lora:kamisato ayaka:0.9>
Negativensfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed20210928

先ほどのベンチマークでは、割といい感じに特定のキャラクター(原神:神里綾華)を再現できますが、服装の再現度に難ありです。特定のキャラクターをより正確に生成するなら「LoRAモデル」の出番です。

LoRAモデルでキャラクターの再現度が上がる

LoRAを適用すると、ほぼ100%に近い確率※で特定のキャラクターや特徴を狙って生成できます。

※使用するモデルとLoRAモデルの組み合わせや、LoRAモデル自体の品質によって確率は大きく変わります。今回使った組み合わせと設定では、ほぼ100%に近い確率で神里綾華が出現します。

512×768:LoRAベンチマーク(Stable Diffusionのベンチ結果)

LoRAモデルを適用した場合の生成速度です。

古いStable DiffusionではLoRA適用時に生成速度が下がる傾向がありましたが、最近の新しいバージョンなら解消されています。先のベンチマークとおおむね同じ生成速度です。

512×768:LoRAベンチマーク(Stable Diffusionのベンチ結果)

10枚分の描画時間を確認します。

特に傾向は変わらず、RTX 4090が10秒台、定番のRTX 3060 12GBが45秒前後です。512×768にLoRAを適用する場合、やはりRTX 3060 12GBで十分と評価できます。

予算に余裕があるなら、RTX 4070かRTX 4070 Superがおすすめでしょう。RTX 4070はRTX 3060の約2倍の値段ですが、生成時間が約2.1倍なのでコストパフォーマンスが同じです。

RTX 4070 SuperはRTX 3060より約2.5倍高いものの、生成時間も約2.5倍に短縮できるので意外とコストパフォーマンスに差がありません。

コスパ = 値段あたりの性能を見ると、RTX 4070やRTX 4070 Superを選ぶと幸せです。RTX 3060で十分と言いつつ、やはり速いほうがいろいろと試せて楽しいです。

512×768:神里綾華(LoRA + ControlNet)

512x768:神里綾華(LoRA + ControlNet)
  • 使用するモデル:Anything V5(anything_inkBase)
    https://civitai.com/models/9409/anything-or
  • 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
    https://civitai.com/models/12566?modelVersionId=14816
プロンプト(呪文)設定
Positivemasterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background, <lora:kamisato ayaka:0.9>
Negativensfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed20210928
ControlNet設定
Image
Preprocessordepth_anythingModeldiff_control_sd15_depth_fp16
https://huggingface.co/kohya-ss/ControlNet-diff-modules/tree/main

次は特定のキャラクターだけでなく、狙った構図やポーズを決めてAIイラストを生成します。

そのままプロンプト(呪文)を入れて生成させても、毎回ランダムな構図やポーズで生成されてしまいますが、「ControlNet」を適用すると高確率で狙った構図やポーズを生成可能です。

ControlNetを適用すると生成速度がやや下がるものの、自分の欲しい構図やポーズを高い確率で生成でき、結果的に時間を節約できます。

512×768:LoRA + ControlNetベンチマーク(Stable Diffusionのベンチ結果)

ControlNetを適用した結果、生成速度が平均26%も下がります。

512×768:LoRA + ControlNetベンチマーク(Stable Diffusionのベンチ結果)

イラスト10枚分の描写速度を比較したグラフです。

処理がかなり重たくなってきた印象を受けます。ド定番のRTX 3060 12GBですら、10枚で60秒(約1分)もかかってしまい、体感的にストレスがたまる待ち時間です。

AIイラストを25000枚ほど生成させた筆者の経験から言うと、10枚で1分超えは遅く感じます。予算次第ですが、1分を切れてVRAM容量も多いRTX 4060 Ti 16GBや、欲を言えばRTX 4070以上を検討したいです。

コスパ(価格あたり性能)で見ると、RTX 3060 12GBとRTX 4070(RTX 4070 Super)に大差ありません。RTX 4070は2倍の値段で2.1倍の性能を、RTX 4070 Superは2.2倍の値段で2.4倍の性能です。

価格差以上の性能(コストパフォーマンス)を得られるのでRTX 4070 Superあたりを推したいです。

やかもち
ControlNetを使うと、512×768でも負荷がかなり大きくなりました。

1024×1536:神里綾華(Hires.Fixアップスケーリング)

1024x1536:神里綾華(Hires.Fixアップスケーリング)
  • 使用するモデル:Anything V5(anything_inkBase)
    https://civitai.com/models/9409/anything-or
  • 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
    https://civitai.com/models/12566?modelVersionId=14816
プロンプト(呪文)設定
Positivemasterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background, <lora:kamisato ayaka:0.9>
Negativensfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed20210928
Hires.Fix設定
upscalex2.0steps10
upscalerLatentDenoising strength0.6
ControlNet設定
Image
Preprocessordepth_anythingModeldiff_control_sd15_depth_fp16
https://huggingface.co/kohya-ss/ControlNet-diff-modules/tree/main

一度に大きなサイズのイラスト(1000×1000以上)を生成すると、デッサンが完全に狂った奇形(双頭や多頭体など)が生成される※可能性が上昇します。

かといって512×768程度では、顔周りの解像度が不足してしまって第一印象の弱さが目立ちます。

※筆者がよく使う二次元用モデル(7th Anime)の場合、768×768以上から奇形化が目立つ印象です。Hires Fixで軽くアップスケーリングして、その後Tile Diffusion + Tile VAEを用いて元イラストのニュアンスを維持したまま4K化しています。

Hires.Fixを適用する

奇形化を防ぎつつ、高解像度なAIイラスト生成に役立つ機能が「Hires.Fix」です。

今回はアップスケーラーに「Latent」、アップスケール倍率に「2.0」、ノイズ除去の強さを「0.6」に設定して1024×1536サイズの高解像度イラストを生成します。

同時にLoRAモデル(原神:神里綾華)とControlNet(depth_anything)も適用して、かなり高負荷なAIイラストベンチマークに仕上げました。

768x1536:LoRA + ControlNet + Hires.Fixベンチマーク(Stable Diffusionのベンチ結果)

生成速度は意外と性能差に比例しています。しかし、生成速度には最終仕上げ(VAE)の処理時間が含まれていません。

768x1536:LoRA + ControlNet + Hires.Fixベンチマーク(Stable Diffusionのベンチ結果)

5枚の生成にかかった時間で比較すると、性能差が一目瞭然。・・・ControlNetとHires.Fix(倍率:2倍)の同時適用はかなり負荷が大きく、VRAM使用量も跳ね上がります。

グラフィックボードの性能が良くても、VRAM容量が少ないと効率よく性能を出せなくなり、VRAM容量の差で性能が逆転するグラボが出ています。

代表例がRTX 4060 Tiです。8 GB版が約3分30秒(1枚あたり42秒)かかり、16 GB版なら約1分30秒(1枚あたり18秒)で終えています。ほぼ同じ性能のグラボでも、VRAM容量の差で2倍以上の性能差がついた例です。

RTX 4070とRTX 3060 12GBの性能差も注目。値段差が2倍近いのに、性能差はむしろ縮小します(※VRAMの利用効率がいいForge版なら順当な性能差になります)

RTX 4070 TiとRTX 4070 Ti SuperもVRAM容量の性能差がはっきりと出ます。生成時間が約2倍に短縮され、RTX 4080に迫るスピードながら価格は2万円前後の差額です。

高倍率なHires.Fixを使うなら、できるかぎりVRAM容量が多く、かつ演算性能も高いグラフィックボードをおすすめします。

やかもち
RTX 4060 Ti 16GBか、Forge版を使う前提であればRTX 4070~RTX 4070 Superがいいです。

1024×1024:トキ(ネイティブ高解像度イラスト)

1024x1024:トキ(ネイティブ高解像度イラスト)
  • 使用するモデル:animagineXLV3_v30
    https://civitai.com/models/26026
プロンプト(呪文)設定
Positive1girl, toki \(blue archive\), blue archive, toki sits cross-legged in her chair. looking at viewer, cowboy shot, masterpiece, best quality, newest,
Negativensfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
各種設定
sampling methodEuler asampling steps15
Width1024Batch count5
Height1024Batch size1
CFG Scale7
Seed50

2024年1月、アニメやゲームキャラに特化したSDXLモデル「Animagine XL 3.0」が一般公開されました。

1000×1000以上の高解像度でも奇形化しづらく、LoRAモデルなしに特定のキャラクターを再現できる、極めて高性能なAIイラストモデルです。

(Hires.Fixは使ってません、ただ「beautiful face」と唱えるだけ)

顔周りの描写力も格段に改善されています。Hires.Fixを使わずに、破綻の少ない高解像度なポートレイトイラストが生成できてしまい、初めて使った時はあまりの性能に腰を抜かしました。

(ファンアートがほぼ無い20代神里綾華もこのとおり)

よって、ここまで紹介してきたSD 1.5世代のベンチマークはあまり参考にしなくていいでしょう。SDXL 1.0世代のベンチマークが重要です。

1024x1024:SDXL 1.0ベンチマーク(Stable Diffusionのベンチ結果)

生成速度の比較グラフです。

生成時は意外と普通に動くものの、ステップ処理が終わった後の最終仕上げ(VAE)で一気にVRAM使用量が爆発するので、あまり参考にならないです。

1024x1024:SDXL 1.0ベンチマーク(Stable Diffusionのベンチ結果)

イラスト5枚分の生成時間です。

VRAMの使用量が多いため、値段の割にVRAM容量が多いRadeon RXシリーズがRTX 4000シリーズと同等の性能を出せるシーンが出てきます。

たとえばRX 7900 XTXが代表例。値段が3~4万円も高いRTX 4080に匹敵する性能を出せており、Ubuntu(Linux)環境に抵抗がなければコスパの良い選択肢です。

一方でVRAMの利用効率が高いForge版だと、RTX 4070 SuperがRTX 4080を軽々と上回る性能を叩き出します。1枚あたり5秒なら、SDXL 1.0をSD 1.5に近い感覚で楽しめます。

生成結果も安定しているので、トータルで使う時間を節約できるでしょう。特にNSFW用途でSD 1.5を使っている人なら、SDXL 1.0(Animagine XL 3.0※)で確実に時間を節約できます。

※マニアックなNSFWが目的なら「Pony Diffusion V6 XL」や「ebara_pony_1」もおすすめ。個人的によく使うのはebaraよりもPony V6(複数のLoRAとTextual Inversionを併用)です。

やかもち
VRAMをうまく使うForge版を使う前提なら、RTX 3060 12GBもアリ。10秒くらいで1枚(1024×1024)仕上がります。

1024×1536:神里綾華(SDXL + LoRA)

1024x1536:神里綾華(SDXL + LoRA)
  • 使用するモデル:animagineXLV3_v30
    https://civitai.com/models/26026
  • 使用するLoRAモデル:Genshin_XL|原神神里凌华 Kamisato Ayaka
    https://civitai.com/models/161568
プロンプト(呪文)設定
Positive1girl, kamisato ayaka \(heytea\), genshin impact, beautiful face, pony tail, serafuku, skirt, white pantyhose, from front, mature female, looking at viewer, collarbone, semi realism, white_background, simple_background, masterpiece, <lora:shenli3:0.5>
Negativensfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
各種設定
sampling methodEuler asampling steps15
Width1024Batch count5
Height1536Batch size1
CFG Scale7
Seed4004

SDXLモデル「Animagine XL 3.0」にLoRAモデル「Genshin_XL(神里綾華)」を適用して、1024×1536の高解像度なAIイラストを生成します。

プロンプト(呪文)に対して適切な解像度を設定すれば、破綻の少ないネイティブ高解像度イラストを安定して生成できます。

1024x1536:SDXL 1.0 LoRAベンチマーク(Stable Diffusionのベンチ結果)

生成速度の比較グラフです。

最終仕上げ(VAE)の処理速度が含まれないため、あまり参考にならないです。実際にかかった生成時間を確認しましょう。

1024x1536:SDXL 1.0 LoRAベンチマーク(Stable Diffusionのベンチ結果)

イラスト5枚分の生成時間です。

VRAMの使用量がさらに増えている影響で、値段の割に大容量なVRAMを備えるRadeon RXシリーズがかなり踏ん張っています。

とはいえ最上位のRX 7900 XTXがRTX 4070 Tiに匹敵するくらいで、現在の価格を考えるとあまりコスパがいいとも言えないです。

個人的にSDXL 1.0の場合、1枚あたり10秒くらいなら許容範囲に思えます。Forge版のRTX 4070 Superや、RTX 4070がおすすめです。

低予算ならForge版のRTX 3060 12GBを、もう少し予算を出せる方はRTX 4060 Ti 16GBが良さそうに見えます。

やかもち
Forge版Stable Diffusionのおかげで、SDXL 1.0の生成がかなり現実的になった印象。

1024×1648:神里綾華(SDXL + LoRA + ControlNet)

1024x1648:神里綾華(SDXL + LoRA + ControlNet)
  • 使用するモデル:animagineXLV3_v30
    https://civitai.com/models/26026
  • 使用するLoRAモデル:Genshin_XL|原神神里凌华 Kamisato Ayaka
    https://civitai.com/models/161568
プロンプト(呪文)設定
Positive1girl, kamisato ayaka \(genshin impact\), genshin impact, beautiful face, { labcoat, Pencil Skirt | leather jacket | wedding veil, white lace dress | serafuku, pleated skirt | red_coat, turtleneck_shirt}, cowboy shot, mature female, white_background, simple_background, masterpiece, <lora:shenli3:0.5>
Negativensfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
各種設定
sampling methodEuler asampling steps15
Width1024Batch count5
Height1648Batch size1
CFG Scale7
Seed4004
ControlNet設定
Image
Preprocessordepth_anythingModeldiffusers_xl_depth_full
https://huggingface.co/lllyasviel/sd_control_collection/tree/main
Weight0.3GuidanceGuidance Start: 0
Guidance End: 0.98

SDXLモデル「Animagine XL 3.0」にLoRAモデル「Genshin_XL(神里綾華)」を適用し、さらにControlNet(depth_anything)とDynamic Promptも同時に使用して、1024×1648の着せ替えAIイラストを生成します。

かなり複雑な工程に見えますが、いわゆる「差分CG(同じポーズのまま服装だけを変更)」を作るのに重宝します。ベンチマークのためにわざわざ重たい設定にしたわけではなく、筆者が実際によく使うやり方です。

1024x1648:SDXL 1.0 LoRA ControlNetベンチマーク(Stable Diffusionのベンチ結果)

生成速度の比較グラフです。

最終仕上げ(VAE)の処理速度が含まれないため、あまり参考にならないです。実際にかかった生成時間を確認しましょう。

1024x1648:SDXL 1.0 LoRA ControlNetベンチマーク(Stable Diffusionのベンチ結果)

イラスト5枚分の生成時間です。

並のグラフィックボードだとまったく歯が立たない超高負荷なベンチマークです。VRAM容量が8 GB以下のグラボは、ただVRAMが足りないだけで性能がほとんど出せない状態に。

高解像度なSDXL 1.0でControlNetを使うなら、最低でも容量12 GBのVRAMが必要です。

筆者のおすすめは1枚あたり10秒を切っているRTX 4090ですが、値段が高いので妥協案としてRTX 4070 Super(Forge版)が現実的でしょう。生成速度が40%遅いかわりに、値段が半額以下で済みます。

同じ理由でRTX 4070(Forge版)も候補です。生成速度が50%遅いかわりに、値段をたった3分の1まで抑えられます。

なお、RTX 4070未満のグラフィックボードは個人的に推奨できません。ド定番のRTX 3060 12GBなら1枚あたり30秒もかかってしまい、なかなか厳しい使用感でした※。

※筆者がふだん使っているAIグラボは「RTX 4090」です。一般人より感覚がズレている可能性を否定できないので参考程度に。

初心者もち
Forge版かどうかでだいぶ生成時間が変わるんだね・・・

Forge版はVRAMの使い方を最適化する改良版だけあって、VRAMが少ない環境で爆発的に生成時間を短縮できます。

Hires.Fixで奇形が発生しやすい、Dynamic Promptを使うと色移りが発生してメリハリのない衣装が生成される、オリジナル版と生成結果に差が生じるなど。

個人的に気になるデメリットが多いものの、VRAMが12 GBしかない環境でSDXL 1.0が快適に扱えるメリットは無視できないと考えています。

SDXL 1.0でネイティブ高解像度 + ControlNetの併用を想定している方は、ぜひForge版を前提にベンチマークデータを見てください。

やかもち
Forge版Stable Diffusionのおかげで、SDXL 1.0の生成がかなり現実的になりました。

まとめ:AIイラストにおすすめなグラボ【3選】

今回のStable Diffusionベンチマーク調査で、「AIイラストにおすすめなグラボ」がざっくりと判明しました。

RTX 3060 12GB:AIイラスト向け入門グラボ

5. GeForce RTX 3060 12GB
玄人志向 / ブーストクロック : 1777 MHz / ファン : デュアル内排気 / 厚み : 2スロット(41.5 mm) / TDP : 170 W(8 pin)

AIイラスト入門におすすめなグラフィックボードが「RTX 3060 12GB」です。

Stable Diffusionの性能(RTX 3060 12GB)

基本のベンチマーク「ハローアスカ」を見ると、同じ価格帯のRTX 4060が良さそうに見えますが、ハローアスカはVRAMに余裕がある状態です。

Stable Diffusionの性能(RTX 3060 12GB)

Hires.Fixなど、VRAMに負荷が大きい使い方をすると一気に性能差が開いてしまいます。

Stable Diffusionの性能(RTX 3060 12GB)

今後のAIイラストでスタンダードになる可能性が高い「SDXL 1.0」でも、RTX 3060 12GBは割りと動きます。

やはり容量12 GBのVRAMは安心感があり、VRAMの帯域幅もRTX 3060 12GBが優位です。

VRAM容量が12 GBもあるおかげで、LoRAモデルやDreamBoothモデルの「学習」もRTX 4060より速いです。モデルやツールの発展で学習に必要なVRAM容量は減りつつありますが、12 GBのメリットは意外と大きいです。

やかもち
4万円台で容量12 GBのVRAMが付いているからAIイラスト入門グラボに最適です。
【注意点】RTX 3060の8GB版を買わないで

Amazonで約4.5万円から買える「RTX 3060 8GB」に要注意です。

名前こそRTX 3060ですが、VRAMの容量が4GBもカットされた8GB版かつ、VRAMの性能も1秒あたり360 GBから1秒あたり240 GBに激減しています。

12GB版と比較して9割の性能です。AIイラスト用途だとVRAM容量はないよりも、あった方がいいので、余計に8GB版は罠です。

RTX 4070:Forge版SDXLでおすすめなグラボ

ZOTAC / ブーストクロック : 2490 MHz / ファン : デュアル内排気 / 厚み : 2スロット(40 mm) / TDP : 200 W(8 pin)

VRAMを最適化する「Forge版」の登場により、容量12 GBのVRAMでも生成速度が大幅に向上します。

結果的にRTX 4060 Ti 16GBの立場が弱くなり、約9万円で買える「RTX 4070」がネイティブ高解像度なSDXLイラスト生成におすすめなグラボです。

またはギリギリ10万円で買える「RTX 4070 Super」もSDXLにおすすめできるグラボです。

Stable Diffusionの性能(RTX 4070 12GB)

神里綾華(SDXL LoRAベンチマーク)で、Forge版RTX 4070はRX 7900 XTX(約15~16万円)に迫ります。

値段が少しだけ高いForge版RTX 4070 Superなら、かつてのフラグシップRTX 3090(約20万円超え)すら超える性能です。

Stable Diffusionの性能(RTX 4070 12GB)

1024×1648生成とControlNetの同時適用ですら、Forge版RTX 4070はRTX 4060 Ti 16GBを大きく上回る生成速度です。Forge版RTX 4070 SuperはRTX 3090すら超えます。

予算に1万円ほど余裕があればRTX 4070 Superを、シンプルにコストパフォーマンス重視ならRTX 4070がいいでしょう。

(ControlNetでパースを与えなくても背景描写力がすごい)

(1024×1648のネイティブ高解像度でも奇形化が非常に少ない)

やかもち
Forge以前なら「4060 Ti 16GB」がベストでしたが、Forge登場後は「RTX 4070」や「RTX 4070 Super」推しです。

RTX 4090 24GB:価格差に見合った「最速のAIグラボ」

RTX 4090
GIGABYTE / ブーストクロック : 2535 MHz / ファン : トリプル内排気 / 厚み : 4スロット(75 mm) / TDP : 450 W(16 pin) / 保証 : 4年

コンシューマ向け(業務向けを含まない)のグラフィックボードで、現行最速モデルが「RTX 4090 24GB」です。

他製品でまったく替えが効かない唯一無二の性能を誇る、文句なしの最強グラボです。予算に糸目をつけず最高のAIグラボを買うなら、RTX 4090 24GBで決まりです。

Stable Diffusionの性能(RTX 4090 24GB)

SDXL 1.0でControlNetを適用する場合、RTX 4090はRTX 4080に対して約1.9倍(Forge版で約1.4倍)、RTX 4080 Superに対して約1.8倍(Forge版で約1.4倍)も高性能です。

2024年4月時点、RTX 4090がおよそ27万円、RTX 4080が約20万円、RTX 4080 Superが約18万円で買えます。

価格差より性能差の方が大きく、RTX 4080番台を買うならRTX 4090を買った方が逆にコスパが良い状況です。Forge版なら80番台を買うメリットもありますが・・・、個人的にオリジナル版の生成結果が好みです。

グラフィックボード1枚に20万円近い金額を払える余裕があるなら、RTX 4090まで逝ってしまった方が後悔が少ないでしょう。筆者は4090と4080の性能比較をよくやりますが、そのたびに4090の圧倒的な性能差に打ちひしがれる思いです。

LoRA学習ベンチマークのテスト結果

LoRAモデルを自分で作る「学習」においても、RTX 4090が突出して高性能です。

一般的に値段が高いほどグラフィックボードのコスパは悪化する傾向がありますが、AIイラストに関しては価格相応にパフォーマンスが伸びていきます。

とはいえ、あくまでも予算を無視してコスパだけを考えた場合の話です。実際には人それぞれ予算がありますので、買える範囲でベストなグラボを買いましょう。

ZOTAC / ブーストクロック : 2550 MHz / ファン : トリプル内排気 / 厚み : 2.5スロット(58.5 mm) / TGP : 320 W(12 pin)

予算20万円なら「RTX 4080」や「RTX 4080 Super」のForge版がおそらくベストパフォーマンスですし、予算10万円なら「RTX 4070」や「RTX 4070 Super」のForge版がおすすめです。

やかもち
筆者がSDXLや学習で使っているグラボが「RTX 4090」です。一度使うと・・・もう普通のグラボに戻れません。

中古グラボなら:RTX 2060 12GBやRTX 3090なども

RTX 2070 Super

中古市場のグラボはマイニングあがりで経年劣化が進行しているリスクが高く、基本的に推奨できません。

リスクを承知の上で、とにかく安くAIイラスト用のグラフィックボードを買いたいなら、止めはしないです。

中古市場で狙い目のAIグラボはRTX 2060 12GB、またはRTX 3090 24GBです。

RTX 2060 12GBは約2~3万円で–medvram有効時にRTX 3070に匹敵する性能を発揮します。RTX 3090 24GBはVRAM容量のパワーで–medvram無しにRTX 4080をやや上回る性能です。

ゲーミング性能やワットパフォーマンスを考慮せず、ただただAIイラスト用と割り切って買う分にはそれほど悪くない選択になるでしょう。

以上「【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】」でした。

AIイラストの「学習」におすすめなグラボ

今回のテストで使用したように、特定のキャラクターや、何らかの特徴(鉄道風景や線画風など)だけを正確に呼び出したいときにLoRAモデルがとても役に立ちます。

しかし、自分のニーズに合ったLoRAモデルが出回っていない場合も多々あります。無いならどうするか、自分で作れば良い・・・というわけで、LoRAモデルの学習ベンチマークも試しています。

RTX 4000搭載のおすすめゲーミングPC【解説】

RTX 3000搭載のおすすめゲーミングPC【解説】

これからAIイラスト用にパソコンを用意するなら、基本的にBTOパソコンを推奨します。手っ取り早く完成済みかつプロが組み立てたパソコンを入手できます。

すでにパソコンを持っている方は、「グラフィックボードの増設・交換ガイド」を参考に、新しく買ってきたグラボを増設・交換するだけでOKです。

記事更新内容
  • 2023/03/08:Stable Diffusion Web UIのGPUベンチマーク結果をアップ
  • 2023/03/13:RTX 4070 Tiのベンチマーク結果を追加
  • 2023/03/14:RTX 4000(最適化設定)の性能を追加
  • 2023/04/15:RTX 4070の性能を追加
  • 2023/08/08:RTX 4060 Ti 16GBの性能を追加
  • 2023/08/09:SDXL 1.0のベンチマーク結果を追加
  • 2024/02/08:RTX 4070 Superの性能を追加
  • 2024/02/09:SD 1.5、SDXL 1.0、Forge版のベンチマーク結果を更新
  • 2024/04/03:RTX 4070 Ti Super / RTX 4080 Superの性能を追加(UPDATE !!)
Sponsored Link

215 件のコメント

  • 詳細なデータありがとうございます。
    最近の高性能CPUやGPUは私の使用目的では勿体なさ過ぎると感じていましたが、こういう使い方をする人にとってはわずかな出費の違いがパフォーマンスにものすごい差を示すのですね。

  • 現在RADEON用にnod-ai SHARKが有るので
    もう少ししたらまともに使える様になるかしれません

  • 検証お疲れ様でした

    赤と緑ではライブラリに雲泥の差が有り
    AIに関してはcudaの牙城が大き過ぎますからね
    AMDが一朝一夕に追いつける物ではない

  • AI用途だと3060(12GB)>3060Tiという下剋上が発生するのかと思いきや
    「VRAMありき」と世間が言うほどでは無いみたいですね。
    次回の学習編でそれが覆るのか楽しみです。

    • 3日前にAIをはじめて触ったんですけど
      rtx3070のvram8GBだと、容量が大きい学習モデル同士のマージでエラーが起きたり
      容量が大きい学習モデルを使用している場合、学習モデルの切り替えでエラーがおきたりと、VRAMを使い切ってエラーが発生するケースがわりとあって
      特に学習モデルのマージはAIイラストをやりこむ上でかかせないので
      VRAM8Gだと結構ストレスに感じます

      • 某PCショップ中古のRTX3070が4万台だったので気になっていたけど
        この書き込みがすごい参考になりました、ありがとうございます
        4060Ti 16GBが出たあとにレビューを見てから、4070Tiにするか決めたいと思います

    • StableDiffusionは速度に関してはVRAM容量よりVRAM帯域幅とfp16演算性能が重要なので覆ることはないでしょう。
      とはいえ3060はVRAM容量が大きい分解像度を上げたりBatch sizeを上げられるメリットがあります。

  • 検証おつでした
    ブルプロの時も思ったんですが1660と3050って結構差が出るんですねぇ
    ゲームやベンチ的なのだと同等と思ってたので意外でした

    • RTX 3000シリーズはTensorコアが搭載されたので、こういった機械学習系の用途だと性能が伸びやすいですね。
      今後のアップデートでRTコア(レイトレ用)の演算性能も活用できるようになるらしいので、まだまだ伸びしろがありそうです。

  • 私はこれほど多くのGPUで比較できず感覚的で申し訳ないですが、Batch sizeが4程度に大きい方が1枚あたりの時間が短く、並列数を上げるにはVRAMがより必要、と理解しています。
    特にRTX4090は伸び幅が大きいように思います(ハローアスカは5×2生成で9秒を割ります)

    • RTX 409010×15×22×51×10
      512×51213.089.358.787.18
      512×76816.1511.66
      512×768:LoRA26.3715.88
      512×768:LoRA + ControlNet33.6818.25
      512×1024:LoRA + ControlNet35.0124.91
      1024×1532:LoRA + アップスケーリング43.9338.33

      とても参考になる情報ありがとうございます。

      実際にバッチ回数 x バッチサイズを変更して、いくつかベンチマークを試したところ、VRAM消費量が1~2 GBほど増える代わりに、イラスト10枚分の描写時間がかなり短縮できました。

      特に「512×768:LoRA + ControlNet」では、約46%もの高速化で割りと衝撃的です。

      • バッチ1回毎にメモリデータの初期化などで読み出し作業が入ってるんですかね。
        1*10だと10回初期化して、2*5だと5回って感じで。
        検証するなら、HDDとSSDで差が生じるのか、PCメモリの速度に依存するのか、学習モデル毎に差はあるのかとかですね。
        期待してます。(他力本願)

  • グラボを30枚も持っているなんてすごいですね。自分も気になるのは買ってもいいのかと錯覚してしまいます。危ない。

  • 正直、本気でやるなら速度よりvramが大事
    解像度あげると絵のディティールもアップするし、アップスケーリングは違和感ある
    ただ3090はvramの熱問題あるから自分で分解してグリス塗り直してサーマルパッド交換、追加してヒートシンクくっつけてファンも取り付けられる人にしかおすすめしない
    結局バランスの4080か性能の4090か、コスパの4070になる

    • ASUS3090TUFでsdxl1.0で1024×1024ポートレイト量産してる勢だが熱は全然問題無いけど電気料金の方が怖いけどね
      前から3090は熱が酷い連呼良く聞いてたけど正直CPUの方がよっぽど熱出してるわ、3090だろうと熱問題は出してるメーカー次第でしかない

    • 3090もノーマルのままで大丈夫なモデルも割と普通にありそうですよ。
      4070Tiの12GBが選択肢に入る使い方なら、3080Tiもいけますね。

    • 入力ミスでした・・・。
      今回は「GTX 1650 Super」をテストしていないので、全部「GTX 1660 Super」が正しいです。間違ってるグラフを修正します。

  • RTX4系はワッパも書いた方がいいですよ
    特に4090と4080は値段差を電力効率で埋めてしまえる程ですので…

  • 検証記事を作成いただきありがとうございます。NVIDIA/AMD両陣営を横並びで比較した記事はあまり見かけないので、興味深く拝見させていただきました。

    1点気になったこととして、現在”–xformers”オプションでインストールされるxformers、およびデフォルトで使用されるPytorchはRTX4000番台(Ada Lovelace世代)に最適化されていないため、そのままでは本来より低い性能しか出ません。
    このコメント通りに新しいバージョンのxformers・Pytorchを導入すると、概ね1.5倍程度の性能を発揮するようになります。
    https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/2449#issuecomment-1404540735

    私の環境はi5-13600k + RTX4090(Powerlimit 75%)ですが、
    記事中のHello Asuka Testでは33.2it/s、Ayaka Benchmarkでは19.1it/s程度が安定して出ています。

    もちろん「インストールしたてのカスタムしない状態での比較検証」ということでしたら記事内容に誤りはないのですが、RTX4090を買うようなひとはきちんと最適化も行うのではないか。Ada Lovelace世代とそれ以前の世代の性能差を比較するという観点であれば、きちんと性能を発揮できる環境を整えて検証した方がいいのではないか・・・と考える次第です。

    差し出がましいことを申し上げました。今後も記事を楽しみにしております。

    • 参考になる情報ありがとうございます。
      AD世代の最適化設定はけっこう複雑ですね。cuDNNを置き換えただけで満足してた(これで約1.3倍)のですが、他にもあっととは。試してみて見て効果があれば、グラフに「4090 最適化設定」という感じで追記します。

      • ご返信ありがとうございます。記事のアップデートを楽しみにしています。

        ところで、sd-extension-system-info という拡張機能はご存じでしょうか。
        CPUやGPU、インストールされている各種ライブラリのバージョン情報などを確認するツールですが、
        ベンチマーク機能も搭載されており、ワンクリックするだけで画像生成の速度を計測することができます。
        自動的にバッチサイズを変えながら生成速度を計測できるほか、様々な要因でスコアが低下してしまう初回生成のみ計測結果から除外するウォームアップ機能、オンラインでのスコア投稿・閲覧機能などもあります。
        (有志が送信したスコアはこちらから一覧でき、CPUやGPU、使用するライブラリ等のバージョンから絞り込むこともできます https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html

        他の方のコメントで、バッチサイズを変えた場合のテスト結果を記事にまとめる・・・というようなことを書いていらっしゃるのをお見かけして、記事執筆のお役に立つのではないかと思い付いた次第です。
        よければお試しください。

        • コメントありがとうございます。
          教えていただいた情報をもとに、torchとxformersをビルドし直しました。
          ・torch: 2.1.0.dev20230311+cu118
          ・xformers: 0.0.17+b6be33a.d20230313
          結果、RTX 4090が28.7 it/s → 35.3 it/sまで性能アップ(約1.2倍)、16000コアに見合う性能に近づいた感じです。ここまで性能が上がると、RTX 4080よりRTX 4090の方が優位ですね。

          Web UI拡張ベンチマークはおいおい試してみます。

          • 補足:
            Pytorch2.0.0が正式公開されました。Pytorch2.0.0にはxformers的な機能が含まれているため、自前でxformersをビルドする必要がありません。
            最新ビルドのxformersと比べて性能が劇的に上がるわけではなく(環境によってはちょっとだけ向上するらしい?私の環境では1~2it/sくらい上がりましたが誤差かも)、GTX1000番台くらいの古いGPUではxformersを使った方が高速だという噂も聞きますが、参考までに導入方法をお知らせします。

            0. もしまだなら、Python3.10.x最新版とCUDA Toolkit 11.x最新版をインストールします。(コメント執筆時点では、それぞれPython3.10.11とCUDA Toolkit 11.8.0)
            1. venvフォルダを削除します。
            2. Stable Diffusion webuiを最新版にします。
            3. webui-user.bat(またはwebui-user.sh)を以下のように書き換えます。
            —-
            @echo off
            set PYTHON=
            set GIT=
            set COMMANDLINE_ARGS=–opt-sdp-no-mem-attention –opt-channelslast
            set TORCH_COMMAND=pip install torch==2.0.0 torchvision –extra-index-url https://download.pytorch.org/whl/cu118

            call webui.bat
            —-
            4. webui-user.bat(またはwebui-user.sh)を実行します。

            ようは、–xformersのかわりに–opt-sdp-no-mem-attentionをつけ、TORCH_COMMAND行を追加するだけです。

            なお、–opt-sdp-no-mem-attentionではなく–opt-sdp-attentionを指定してもかまいません。
            公式ドキュメントによると、–opt-sdp-attentionのほうがわずかに早いと書いてありますが・・・私の環境では違いがわかりませんでした。
            むしろ、同じseed値でも生成するたびに出力画像がわずかに変化してしまうので、–opt-sdp-no-mem-attentionのほうが実用的かと思います。
            https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Optimizations

            また、必要に応じて、その他のオプション(–no-half-vaeとか)などをつけてもかまいません。
            私の環境では”set COMMANDLINE_ARGS=–opt-sdp-no-mem-attention –opt-split-attention –opt-channelslast –no-half-vae”としています。

            イラストAIも長足の進歩を遂げており、情報をアップデートしていくのは大変かと思いますが、様々なGPU・環境を網羅的に検証いただけるちもろぐさんの記事は本当にありがたいです。
            今後とも新規記事・記事のアップデートを期待しております!

  • RX570 8GBで768×768で問題なく出力出来てますけど、6600XTだと何で落ちるんでしょうね?
    ちなみにRadeonでは–medvram等は今のところ効果が無いので、512×512でもVRAMエラーで落ちますね。
    ※RX570では–opt-sub-quad-attention –no-halfにしないと512×512も768×768もVRAMエラーで落ちました。(元々FP16非対応)
    ※xformars等もGeforce用なのでエラーの原因になる事があります。

    Ryzen APUの場合はBIOSのVRAM設定を512MBから2GBに変更しておかないとBSODになる等、いくつか注意点があります。(gitに注意書きがあります)
    あとはメモリを64GB増設しておけばVRAM32GBまで使えるので問題無いでしょう。
    グラボのVRAMをOSや他アプリに使わせたくない場合は、iGPU付きCPUを選択した方が良いです。
    そうしないとお絵描き中にYoutube等を開いたりするとVRAMが消費されますのでお絵描きがエラー落ちする原因になります。
    お絵描きをGPU割り当てする場合はPython.exeをWindowsのGPU割り当てでグラボに割り当てる事で可能です。
    firefox.exeやchrome.exeはiGPUに割り当てましょう。
    少しでもグラボのVRAMを空けることで落ちにくくなります。

    スタート→ゲーム→ゲームモード→グラフィック→アプリのカスタムオプション→アプリを追加する
    [特定のGPU: RX570] C:\Users\User名\AppData\Local\Programs\Python\Python310\python.exe
    [特定のGPU: RX570] C:\stable-diffusion-webui-directml\venv\Scripts\python.exe

    • 僕はLinux+ROCm環境ですが、こちらも–medvramの効果がありませんでした。(RX 5500 XTを使用)
      まさかmedvramもxformars同様にNVIDIA専用なのでしょうか? 公式レポジトリの引数解説にはそのような説明はありませんでしたが…

  • エンコードのために1060->1660superにしてしまったがAIお絵描きでは1060の方が優秀だったとは…FP16バグが憎い
    Loraあたりで学習編も期待してます
    主要なグラボだけでいいんで
    学習画像512×512,batch size 1での速度/512×512での最大batch数/batch size 1での最大サイズあたりがわかるといいんじゃないかなー

    • FP16バグを回避するために入れた起動オプション「–no-half」がかえって動作を不安定にしている気がします。
      GTX 1060は描写時間こそダラダラとかかりますが、VRAMエラーを吐かずに最後まで出力できます。ただ、これから買うならRTX 3060 12GBの方が良いと思います(※なお、8GB版は安いけどAI目的なら買わない)。

  • lora回してるとやっぱり12GBある方が安心感はあるよね。バッチ数とかを増やせるのは嬉しい。
    10万以上の資金を準備できないなら3060の12GBモデルを買うべきだと思う。

  • 検証お疲れさまでした。
    非常に参考になりました。
    先月末あたりから、ChilloutMixというリアル系高解像度AI画像生成モデルが出て1920などで生成するので、4090や3090/3090Tiの比較に役立つかと思われます。

  • 検証お疲れ様です。
    要望なのですがアホな自分のためにtorchとxformerをリビルドした流れをまとめてもらうと大変助かります。

  • My small addition to the 512×512 test with my RX 470 4gb with directml version of autmatic1111 (Win10) – Time taken: 20m 39.93s – 1239,93 seconds 😀 I really need to switch to nvidia and I’m thinking about buying a used 1070.

  • とても参考になる検証、記事をありがとうございます。
    12GBのグラボ購入をしてみたくなりました。
    技術的にわかっていないことが多くて恐縮ですが、12GBグラボを2枚差しにすればワットパフォーマンスは悪いですが、上位グラボに迫れるのではと妄想しました。
    スクリプト側がうまく対応できていないのかもしれないですが、いくつかの作業だけでも担えるなら価値はあるのかなと思いました。

    • グラボのSLIでメモリ増やしたりは、ゲーミング向けのGeForceでは出来なくて、業務向けのTeslaやQuadroなどの上位機種ではメモリを共有出来るのでA100を複数使って数100GBのメモリを持ったお化けマシンで学習などされてます。
      メモリが多くできない一般ユースのGeForceでは複数差しのメリットがないので、SLIで処理性能アップではなく、各グラボに個別の学習データ渡して其れに書かせるって感じになるのかなぁって思います。

      表向きはSLIが要らないぐらい性能が上がってるからとか、言われるんですが、一番の理由は安い一般ユース品ではなく業務向けのバカ高い奴買えって事ですね。

    • ざっと調べた限り、複数のGPUを並列化してAIイラストの生成や学習を行う方法はなさそう?
      BlenderやV-ray等、レンダリング系はそのまま挿すだけで並列化ができるので、進化が速すぎる今の機械学習界隈なら近いうちに対応しそう・・・。

    • 今気づきました、紹介リンクのある記事はこっちでした。
      https://pc.watch.impress.co.jp/docs/column/nishikawa/1487845.html
      (ローカルで画像生成AIや大規模言語モデルを動かしたい!Google ColabからRTX 3070 Ti+GPU Boxへ乗り換え!? 西川 和久 2023年3月27日 06:14)

      ここの下のほう「512×768:神里綾華ベンチマークのサイトより」の紹介リンクが、ちもさんの記事への直リンクになっていました。

  • 本当に参考になる記事。
    この記事だけでもRTX4070Tiを買いたくなるけど、今後書かれる予定の学習速度の記事を見て決めます。

  • AI絵師(笑)とか言いつつ実際はなんかのトレスかアニメキャラ〇人合成したやつしかできないのやめれ
    まあ数年前の抽象画しかできなかった時よりは進歩してるんじゃね()

  • Linuxでしか動かないのがあれですがRadeonはROCmを使わないと性能出ませんよ。確かWSL2でも動いたはずなので試してみてください。
    ただセットアップが地味に難しいんですよね。

  • ありがとうございます。
    とても分かりやすく参考になりました。
    RTX2060 12GB購入を決意しましたw

  • 先日発売された4070のスコアも追加していただけると嬉しいです。
    多分コスパでトップだと思われます。

    • 個人購入できる代物じゃないから検証はクラウドの時間貸出とかでしか無理なのでは?
      そもそも、レビュー対象になっていても困惑しそう。
      むしろ、時間貸しの方法やその環境での実装方法をまとめてもらった方がありがたいですね。

    • 一時期のdreambooth方式の学習だといくらあっても足りなかったけど、今はまあ最低8GB、できれば10GBあればほとんどの用途で不足はないですからね
      いきなり高価なグラボで躓いたらもったいないので、最初は3060とか比較的安価なグラボで色々触るのがいいんじゃないかなあと思う

  • 4000番台は4090以外は物凄くコスパが悪いです
    それなのにコスパ良く感じるのは前の世代がマイニング需要で高騰したせいで殆ど定価から値下がりしてないからです
    1000番台2000番台の価格や性能アップを考えたら詐欺に等しいです

    • コスパ 4090は25万円するので、他の4000も実はそれなりで寧ろ逆なことも多そうですが。

    • たしかに「RTX 2080 Tiが6万円で投げ売り!」みたいな値下がりがほとんど見られないですね。マイニング需要はほぼオワコンですが、それでも値段が下がらないのは販売店の値段感覚がマイニング特需のせいでズレてしまった可能性は、たしかに有り得そう。

      ただ、当時から大幅に円安が進んでいることも考慮した方が良さそうです。
      仮に円レートがRTX 3080発売時(初売で95700円)から固定されていた場合、RTX 4070は82010円スタート、RTX 4070 Tiなら109390円スタートと計算できます。ここに楽天やヤフショのポイント還元を組み合わせると、それぞれ7万円台・9万円台で買えたはず・・・でした。

      • PNYの4070TiならPayPayポイント還元込みでの計算ですけど9万円代の時が一瞬だけありましたね

    • Lora有り
      512×768 20step
      で比較すると

      Shark 700
      1.5-2it/s
      automatic 1111
      0.2-0.6it/s
      で確かにsharkが4倍以上速かったです。

      ですが、VAEがエラーで使えなかったり、Loraが1つしか使えなかったり、強制終了したりしました。

      加えて、起動時に毎回モデルの変換か読み込みを行っており、使えるまでに5分くらいかかります。

      日々アプデが行われてますが、現在の最新版でもエラーがあり発展途上の印象です。

      環境
      windows 10
      rx 6600 xt
      i5 10400f

  • 詳細な検証、参考になります。さて今、サイコムでは

    ・RTX A400 ¥194620<RTX 4080 ¥232320(共に16GB)
    ・Radeon 7900XTX ¥184160<RTX 4090 ¥347940(共に24GB)

    ですが、stable diffusionでの性能はどんなものでしょうか。

    • ハローアスカの生成速度は
      ・RTX A4000:25~28秒
      ・RTX 4080:12~15秒
      ・RX 7900 XTX(ROCm 5.5 + Arch Linux):17~19秒
      ・RTX 4090:9~12秒
      です。
      RadeonはROCm版がWindows(もしくはWSL2)で動くようになれば、評価がかなり変わる予感がします。
      現状は本家1111版の方が機能性(Tiles DIffusionやControlNet 1.1等)に優れていて、多様な表現に対応できるので基本的にGeForceで良いと思いますが、将来的にはRadeon(RDNA 3)が選択肢に入ってくるかもしれません。

      • すでにA4000で検証していたのですね、コメントを見落としていました。
        たくさんの検証情報、ホント助かります!

  • pixivのAIイラストへの対策として規約改定を発表しましたね
    リプ欄がAI絵師への憎悪が渦巻いていてすさまじい反響になってます…
    これから始めるつもりの人蛇蝎のごとく嫌っている人も多いと認識して、特にネット上にイラストを上げることはくれぐれも注意されますよう

  • NVIDIA H100での検証おねがいしたいですね。また、一台の時と複数台の時で変化がどれほどなのかも検証お願いします。

  • ここ数日絵師がpixivで非公開にする人が続出してるのを見ると、AI絵師は宿主を殺す寄生虫みたいなもんだよなあって思わずにはいられない
    技術の発展は凄いけど結局素材は余所から勝手に持ってきて生成するしかないから、無法地帯のstable diffusionは早晩行き詰まりを見せることになりそう
    現状pixivやAIの書籍を取り扱っている所もどう対応していくのか…
    他国と決定的に違うのはアニメや漫画文化で圧倒的に絵師の人数が多く、その絵師を支持してる人も多いため影響が桁違いだというところ
    nijijourneyはそのへん良くわかっていて、版権などに酷似したものが生成された場合は報告して排除する仕組みがあるから独自の発展は遂げられるかもしれないけど

    • ここはAIイラスト作成のおけるグラボの比較情報を提供しているページであって、AIイラストの是非とかそんなのどうでもいいし見たくないんですけど。

      子供じゃないんだから、もう少し時と場所をわきまえて戴けませんかね?

      • どうでもいいのにコメントは無視できなくて草
        DLsiteやCi-en等次々にAI作品の停止措置を取らざるを得ない状況を少しは真面目に考えたら?
        各方面でめちゃくちゃ損害出してるんだよ
        まあそういう自分本位なやつばかりだからこうなってるんだけど

        • ここはそれを話す場所じゃないでしょ?
          と言ってるんですよ。

          このページはあくまでも「グラボの評価」をしているところ。
          AIイラストの是非をテーマにしたページではない。
          そのあたりを話したいのなら、別のところでやってくれという話。

  • RTX4060TiのVRAM16GB版の噂が出てきたけどガチならAI用途に限ればかなり優秀な選択肢になるかもしれない

  • ファンボックスのAI生成作品禁止が来たね
    まあ今の流れならそうなるだろうなとは思った
    他の販売サイトが続くかどうか
    さすがにlora実装以降は作風とキャラ学習のハードル下がったのもあって無法も過ぎた
    お小遣い稼ぎのためにグラボ購入した人やしようとしてた人が少なからずいただろうけどどうなるかね
    さすがにちょっとした遊びのために10万だすひとは少ないはずだし

    • 今更やり始めても月に千円以下稼げるかどうかって感じだったしねぇ
      自分は普通に好みのイラスト出力してみたいから買おうと思ってる

    • 扱える解像度が変わってくる程度
      高解像度になるほど大容量のVRAMが必要になるけど
      VRAM8GBの3060Tiでも、解像度上げないなら処理速度は3060より速いから悪くないっていう程度
      4060Tiが3060Ti~3070未満の性能しかないという噂なので、もしかしたら値段重視なら3060/3060Ti買った方がコスパ良い可能性もあるという

  • GTX1080からRTX4070tiに乗り換え、
    個人的には早くなったと思っていました
    ところがこちらのページを見たら大幅に遅かったことに気が付けました
    cuDNNの更新などをしてスペック通りの速度が出せるようになりました
    ここを見ていなかったらずっと遅いまま生成する所でした
    ありがとうございます

    • ちもろぐ読者様
      私もこのサイトを見てGPUどれにしようか考えています
      たまたまこのコメントを見たのですが私もやり方がわるいのかちもろぐ様のベンチ通りしてもかなり生成が遅いのですが
      cuDNNの更新というのが必須ということでしょうか?
      CUDA Toolkit 12.2 Update 1 Downloadsというのを入れてみましたが速度は変わりませんでした。
      なにかアドバイスいただければ幸いです

  • 結局表をざっと見るに、現状は
    GPUの処理速度 >>>メモリ容量
    って感じですかね。
    3060Ti 12GBが、3070 8GBを追い越すことが無いわけですし

  • PC Watchの西川和久氏が書いた記事に、このページへのリンクが貼ってありますね。

    西川和久氏も見ているのか~!

  • 最後のAyaka LoRA + Hires Fix Benchmarkのhires,fixのhires steps値はいくつになってますか? 記載してないのでデフォの数字になってるんだと思いますが、
    自分の持ってるグラボと 最後のベンチだけが著しく違うのですが・・・「他はほぼ同じ」
    この項目をいじるとかなり生成時間が変わるみたいです。
    試しに「10」にすると まったく同じ結果になります

  • 4060ti 16GBが3060 12GBと4070の間のどのあたりに入ってくるのかが気になって夜も寝れません
    意外と3060に毛が生えた程度のモノかもしれませんね…
    AIデビューしたいので検証お待ちしています

  • これはただの願望なのですが、外付けのGPUboxでRTX4090を使用したノートPCでどれくらいの速度が出るものなのか知りたいです。
    RTX4090のデスクトップを買うか、出張が多いのでRTX4090のノートを買うかで迷っていますが、外付けのGPUboxという第三の選択肢があることに最近気づきました。が、そんなことをしている人がこの世に一人もいません。

    • ノートPC用RTX4090(正式名称:RTX4090 Laptop)は、デスクトップ版RTX4080の低クロック版ですよ
      外付けGPUボックスを使う場合、USB3.2Gen2接続(10Gbps≒1.25GB/s)かUSB3.2Gen2x2接続(20Gbps≒2.5GB/s)になると思いますが、転送速度はデスクトップのPCI-Express3.0 x16接続(31.5GB/s)より大幅に遅く、PCIe3.0 x1接続(2GB/s)と変わらないです。
      AI関連はゲームと違ってバスの転送速度も大事なので、外付けGPUボックス(5万)+RTX4090(30万)を買うなら、RTX4090Laptopを積んだノートPCを買って荷物少なく持ち運んで遊んだほうが幸せかもしれないです。

  • 某所でxformersを入れない4090は3060に劣るって言ってる人いるんだけどそんな事ある?

  • しれっと4060があって草
    3060Tiと良い勝負してんじゃん
    TDPからすれば4060も十分ありでは?たった110wで大健闘

    というか4060のレビューはよ

  • ROCmのWindows版が出たことですし、Radeonも巻き返せませんかねえ。
    せっかくVRAM多く積んでることですし。

  • SDXLの検証ありがとうございます
    VRAM8GBでも動作するComfyUIから1024×1024の生成時の性能比較も見てみたいですね
    現時点で1111は12GBではSDXLが安定動作しないため実用レベルに達していません

  • やっと4060ti 16GBくんに人権が…
    要らない子じゃなかったんや!
    それにしてもこの量のグラボの計測ほんとお疲れ様です…気が向いたらで良いので7900xtxくんもいつか記事見れると良いなあ。

  • RADEONはVRAMの使用効率がかなり悪いのでかなり振るわない感じみたいですが、改善するのにまだまだ時間を要しそうですね。

  • 今のところSDXLはcomfyUIでちょっとお試し程度で使ってる人も多いだろうけど意図通りの絵を作るならa1111の拡張を使いたいし
    SDXLへの各種拡張対応が進んで来たら当然必要VRAM量も膨大になるわけで4060Ti16GBの評価はガラッと変わるかも

  • hello, thank you so much for all your benchmark it’s very important for the AI community (^_^) i live in france and i want buy a new pc for try sdxl 1.0.
    i think about rtx 4070 or 4070ti but after see the result of 1600×1024 (so coooooool) i want know if it’s same result with 1024×1024 (if the 12go about 4070 and 4070ti it’s better than 4060 ti 12go) it’s possible add the result with 1024×1024 ? or just tell me wich is better with this resolution please 😉 i wait your anwser for buy my computer. thank you so much.

    resume question: with better for sdxl 1.0 with 1024×1024 resulution ?
    – rtx 4060ti 16go
    – rtx 4070 12go
    – rtx 4070 ti 12go

    and how many % difference (or iteration value… or time in second)

    best regards 😀

    • Hi, Aglo 🙂
      (sorry, I’m not the author of this article page.)

      He (Mr, Yakamochi) has been updating and verifying this page since March of this year.
      in this time, the Results show that SDXL’s image generation performance and learning performance depend on the amount of VRAM.
      So out of those three options, he concludes that the 4060Ti 16GB with 16GB of VRAM is better.
      (Please read his opinion using translation site)

      • Hello, thank you for your anwser 🙂
        yes i see all this benchmark, very big different with sdxl (1600×1024) thats’s why i ask the question about 1024×1024 because i want use this definition

        1600×1024 = 1 638 400 Total Pixels
        1024×1024 = 1 048 576 Total Pixels

        1024×1024 to 1600×1024 = x 1,56 more Pixels… i want know if with 1024×1024 the 12 go of rtx 4070 or 4070Ti are very limited same like 1600×1024 or not ?

        i Hope with 1024×1024 with 12go Vram the result it’s more like result of the begin benchmark (512×1024)

        if the result of 1024×1024 it’s little same delta difference of 1600×1024 => i prefere buy Rtx 4090

        if the result of 1024×1024 it’s little same delta difference of 512×1024 (not very limited with 12Go Vram) => i buy Rtx 4070 or 4070Ti

        because with 1600×1024 the 4060 Ti 16go (550€) it’s better than 4070 Ti 12go (850€)
        i’m very curious about 1024×1024 with 4060Ti 16go, 4070 Go and 4070 Ti 12Go.

        Please give me the anwser 😀 possibly i give money for this result (Benchmark in SDXL 1.0 with1024x1024 resolution for RTX card) 😉

        Best Regards and good vibes

  • SDXLも含めた再検証お疲れ様です。

    とりあえず、何買えばいいか判らず迷ったなら、分割払いででもいいからRTX4090買っとけ。は間違いなさそうですね…圧倒的すぎる。
    ゲームしないクリエイティブユーザーなら、値下がりし始めた4060Ti 16GBは悪くない選択肢。(VRAM多いから動画編集でエフェクト多用できそう)
    ゲームもするなら4070無印以上、か

    記事読んだら、CPUなどシステム全体の実消費電力のランニングコストも含めたコスパの良いグラボ探しも面白そうって思ってしまいました。(検証する側にとって時間と労力のかかり具合半端ないですが…)

  • 微妙だという話をよく見かける4060tiの16GB
    AIイラスト目的だとやっぱりVRAM効果絶大ですね
    とても参考になりました

    • IntelもAMDも本腰入れて最適化して伸ばしてますね。
      まだ一定条件という感じですがRTXに匹敵しはじめているようです。
      ただし厳密には消費電力性能もですがまだまだAIではNVIDIAが強くかつ整っているので超えることはもちろん並ぶことも難しい現状ですね。

  • 試しにRX570 8GBでStable Diffusion XL 1.0 (1024×1024)をやってみたら、50stepsで19分かかりました。
    寝る前に20枚出力したら5時間57分かかっていたようです。
    (GPU1000MHz、VRAM1650MHzにダウンクロック、54℃、960rpm)
    LowVRAMでPCIEとメインメモリ経由のデータ転送が頻繁に発生する為、GPU使用率が下がってかなり遅くなってしまいます。
    VRAM16GB割り当てたRyzen APU(iGPU)の方がMedVRAMで動きそうなのと、転送がメインメモリ内で完結する為、その方が早そうです。
    メインメモリは32GB積んでるんですが、コミットサイズが40GB超えることがチラホラあったので、スワップファイルを32~40GBに設定しています。
    長期間やる場合は、スワップでSSDの寿命がゴリゴリ削れるのでメモリ増設が必要だと思います。

    ・GPU
    Radeon RX570 8GB (Adrenalin 23.7.1 / AMD-Software-PRO-Edition-23.Q3-Win10-Win11-For-HIP)

    ・フロントエンド
    lshqqytiger Stable Diffusion web UI with DirectML

    ・起動オプション1
    set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6,max_split_size_mb:128
    set COMMANDLINE_ARGS= –backend directml –opt-sub-quad-attention –no-half –lowvram –disable-nan-check –sub-quad-q-chunk-size 256 –sub-quad-kv-chunk-size 256 –sub-quad-chunk-threshold 94

    ・起動オプション2 (VRAM節約の為、Geforce GT635 [0]、RX570 [1]の環境です)
    set CUDA_VISIBLE_DEVICES=1

    ・WEB UI設定
    # ONNX Runtime
    Enable the memory pattern optimization.: Yes
    Enable the memory reuse optimization.: Yes
    Reload model before each generation.: Yes
    # Optimizetions
    Cross attention optimization: sdp – scaled dot product
    Negative Guidance minimum sigma: 1
    Token merging ratio: 0.1
    Pad prompt/negative prompt to be same length: Yes
    Persistent cond cache: Yes
    Batch cond/uncond: No
    DirectML memory stats provider: atiadlxx (AMD only)

    ・Log
    >Steps: 50, Sampler: DPM++ 3M SDE Karras, CFG scale: 8, Seed: 536594022,
    >Size: 1024×1024, Model hash: 06e890b5be, Model: hassakuSdxlAlphav_alphaV01,
    >Clip skip: 2, Token merging ratio: 0.1, RNG: CPU, NGMS: 1, Eta: 0.67, Refiner:
    >sd_xl_refiner_1.0 [7440042bbd], Refiner switch at: 0.5, Pad conds: True, VAE Decoder:
    >TAESD, Version: 1.6.0
    >Time taken: 18 min. 52.2 sec.
    >A: 7.33 GB, R: 8.00 GB, Sys: 8.0/8 GB (100.0%)
    https://i.imgur.com/dNTBOKi.png

    • VAEを使用しない場合は、一部精度を落として、消費を更に減らせます。
      以下の設定でVRAM消費6GB、メインメモリ消費30GBになりました。
      set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.6,max_split_size_mb:64
      set COMMANDLINE_ARGS= –backend directml –lowvram –precision autocast –disable-nan-check
      set CUDA_VISIBLE_DEVICES=1

      CUDA_VISIBLE_DEVICESはマルチGPU環境の場合に使用します。
      iGPU+dGPUの場合は、0を指定するとiGPU、1を指定するとグラボを使用します。
      VRAM節約の為、iGPUにOSやその他アプリを割り当てれば、グラボのVRAMは全てStableDiffusionに使用出来ます。
      iGPU側で動画を見たりソシャゲをプレイしても、グラボ側のStableDiffusionがVRAM不足で落ちたりしません。
      https://i.imgur.com/BZ3LQAL.png

  • STARFIELD、DLSS 対応しましたねぇ
    はやくFSR3にも対応して欲しいところ
    このクラス、3060ti,4060,7600じゃ力不足だから
    FGの有無結構大事だと思うんだけど
    4060はFSR3のFG対応できるかどうかで評価額がガラリと変わってきそう

  • どこかのブログでGPUそのままからCPUを変えたら24秒→12秒と生成時間が改善されたと見ました
    CPUとGPUの組み合わせも検証していただけると嬉しいです

  • 記載されているグラボの中には、VRAMの容量違いがあるようです。
    使用したグラボのVRAMの容量は書いて貰えると有難いです。

    よろしくお願いします。

  • あれ?
    テスト環境のグラボ中には「RTX 3060 Ti」が無いけど、実際には検証した結果が載ってる?

  • Will you be adding benchmarks for the 4070 Super, 4070 TI Super and 4080 Super when they are released? It would be great if you are able to add these benchmarks.

    Thank you for the very comprehensive benchmarks! For the future updates maybe you could consider an animatediff test as well (it is almost the same as batch generation but slower because it needs to generate every frame by considering surrounding frames)

    • 明日発売の16Gの4070tiSのAI性能は気になりますが、
      SDXLのリリースから半年が経過して、
      VRAM12G以下は使用量の少ないComfyUIでSDXL生成するのが定石になっています。
      主は4090だからUIが馴染みにくいComfyを使っておられるかどうか。

      • ・RTX 4070 Superを追加しました
        ・RTX 4070 Ti Superは注文済み(発送を待っています)
        ・RTX 4080 Superも注文済み(発送を待っています)
        届き次第、ベンチマーク結果を追記する予定です。

        Comfy UIは慣れなかったのですが、2月に登場した「Stable Diffusion Web UI Forge版(GitHub – lllyasviel/stable-diffusion-webui-forge)」でVRAMの利用効率が大幅に改善され、VRAMが少ない環境下で目覚ましい性能アップを確認できています。
        たぶん、Comfy UI並みに速いスピードが出ている・・・かも?

  • 大変助かりますが、Radeon の RDNA3 のボードが皆無というのが残念でした…
    AI Accelerator ? WMMA ? とやらの有無でどれほど性能が違うのかが気がかりです…

    • 本日(2/9)の更新で、RDNA 3~RDNA 2世代を「ROCm 6.0(Ubuntu 22.04 LTS)」で動作させた場合の性能を追加しました。
      ただし、ROCm 6.0でも「AIアクセラレーター」と呼ばれるHWはまったく活用されていない様子です。

    • radeonに関するコメントが多いですが、現在のradeonでは、ソフトウェア面での互換性の問題だけでなく、ハードウェア自体の行列計算の性能もnvidiaとは大きく差が開いてます、rdna3のwmmaも積と加算の命令数を削減させるくらいの変更のため、
      rdna2と比べて2倍程度の差しかありませんが、nvidiaに対しては遥かに大きな差があります。
      mi300とかのハードウェアには行列計算に特化した設計になっているようなので、
      レイテンシが関係ないディープラーニング向けにはサーバーレンタルで十分ではないでしょうか?

  • 【約6ヶ月ぶりの更新について】
    ・掲載作例とベンチマーク内容を変更(Asuka Benchmark除く)
    ・GeForce用のStable DiffusionをStability Matrixを用いて最新ビルドに更新(torch 2.1.0 + cu121)
    ・lllyasviel氏が開発した「Forge」版のベンチマーク結果を追加
    ※現在もベンチマーク中で、2日ほどかけてデータに追記します
    ・Forge版の影響でおすすめグラボが一部変更になりました
    ・RX 7900 XTXをはじめとするRadeonシリーズを「DirectML」から「ROCm 6.0」に変更 → 以前のデータより格段に性能アップ
    ・SDXL 1.0(Animagine XL 3.0)のベンチマークを追加
    ・RTX 4070 Superを追加

    【今後の予定】
    ・Forge版のデータを追加
    ・RTX 4070 Ti SuperとRTX 4080 Superを追加(注文済み、しかし未だ発送されず)
    ・不調なRTX 3090の買い替えを検討(優先度:低め)

    ざっくりこんな感じです。

    とにかく、超高性能なモデル「Animagine XL 3.0」や「Pony Diffusion V6 XL」の登場や、VRAMが少ない環境下でも高いパフォーマンスを出せる「Forge版」の登場で、ようやくSDXL 1.0の世界が始まったな・・・と思います。

    • hello, you have some news about rtx 4070 ti super please ? for see if have little différence with 4070 super or 4080 please. thanks for your hard world ^^

      best regards

    • お疲れ様です。
      参考になりありがたいです。
      Forgeのメモリ容量ごとの効果が気になりますので一番重いテストで、
      16Gと8Gを比較できる4060tiもテストしていただけないでしょうか。

        • 素早い対応ありがとうございます。
          Forgeが、重いSDXLで8Gでも30%未満に抑えるのは予想外でした。
          話にならんからまともにできるに変わったかと。
          メモリ少ない下位の方が効果が大きくて上位のコスパが減りましたね。

          SD+controlnet で遅くなるのは不思議な感じです。

  • 値段も下がって、上のグラボが中々下がらないから
    呪物だった4060ti 16G君が論外ではなく選択肢として成り立っている

    • 50世代が出て安くなれば3060 12Gの立場に収まると思う。

      でもForgeが出て12Gあればメモリ量より計算量になって、今は4070系12Gの方が有利ですね。

  • もうForge版検証していただけるんですか、採用検討していたので助かります!
    SDXLは先月末のAnimagine XL 3.0の公開当たりから勢いがすごいですね。
    おそらくLoraも増えてくるでしょうし、Loraの自作ができる人なら既に一択の状況です。
    自分はadfacterで適当に投げてるだけなのですが、それなりのLoraができて満足はしています。
    ただ、やっぱりSDXLモデルの関係上学習に時間がかかりますね・・・4080superか4080検討してましたが欲の上限なしで4090が欲しくなってくる。年末に5090(仮称)が出てくるかもしれないし・・・

    逆にサブPCに学習させちゃえばいいんじゃないかなって考えもあります。中古3060 12Gモデルが3万弱(マイニングリスク込みですが)で購入できそうなのでそれでSDXLモデルのLora学習できないかなと現在検討中です。

    最近コメント続きでコメントの関係性の表示のために名乗らせていただきます。

    • 3060ならAmazonにまだ玄人志向の在庫があるからそっちもオススメですよ
      メーカーが3年保証をつけてくれる、ってのはガツガツ使うんなら安心材料になりますし

  • 大変参考になりました!!
    GTX 3060 12Gユーザーなのですが
    512×762からの高解像度補助の生成速度の遅さから
    連休中でのグラボ買替えを本気で検討していました

    GTX 4070 Super と GEX 4070 Super Tiを候補に迷ってたんですが
    どちらも価格と電源買い替えと付け替えが必須でうげーってなってたところに
    GTX 4060 ti 16G の私が今まさに求めていたも感!
    ほんと「天啓」でした!!!

  • ROCmも含めた検証ありがとうございます!
    性能は大きく向上しましたが、やはり、ゲームで同ランクのグラボから1〜2ランク下の性能ですね。
    今はNvidiaがエコ環境的にも一択ですが、他も頑張ったり、NPUの性能が上がってグラボは要らなくなったりして競争が激しくなるのを期待しています。

  • ハローアスカはうちの環境だとバッチサイズ1では4070Tiと4080はあんまり変わらないか、CPUがボトルネックなのかむしろ4070Tiの方が速かったりします。ただ、バッチサイズ2以上の実用域では1.6倍ぐらい4080の方が速いです。

  • 検証ありがとうございます
    SDXL Forgeだと4060Tiの8/16GBもあまり変わらないんですね
    画像の生成だけなら8GB版を買うのもありなんでしょうか?

    • SDもSDXLも最適化が進んでて、今は遊ぶだけ(生成するだけ)ならVRAM8GBで十分ですよ

      • ありがとうございます
        8GBでも十分ならグラボの選択肢も随分広がるし助かります

  • Forge版の検証ありがとうございます。
    UM780 XTX に OCulink で繋ぐ、コスパ良いグラボ探していたので参考になりました。
    リンクから3060 12GB購入しました!

  • 流石にCore i9速いですね。うちの4080はRyzen5じゃ18sぐらいしか出ないですorz
    Venvの違いか?と思って試しにStabkeMatrixの方を入れたら20sオーバーと余計に遅くなってしまいました。
    やっぱりGPUだけ良いのに換えても駄目みたいですねー。

    • ハローアスカは半分CPUベンチかも
      CPUによってGPUの消費電力も生成速度も1.5倍とか変わるので、GPUに合わせてCPUも上げないと引き出せない感じ(ただしバッチサイズ1に限る)

  • RTX 4070 Ti SuperがRTX 4070 Ti より16GBに増量されコアも4080と同じだからその分生成速度は速くなるのかしら?もしそうなら15万までで手が出しやすくてそこそこ良いかも(誰でも手が出しやすいとは言っていない)

    • 生成速度は4080よりちょっと劣る程度
      学習ではVRAM16GBが大活躍する
      っていう位置づけそのままでいいとおもう

  • NSFW用途ならAnimagineXLよりPony diffusionXLの方が強い…と思ったけどプロンプトが独特だから敢えて避けてるんですかね?

  • ubuntuに抵抗ない人でゲームが大事だaiイラストもやりたいけどそこそこ時間かかってもええよって感じなら

    7900xtとか7900xtxは結構選択肢に上がってきたと言えるのだろうか7900xtは無いけど
    おそらく7900xtxよりの処理性能で20Gだし最後のベンチマークもいけそうだし費用対効果はハイエンドの中では1番
    AFMFで4kゲームもいけるしなぁ

    • 7900XTXは今は4070と渡り合えるくらいになっているけど、スペック的に2割程度落ちそうな7900XTはよりVRAM効率悪そうで2割以上の可能性ある。
      コスパとワッパでもXTXより悪化しそうでもうちょっと出してXTXが無難でかつなるべく速い方がストレス減ると思う。

  • ゲームはしないからRTX2060superで遊んで妥協できてるけど
    セッティングを詰める時だけはネットカフェPCでやってるわ

  • Forgeなら、8GBのビデオボードでもSDXLが完走するのが地味にすごい。
    生成だけOKで学習は無理そうなので、気が向いたら学習用を準備しますかね・・・

  • 12GB機を推してる割にほぼ全てのベンチマークでTI8GB機に負けてて、唯一勝ってる高解像度テストでもForge版で逆転されてるので、中古価格がほぼ同じ12GBとTI8GBはTI8GB買う方がいいかなと思った。もっと解像度上げたら結局12GBでも足りないし微妙

  • 今ならRTX3060よりもRTX4060を購入する方がいいのでしょうか?
    値段が殆ど変わりないので

  • 4080superと4070ti superの追加お疲れ様です。
    4080superは想定通り無印4080とほとんど変わらないですね。ただリネームして値上げしただけ
    4070ti superは….メモリ容量が増えてるんだからAI用途だけでも4080相当使えてくれっていう最後の希望だったんですがその希望もむなしくお値段4080相当で性能は劣化品という悲しい結末に…

  • 80番90番を求めていないなら、4070tisuperがコスパタイパ的に良いのかなと漠然と思っていましたが、AIイラストの為だけにそこまで背伸びする必要性は薄いみたいですね。VRもやってみたいとかになるとまた変わってくるのでしょうが…。AIもVRも最新ゲームをWQHD以上でやりたい‼配信も‼この辺りの層以上向けみたいですね。コメント欄も含め大変参考になりました。

  • 4070tisuperが思ったよりコスパがいい 4070superに3~4万円足せばvramが+4GB付いてくるし 逆に4080superの方は4070tisuperに3~4万足してこの程度の性能は大分コスパが酷い気がする 最近は画像生成
    ai関連ツールの開発速度が早くて凄まじい進化を遂げてる途中だから未来を見越してvram16GBは欲しいところ vram12GBは今はいいかもしれんけど将来的にはパワー不足だと思う 最安値かつ生成aiに限ればの話だけど

  • 4070Ti superって4070系の延長線上にあって、4080はそのさらに上なんですね
    4080はL2キャッシュが多いのが効いてるのかな、どうかな。
    単純なCudaコア数とVRAMの影響ではないんですね。参考になります。

    • 一番重いベンチで4080ti12秒4080 15秒forgeで縮んでいるのに
      4070tiSuperは7秒も縮まらないのが離された原因。

      メモリ量がボトルネックではなかった、計算力がボトルネックだったのでしょう。
      4060ti16Gの縮小率が4070tiSより大きいのはメモリ帯域がボトルネックだったのかな。

      • ちなみに4060Ti 16GBは私の手持ちの機材(B660,12600k)で同じベンチやりましたが、ここの結果よりも速度が上がってたりします。
        使ったボードの違いもあるだろうし、checkpointを変えて最初と2回目でも結果が違います。
        CUDAコア数に対し、4060Ti 16GBと4080の点を直線で結んだグラフ上には、4070系がいなくて、直線から少し下がったところに4つきれいに直線で並びます。4070Ti superもです。VRAMが16GBならTi superも線上に乗るかと思ったのですが、違いました。奥が深いですね。

  • 詳細なデータありがとうございます。
    3060ti→4060ti16Gを考えていたのですがこちらを見て期待外れになりそうでしたので4070まで背伸びしてみました。

  • やっぱりAIするならラデよりゲフォなんですかね?
    RX7600XT 16GBだとどれくらいの速さなのか気になる

  • >神里綾華(SDXL LoRAベンチマーク)で、Forge版RTX 4070は
    >RX 7900 XTX(約15~16万円)に迫ります。

    とあるけど7900XTXがグラフから消えてません?
    好みでないのは知ってるのでかまいませんが引き合いに出す時くらい載せたほうがいいと思う。

    • 最初のグラフには前からしっかり7900XTXもあるけど・・・
      下のどれがお勧めかでの説明でのグラフはお勧め中心で、7900XTX以外も含めて簡略化されているだけで歪んだ難癖になってますよ。

      VRAM 24GBが望ましい8GBではお話にならなかった設定で(RADEONではメモリ不足で根本的にだめ?)

      4090 Forge 33.6
      4090 34.0
      4080 Forge 48.3
      4070TiSuper Forge 61.5
      4080 63.8
      4070TiSuper 66.5
      4070 Super Forge 71.1
      3090 Forge 73.7
      3090 74.0
      7900XTX 75.5
      4070 Forge 79.6
      3070 Forge 136.4
      4070 310.4
      3070 796.2

      ということで、4070のコストパフォーマンスがForgeによってVRAM 24GBが望ましい設定でも良くなったということで、価値がより上がったということですね。
      学習ではなく生成のみなら今後よりVRAMが少なくても進化しよくなっていく可能性がありますね。

  • 検証お疲れ様です。
    更新の際には「4070 Ti Superを追加しました〜」といった具合に、記事冒頭にでも添えていただけるとわかりやすいかと思いますが、いかがでしょうか

  • 4070TiSuperがTiとキャッシュ量が同じなためかあまり伸びないケースがあるようで、4080の代わりにはなりそうにないですね。
    4090は4080より実売価格では1.8倍も違ったりもありで、総合的にみると4080か4080 Superのお安いのが色々と良さそうですね。

  • 更新お疲れ様です。
    4080superを自分も買いました。3060からの買い替えでしたが、こちらの記事のような結果にはならず、むしろ遅くなりました。
    ドライバ更新やcuDNN更新など試しましたが一向に速度が改善されません。
    VRAMの恩恵は受けているようで、16G分でできることは増えました。

    換装時、4080super含む、40シリーズで他にしなければいけないことって何かあるんでしょうか?
    筆者さん以外にも知っている方がいらっしゃいましたら是非ご助言お願いいたします。

  • 少し検証状況がズレ始めてるかな
    細部まで描かれた絵を出すにはhiresや拡張機能必須になってるから、別でVRAMに着目したベンチとった方が良いと思うよ。
    結局ローカル環境構築して迄SD使う人は突き詰めてく人が多いからVRAMの壁にぶち当たる
    Forgeがあんまりアプデしてくれないのでこのペースだと夏前には本家1111の環境に置いて行かれるかも。
    速度面はLightningとか技術面である程度カバーできる部分があるからよりハードの部分でVRAM偏重化しそうだね。

    • 実際はともかく一時の時間だけの判断でどうこうは気が早すぎかと。
      そして有意義に使えるとしても、まだまだ過渡期で進化の途中。

    • forgeはアップデートが少ないことで
      どの部分が劣ってるのか教えて頂けませんか?

    • >結局ローカル環境構築して迄SD使う人は突き詰めてく人が多いから

      何か根拠は有るのか?
      俺の周辺だとグラボは有るからとゲームの延長でやったりして
      生成だけのカジュアル用途が多いんだが

  • しれっと4090と4080のデータを差しかえてませんか?
    そんなら4070と4060Ti辺りも再測定して差しかえていただけるといいかもです。

    • より重要な価格の方も一般的なものに差しかえていただけたらと。
      2024年4月で4090が27万円で4080が20万円と記事にはありますが・・・

      複数モデル複数店でのWEB価格を掲載する価格コム情報では、4090が29万円 4080が17万円ですね。それぞれ1種だけの最低価格
      さらに4080はディスコンで価格が上がっているためでもありですが、4080 Superがより安く16万円台のモデルが4種もあるようです。

        • 2024年4月の価格として表記するならより実勢にあったものが普通に良いでしょう。
          コスパがより正確に違ってくるのも当然で割と無視できないのでは?最も無視できないポイントでもあるとも普通に思えますが。

          • 実勢価格ってのはヨドバシ・アマゾン・ソフマップ等の
            有名通販で普通に買える価格だな

            あなたが保証無しの並行輸入品を掴んだりするの勝手だが
            それはただの自己責任

    • 記載が無い物は一種類しかないから
      検索AIにでも聞けば判る

      一応言っておくとNVIDIAなりAMDが決めるもので
      MSIや玄人志向、ましてユーザーが増減できる物ではない

  • 末尾でおすすめしている4090ですが、筆者さんのように電源と冷却フローとマザボ含むcpu周りが揃った環境ならば、価格に見合った性能として間違いないと思います。
    ただ、世の中の多くの人は4090を動かせるパソコンを持っていないのです。特に450Wの消費電力とそこから生み出される莫大な排熱はこれからの季節の悩みの種です。
    なので、おすすめするだけでなくその部分も少し触れた方が親切じゃないかと思います。
    まあ電力制限かけても4090の方が速い場合も多いので突き詰めたら4090で間違いないですが。

  • うちの5年くらい前の古いGPU(2070 Super)でもちょっと動かすくらいならできるのね
    試しに遊んでみようかしら

    9700K(MAX140W)+2070 Super(MAX215W)でも部屋の気温上がってこの時期は悩みのタネなのに
    GPUだけで450Wとか正気の沙汰じゃねぇ……

  • 2080tiを使ってて、とてもここに出てるようなスピード出ないんですが
    CPUが貧弱なことと関係あるとおもいますか?
    Ryzen7 5000なんですが。
    それともメモリやマザボも関係あるんでしょうか。
    そもそもforgeにしても1111と速度が全く変わらない。少しは効きそうなものですが。

    • 可能性が高いものを挙げると
      ・サンプラーは同じか、例えばeulerとheunでは速度が2倍違う。
      ・生成サイズは同じか。
      ・グラボのドライバは最新のものか。
      ・xformersなどのコマンドライン引数は適切に設定しているか、なお、channelslastは推奨されていることが多いが、逆効果になる場合もある。
      ・ハードの問題はないか、特に電源ユニットは消耗品なので経年劣化の影響を受ける。OCソフトを使っているなら低電圧化で多少は改善するが、根本的な解決には交換するしかない。

  • 開設11年目おめでとうございます
    生成速度検証とても参考になりました
    dGPUをマザボ出力検証も初めて知りました

  • こちらのブログにはいつもお世話になってます

    1024×1536:神里綾華(Hires.Fixアップスケーリング)
    でRTX3080でSDの設定は同じでやってみたのですが

    Memory cleanup has taken 0.32 seconds████████████████████████████████████████████████| 300/300 [02:11<00:00, 1.16it/s]
    Total progress: 100%|████████████████████████████████████████████████████████████████| 300/300 [02:18<00:00, 2.17it/s]
    Total progress: 100%|████████████████████████████████████████████████████████████████| 300/300 [02:18<00:00, 1.16it/s]

    これぐらいの数値に鳴ってしまいちもろぐ様のような数字にはなりません
    CPUは13世代i5ですがほかなにか設定が悪かったりしますかね?

  • forge完全に実験用にするとよ
    大抵の機能が使えなくなるからA1111へ戻るの推奨だと
    上で叩いてた連中は目が覚めたか

      • ぐうの音所か当時はこれからそうするよって関係者から聞いてたんだよ
        勝手にリークするのも申し訳ないから遠回しに教えたのに叩かれる始末
        ここのコメ欄何も知らないのにすぐ攻撃してくる人が多過ぎる
        もう教えん

    • それはA1111がForge並のVRAM消費と速度が達成出来たからでしょ
      なら最初の話に戻るだけじゃないの、何と戦ってるのかしらないけど

  • forgeは方針転換のせいでどうも今後は消費者が画像生成して遊ぶソフトではなくなってくる感じなので
    今後は本家1111の方基準に考えないといけなくなって来た感じですね
    本家の方も以前よりかなり早くなってますが

  • 現状、(ほぼ)ドスパラで揃えた最安KAKAKUが
    4060Ti16:69K
    4070:84K
    4070Super:99K
    4070Ti:(在庫が安定してないが120K程度)
    4070TiSuper:132K
    4080Super:150K
    4090:300K

    ぐらいで価格低下で4080Superが地位向上した感じ。
    裏返すと、4090が値崩れしなかった=最初に臆せず4090を買って使い倒した人が現世代の勝利者、なのでしょう。

  • レンダリング性能が近接している7800XTと6800XTでAI性能の差が生じているのはWMMAの効果ってことでいいんですかね
    とんでもなく高価なので無理でしょうがCDNA3のMFMAの挙動が知りたいです

  • さすがに情報が古くなってきたわね
    今はA1111でもかなり効率的にVRAM使えてるし(forgeの開発意図通りだけど)
    でもまあグラボ性能の目安としてはまだまだ有用

  • コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です