Stable Diffusion 3.5 Mediumの使い方

10月29日にStability AIよりStable Diffusion 3.5 Mediumがリリースされました。Stable Diffusion 3.5ではStable Diffusion 3.0で不要だったライセンス周りが改善されたため、さっそく導入して使用してみましたのでご紹介します。

Stable Diffusion 3.5で改善された点

ライセンス周り

Stable Diffusion 3.5ではStable Diffusion 3.0と比較してライセンス周りがかなり変更され、使いやすくなりました。簡単に言うとStable Diffusion 3.0ではお金を払わないと商用利用ができなかったのに対して、Stable Diffusion 3.5では年間収益が100万ドル以下であれば無料で商用利用が可能になりました。

引用：https://ja.stability.ai/self-hosted-license

生成できる画像のクオリティ向上

Stable Diffusion 3.5ではLargeで80億のパラメータ、Meduiｍでも26億のパラメータをもっています。※パラメータ数が多いほど、モデルはより複雑なパターンを学習し、より高品質な画像を生成できる

Stable Diffusionの初期バージョンである1.4ではこのパラメータ数は8億ほどだったため、Largeでは10倍に進化しているということですね。

引用：https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

Stable Diffusion 3.5 Mediumのメリット

Stable Diffusion 3.5ではLarge、Large Turbo、Mediumの3つのバージョンがリリースされていますが、今回Mediumを試してみた理由は要求されるマシンスペックが低いというメリットがあったからです。

以下がStability AIから公開されている必要なGPUの比較表です。Large、Large TurboではNVIDIA GeForce RTX 3090/4090 VRAM24GB以上が必要なのに対して、MediumはNVIDIA GeForce RTX 3080以上で動作します。私の環境はNVIDIA GeForce RTX 3060 VRAM12GBなのでAIガチ勢ではない環境でも動作するのは非常にありがたいですね。

Stable Diffusion 3.5 Mediumのローカル環境を構築

はじめに

現状Stable Diffusion 3.5 Mediumをローカル環境で使用するには、前提としてComfy UIを使える状態にしておく必要があります。以下の動画が非常に分かりやすく解説してくれていましたので、こちらを参考にさせていただきました。

私はすでにStable Diffusion Web UI AUTOMATIC1111版(Comfy UIとは異なるStable Diffusionを使うためのUI)を使っていたので、動画8:30あたりからの「通常ローカル環境の場合」を参考にして導入しましたが、これからStable Diffusionを使い始める方は前半の「Stability Matrixの場合」を参考に導入したほうが簡単だと思います。