〈目次〉
- 1.はじめに
- 2. 必要なPCスペック
- 3. インストール方法
- 3-1.Pythonをインストールする
- 3-2.Gitをインストールする
- 3-3.WebUIをインストールする
- 3-4.モデルデータをダウンロードする
- 3-5. xFormersを有効にする
1.はじめに
現在の画像生成AIには、御三家とも呼ぶべき著名なものが三種類あります。
①Midjourney(ミッドジャーニー)
2022年7月にβ版がリリースされてバズった画像生成AIです。現在の〝生成AIブーム〟の火付け役となりました。基本的には有料のサービスです(※無料の体験版では約25枚まで画像を生成できます)。驚くほど高品質な画像を比較的簡単に生成できるので、初心者にオススメです。反面、R-18画像の生成が禁止されていたり、後述のStable Diffusionには存在する便利な機能がなかったりするという弱点を抱えています。
②DALL-E 2(ダリ・ツー)
「Chat GPT」で有名なOpenAI社が開発した画像生成AIです。御三家の中ではちょっと影は薄め。
③Stable Diffusion(ステイブル・ディフュージョン)
StabiltyAI社が開発したオープンソースの画像生成AIです。オープンソースゆえに多数のユーザーによる改良を受けて、現在では画像生成AIのデファクト・スタンダードになっています。スマホアプリ等でたくさんの画像生成AIサービスが提供されていますが、大抵の場合、中身はStable Diffusionです。
ローカルPCでも利用可能で、なおかつ無料のUIも開発されています。有名なものは以下の2種類です:
・NMKD Stable Diffusion GUI(※以下「NMKD GUI」)
・AUTOMATIC1111版Stable Diffusion WebUI(※以下「WebUI」)
前者は難しい設定なしで使えるので「とりあえず画像生成AIを触ってみたい」という方にオススメです。後者は、有志によりたくさんの拡張機能が開発されており、極めて多機能です。この記事では、後者の使用方法を解説します。
※なお、WebUIはローカルPCだけでなく、Google Colabを用いてオンラインで利用することも可能です。その場合、低スペックなPCでもStable Diffusionを利用できるという利点があります。この記事では、そちらは解説しません。
※以下の情報は2023/06/30時点のものです。
2. 必要なPCスペック
CPU:わりと何でもOK
Stable DiffusionはCPUの性能はあまり必要としません。Intelであれば第12世代以降のCore iシリーズなら、どれでも動くと思います。もちろんRyzenでも問題ありません。
反面、CPUの性能が足りないと、それがボトルネックとなってGPU(※グラフィックボード)の性能を充分に引き出せない可能性があります。パソコンの購入前には相性表を確認するといいでしょう。後述のRTX 3060との相性を考えると、第13世代Core i5以上の性能があれば安心できそうです。
メモリ:最低16GB、推奨32GB以上
上記の最低値・推奨値は公式のものではなく、私の経験則です。Stable Diffusionを動かす際には、4~5GBくらいの「モデルデータ」をメインメモリに吸い出す必要があります(※モデルデータについては後述します)。ただ動かすだけなら、メインメモリ8GBでも動きます。しかし、少し重めのモデルデータや拡張機能を使うとメモリ不足に陥る可能性が高いのです。
ストレージ:できるだけ読み書きの速いもの
ストレージで重要なのは読み書きの速さです。Stable Diffusionの起動時には数GBのデータを吸い出す必要があるため、たとえばSATA接続のHDDでは10分ほど待たされます。
私の場合は第4世代PCIe接続のSSD 1TBを購入して、Stable Diffusion専用のストレージとして使用しています。20秒程度で起動できるので、非常に快適です。
なお、空き容量は最低20GB、推奨100GB以上だと私は考えています。これも公式の情報ではなく、私の経験則です。
GPU:VRAM最低8GB、推奨12GB
GPUは(画像生成に限らず)生成AIを使用する上でもっとも重要なパーツです。とくに注意すべきはVRAMの容量で、最低8GB、推奨12GB以上だと私は考えています。
じつのところ、この数字はAIで生成をする際のものです。AIの学習・訓練をする際には事情が変わります。ゲーム用GPUのハイエンドモデルに搭載されているVRAM 24GBでも、トレーニングを高速で快適に行うためには不充分らしいのです。
最近では技術革新により、VRAM 8GBのGPUでも最低限のトレーニングができるようになりました。が、「自由自在」とは程遠い状況です。本気でAIの開発に取り組むのであれば、RTX A6000のような業務用GPUも視野に入れるべきでしょう。
また、Stable Diffusionを初めとした生成AIのほとんどはCUDAで開発されています。したがって同程度の計算性能の製品でも、NVIDIA製のGPUのほうが高速かつ安定しています。
※LinaxではAMDのGPUでStable Diffusionを動かすことができるようです。こちらはある程度の知識がある人向けですね。
以上の条件から、画像生成AIのユーザーの間ではRTX 3060 12GBモデルが人気です。10万円未満で入手できる製品では、RTX 4070 12GBや、2023年7月発売予定のRTX 4060 Ti 16GBも選択肢に入るでしょう。
※RTX 3060にはVRAM 8GBモデルも存在するので注意しましょう。生成AIに向いているのは12GBのモデルです。
3. インストール方法
Stable Diffusionのローカル環境へのインストールには、以下の5つの段階があります。
3-1.Pythonをインストールする
3-2.Gitをインストールする
3-3.WebUIをインストールする
3-4.モデルデータをダウンロードする
3-5. xformerを有効にする
順を追って説明します。
3-1.Pythonをインストールする
Pythonは(画像に限らず)生成AIの開発で広く使われているプログラミング言語です。時間に余裕があれば、きちんと学ぶ価値があると思います。
下記のWEBページより、Python 3.10.6をインストールしてください。
Pythonには多数のバージョンがありますが、後ほどインストールするWebUIはVer 3.10.6で動作を確認しているようです。
【注意】よくあるミスとして、3.11以降のバージョンをインストールしないでください。現状ではStable Diffusionの関連ソフトウェアはPython 3.10で開発されており、3.11には対応していません。
※①Downloadsタブから②Windowsを選択し、
※ページ下部の「3.10.6」から「Windows embeddable package(64-bit)」をダウンロードしましょう。
【ヒント】
大抵のブラウザでは「Ctrl+F」でページ内の検索ができます。Ctrl+F→「3.10.6」と入力すれば、目的のファイルを素早く見つけられます。
ダウンロードが完了したら、『python-3.10.6-amd64.exe』を実行してPythonをインストールしてください。
【注意】Add python 3.10 to PATHのチェックボックスにチェックを入れてください。チェックを入れ忘れると、いわゆる「パスが通っていない」という状況になり、色々と面倒くさい修正作業が発生します。これもよくあるミスです。
※Add Python 3.10 to PATHにチェックを入れる。
「Setup was successful」と表示されたら、Pythonのインストールは完了です。
「Close」ボタンを押してウィンドウを閉じてください。
3-2.Gitをインストールする
Gitとは、ざっくり言えばオンラインのファイル管理サービスです。Stable Diffusionを動かすために必要なソフトウェアの多くがこのサービス上に公開されており、無料でダウンロードすることができます。
下記のWEBサイトより、Windows用のインストーラーをダウンロードしてください。
ダウンロードが完了したら、インストーラーを起動してインストールしましょう。
かなりたくさんの項目で質問されますが、基本的にすべて「Next」で問題ありません。
3-3.WebUIをインストールする
いよいよWebUIのインストールです。
WebUIはCドライブの「Program Files」ではなく、好きなフォルダにインストールすることができます。先述の通り、できるだけ高速で読み書きできるストレージにフォルダを作成するといいでしょう。
インストールしたいフォルダで右クリックし、「Git Bush Here」を選択します。
※Windows11の場合は右クリック→「その他のオプションを確認」→「Git Bush Here」です。
ターミナルが起動するので、以下のコマンドをコピー&ペーストしてエンターキーを押します。
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
すると自動的にAUTOMATIC1111版WebUIのダウンロードが始まります。
以下、図解です。
任意のフォルダ(※私の場合は「Sドライブ」直下)で右クリック。
「その他のオプションを確認」→「Git Bush Here」
「done」と表示されたらダウンロードは完了です。
「stable-diffusion-webui」というフォルダが新規作成されているはずです。
ダウンロードが完了したら、WebUIの初回起動をします。
初回起動時には、必要なファイルが自動的に追加でダウンロードされます。これには10~20分間ほどかかります。
起動方法は以下の通りです。
先ほど新規作成された「stable-diffusion-webui」のフォルダ内は、上図のようになっています。
この中から「webui-user.bat」を探してダブルクリックしてください。
【注意】名前の似たファイルがありますが、.batファイルと.shファイルを間違えないようにしましょう。
batファイルをダブルクリックすると、コマンドプロンプトが立ち上がります。初回時には、必要なデータが自動的にダウンロードされます。
なお、初回に限らずWebUIを利用するときは毎回このbatファイルから起動します(※デスクトップにショートカットを作っておくと便利です)。また、WebUIの使用中はこのコマンドプロンプトのウィンドウを閉じてはなりません。
しばらく待つと、上記のような画面になります。
赤線で強調しているURLが表示されたら、WEBブラウザでアクセスしてみましょう。
以下の画面が表示されたら、起動成功です。
【ヒント/解説】
AUTOMATIC1111版WebUIは、ローカルPCの内部に仮想サーバーを立ち上げて、そこでStableDiffusionを動かし、その仮想サーバーにWEBブラウザからアクセスする……という仕様になっています。
初めて導入したときには「なぜこんなややこしいことを?」と感じました。しかし、使えば使うほど、これは優れた仕様だと実感します。
たとえば起動用のbatファイルに1行書き足すだけで、同じWi-Fiルーターに繋がっているスマホやタブレットからもStable Diffusionを操作できるようになります。また、VPNなどで安全なネットワークを構築できるのであれば、外出先から自宅PCのStable Diffusionを操作することも可能です。
※これら便利な利用法については後日、別の記事で紹介予定です
ここまでの操作で、Stable DiffusionおよびWebUIの最低限の機能のインストールが終わりました。この状態でも、ごく簡単な画像なら生成できます。
3-4.モデルデータをダウンロードする
今までインストールしてきたWebUIは、あくまでも「UI」すなわち「ユーザー・インターフェイス」です。
自動車でいえばハンドルとシート、窓、各種メーターのようなもので、エンジンやタイヤにあたる心臓部分ではありません。自動車におけるエンジンにあたるものを、画像生成AIの「モデルデータ」と呼びます。略して「モデル」と呼ばれることも多いです。
画像生成AIの性能は、モデルデータの性能がすべてです。
生成したい画像に応じて、「イラスト調のモデルデータ」や「実写風のモデルデータ」、あるいは「水墨画風のモデルデータ」などを使い分けていくわけです。
モデルデータは、有志の制作したものをオンラインのコミュニティからダウンロードできます。代表的なコミュニティには、HuggingFaceやCivit.aiなどが存在します。
ここではオススメのモデルデータを三つ紹介します。
ReplicanteV3.0
Waifu-Diffusion-V1.5というモデルデータをベースに、gsdfさんが調整したモデルです。アニメ・マンガ調のイラストの生成で高い性能を誇ります。
Unlimited-Replicant
同じくアニメ・マンガ調のイラストに強い、あるふさんが調整したモデル。学習時に1024x1024でトレーニングを行なっているため、高解像度での出力に強いという特長があります。
HakoMayD
人気AI術師の852話(はこにわ)さんが調整したモデル。MidjourneyなどのAIで生成した画像を学習データセットなどに含み、さらにトレーニングを加えたモデルのようです。
【注意】NAIリークモデルに気をつけましょう。
2022年10月6日、米国Anlatan社の運営するAIサービス「NovelAI」のモデルデータが第三者の不正アクセスにより流出しました。このリークモデルの配布・使用に対しては法的措置を取る可能性があるという見解を、2023年6月23日にAnlatan社は発表しました。この流出したモデルのことを、通称「NAIリークモデル」と呼びます。
問題は、Stable Diffusionのモデルデータは追加学習やマージ(合成)によって簡単に改造できるという点です。現在、先述のコミュニティに流通しているモデルデータの多くに、NovelAIのリークモデルが混入しているのです。
ところで、Stable Diffusionのモデルデータには現時点で3つの系統が存在します。「Ver 1.4〜1.5系統」「Ver 2.0〜2.1系統」「SDXL系統」です(※いずれも今回インストールしたWebUIから利用可能です)。これらの各系統は、自動車で例えれば二輪車と三輪車、四輪車並みに異なるアーキテクチャに基づいて制作されています。そのため、系統を跨いだマージは(原則として)不可能です。
流出事件の起きた時期から言って、NAIリークモデルはv1.4〜1.5系統です。したがって、v2.0以降の系統のモデルを使用する方が無難だ……という結論になります。この記事で紹介したオススメモデルは、いずれもv2.0〜2.1系統です。
【注意?】「AI絵師」は蔑称です
現在、AIユーザーの間では「AI術師」や「AI技師」と自称・他称することが一般的です。「AI絵師」は蔑称となっており、この呼称を使うのは反AI派の人々と、彼らをおちょくりたい愉快犯、そして事情をまだ何も知らない初心者だけです。インターネット上のトラブルを避けるために、この呼称は避けた方が無難でしょう。
モデルデータのダウンロードが終わったら、以下の場所にカット&ペーストして移動してください。
S:\stable-diffusion-webui\models\Stable-diffusion
モデルデータの移動が終わったら、画面左上の「更新ボタン」を押してください。
しばらく待つと、プルダウン・リストから今ダウンロードしたモデルを選択できるようになります。
3-5. xFormersを有効にする
xFormersとはStable Diffusionのオプションの一つで、画像生成の高速化およびVRAMの節約ができます。このオプションを有効にすると、VRAM 8GBのGPUでも1920x1080のFHDサイズの画像を生成できるようになります。ほぼ必須級のオプションです。
xFormersには、生成結果にブレが生じるという欠点があります。同一プロンプト・同一シード値でも、生成される画像が微妙に変わってしまうのです。とはいえ、そのブレはごく軽微であるため、画像生成の高速化による恩恵のほうが大きいと私は判断しています。
導入方法は簡単で、先ほども登場したwebui-user.batに「--xformers」と書き足すだけです。
順を追って説明します。
まずWebUIを起動中であれば、コマンドプロンプトのウィンドウを閉じて終了してください。
次に、webui-user.batを右クリックして「編集」を選択してください。メモ帳などのテキストエディタが起動して、batファイルの中身を書き換えられるようになります。
※Windows11の場合は「右クリック→その他のオプションを確認→編集」です。
set COMMANDLINE_ARGS=
と書かれている行に、以下のように「--xformers」と書き足します。
set COMMANDLINE_ARGS=--xformers
その後、上書き保存してテキストエディタを閉じます。
続いて、webui-user.batをダブルクリックしてWebUIを起動します。
batファイルの書き換えにスペルミスなどがなければ、初回起動時にはxFormersを有効化するために必要なデータがダウンロードされます。これには2~3分間かかります。
コマンドプロンプトに「Successfully instralled xformers」と表示されていたら、xFormersの有効化に成功です。
◆ ◆ ◆
以上で、WebUIのインストールは完了です。
基本的な操作方法や便利な拡張機能については、後日、別の記事で解説します。