デマこい!

「デマこいてんじゃねえ!」というブログの移転先です。管理人Rootportのらくがき帳。

〈簡単!〉ローカル環境で動画生成AIを動かす方法

このエントリーをはてなブックマークに追加
Share on Tumblr

 

「HunyuanVideo」というオープンウェイトモデルが公開されたことで、ローカル環境でのAI動画生成が現実的になりました。この記事では、その導入方法を紹介します。

 

 

検証環境

私の環境はRTX 4070 ti SUPERです。VRAM 16GBあれば、とりあえず動きそう。

動作中のタスクマネージャーはこんな感じ。VRAM 16GBでギリギリ。12GBでは厳しいかも。

 

1. Python 3.10をインストールする

 Pythonは生成AIの「母語」とでも呼ぶべきプログラミング言語です。生成AIで遊ぶなら、最新版ではなくVer. 3.10(今のところ)オススメ。画像生成AI「Stable Diffusion」関連のツールの多くが、このバージョンで作成されているためです。

 まずは、以下のPython公式ページにアクセスしてください。

 

www.python.org

 

 ※①Downloadsタブから②Windowsを選択し、

 

※ページ下部の「3.10.**」から「Windows installer(64-bit)」をダウンロードしましょう。(このスクショを撮影したのは少し前なので、ちょっと古いVer.が映っています)

【ヒント】
 大抵のブラウザでは「Ctrl+F」でページ内の検索ができます。Ctrl+F→「3.10」と入力すれば、目的のファイルを素早く見つけられます。

 ダウンロードが完了したら、『python-3.10.**-amd64.exe』を実行してPythonをインストールしてください。

【注意】Add python 3.10 to PATHチェックボックスにチェックを入れてください。チェックを入れ忘れると、いわゆる「パスが通っていない」という状況になり、色々と面倒くさい修正作業が発生します。

※Add Python 3.10 to PATHにチェックを入れる。

 

「Setup was successful」と表示されたら、Pythonのインストールは完了です。

「Close」ボタンを押してウィンドウを閉じてください。 

 

 

2. StabilityMatrixをインストールする

 生成AIは、それを動かすためのインターフェースが多数開発されています。たとえば画像生成AIなら、Automatic1111版Stable Diffusion WebUIが人気です。しかし問題は、それらインターフェースをインストールするだけでも、ある程度のITリテラシーを要することでした。パソコン初心者には優しくなかった

 しかし、現在ではStabilityMatrixがあります。

 これは、言うなればインターフェースをインストールするためのインターフェース。生成AIで遊ぶための様々なツールを、ここから簡単にインストールできます。

 まずは、以下のページにアクセスしてください。このページはStablityMatrixのGitHubリポジトリのリリースページです。

 

github.com

 

 ページ中段の「Assets」の欄から、該当するバージョンのものをダウンロードしてください。(Windowsマシンの場合はStabilityMatrix-win-x64.zip

 

 ダウンロードしたzipファイルを解凍し、その中にある「StabilityMatrix.exe」をダブルクリックしてください。

 表示される指示にしたがって「続ける」をクリックしていけば、インストールは完了です。

【ヒント】
 インストール先は、データ容量に余裕のある追加ストレージを指定することがオススメです。生成AIのモデルデータはサイズが大きいためです。同じ理由から、HDDよりもSSDが推奨。できるだけ読み書きの速いストレージを使いましょう。また、「Portableモード」はオンがオススメ。データや設定がアプリケーションと同じフォルダに保存されるので、後でデータを整理するときに便利です。 

 

3. ComfyUIをインストールする

 StabilityMatrixから、ComfyUIをインストールします。

①画面左辺の「パッケージ」ボタンをクリック。

②画面下部の「パッケージを追加」をクリック。

③生成AIのインターフェースの一覧が表示されるので、「ComfyUI」を探してクリック。

④表示される指示に従ってインストールしてください。

 

4. Hunyuan Video Modelのダウンロードおよび導入

 今回は、次のページを参考にしました。

comfyanonymous.github.io

 以下の4つのファイルをダウンロードして、それぞれ所定のフォルダに保存します。

 

①hunyuan_video_t2v_720p_bf16.safetensors

 動画生成AIの本体部分に当たるものです。次のページからダウンロードしてください。

huggingface.co

赤丸で示したダウンロードボタンからダウンロードできます。

 

 ダウンロードが終わったら、\StabilityMatrix\Packages\ComfyUI\models\diffusion_models に保存してください。

 

②clip_l.safetensors

③llava_llama3_fp8_scaled.safetensors

 動画生成AIを動かすためのテキストエンコーダです。以下のページよりダウンロードしてください。

huggingface.co

赤丸で示したボタンからダウンロードできます。

 ダウンロードが終わったら、\StabilityMatrix\Packages\ComfyUI\models\text_encoders に保存してください。

 

④hunyuan_video_vae_bf16.safetensors

 VAEとは「Variational Autoencoder(変分オートエンコーダ)」の略です。画像生成AIの場合は、最終的な色彩などの仕上げの品質にかかわります。(※動画生成AIではどんな役割を果たしているのかは、私はよく分かっていないです)

 以下のページからダウンロードしてください。

huggingface.co

 ダウンロードが終わったら、

\StabilityMatrix\Packages\ComfyUI\models\vae に保存してください。

 

 以上で、準備は完了です。

 

 

5. ComfyUIの起動、ワークフローの導入、動画生成まで。

 StabilityMatrixを起動し、「Launch」ボタンからComfyUIを起動してください。

 StabilityMatrixのウィンドウに「To see the GUI go to: http://127.0.0.1:8188」と表示されたら、起動完了です。http://127.0.0.1:8188 にブラウザソフトでアクセスしてください。

 

 すると、上記のような画面が表示されるはずです。

 Nintendo Switchの『ナビつき! つくってわかる はじめてゲームプログラミング』で遊んだことがあるや、Unreal Engineでゲームを作ったことがある人には、馴染み深い形式だと思います。

 様々な機能を表現したブロックをノードでつなぐことで、複雑なタスクを自動的に行わせることができます。

 

 動画生成を行うためのワークフローを、以下のURLからダウンロードできます。

https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/hunyuan_video_text_to_video.json

 右クリックから「名前をつけてリンク先を保存」を選択してください。

「hunyuan_video_text_to_video.json」というファイルがダウンロードされます。

 

 ダウンロードしたjsonファイルをブラウザにドラッグ&ドロップすると、上記のようなワークフローが表示されるはずです。

 ここには、すでに「狐耳の少女がアルプスのような山岳のある風景の中で歩くアニメ」のプロンプトが入力されています。

 画面下部の「実行」ボタンを押すと、動画の生成が始まります。

 無事に動画が生成されれば(私の環境では6~7分間)、導入成功です。

 

 画面中央の緑色のブロックが、プロンプトの入力欄です。

 この部分の文章を書き換えることで、色々な動画を生成することができます。

 また、動画のサイズや秒数なども他のブロックから操作できます。

(※数が多いので、ここでは紹介しません。実際に触ってみて効果のほどを確かめてみてください)

 

 

まとめ(というか感想)

 相変わらず生成AI界隈は進歩が速いな……という感想です。

 わずか5ヶ月前、「Vidu」が登場した頃には、ローカルで「意味の分かる動画」を生成することは非現実的でした。

youtu.be

 これは、2024年8月にViduで生成した動画を編集して作ったやつです。今見ると動きが不自然で、すでに時代遅れに感じます。HunyuanVideoを使えば、これ以上の動画をローカル環境で作れるようになりました。

(とくにNSFWコンテンツを作れるようになった影響は甚大で、CivitAIにはすでに多数の専用モデルが投稿されています)

 

おまけ:LoRAモデルの導入方法

手順1)CivitAIなどでLoRAモデルを探してダウンロードします。

手順2)ダウンロードしたモデルデータを、\StabilityMatrix\Packages\ComfyUI\models\lorasに保存します。

手順3)ComfyUIを起動して、LoRAモデルをロードするためのブロックを追加します。
具体的には下記の図を参考にしてください。

 

①「ノードライブラリ」をクリック

②「ローダー」の中にある「LoRAローダーモデルのみ」を選択。
 →ワークスペースにブロックが追加されます。

③上記の図の位置に、追加されたブロックを挿入します。
 具体的には、
・「拡散モデルを読み込み」と「LoRAローダーモデルのみ」とを繫ぐ。
・「LoRAローダーモデルのみ」と「モデルサンプリングSD3」とを繫ぐ。
・「LoRAローダーモデルのみ」と「基本スケジューラー」とを繫ぐ。

手順4)適切なプロンプトを入力して、実行ボタンを押します。
 プロンプトにはLoRAを機能させるための「トリガーワード」が必要です。まずはLoRAモデルの配布ページにあるサンプル動画のプロンプトをコピペして試してみるといいでしょう。