ローカルで動作する画像生成AIの分野を切り開き、私たちの創作活動を根底から変えたStable Diffusion。その影響は個人の趣味利用に留まらず、今や世界の様々なサービスや産業に深く浸透しています。しかし2025年、そのエコシステムは大きな転換点を迎えています。この変化の本質と、私たちユーザーに与えられた新しい「選択肢」について解説します。
Stable Diffusionの規約変更とその影響
2025年7月31日から適用されるStability AIの新利用規約は、特に「性的に露骨なコンテンツ」の生成を全面的に禁止するなど、従来より厳格な内容となりました。この変更が大きな注目を集めるのは、Stable Diffusionがもはや単一のAIモデルではなく、一つの「基盤技術」として世界中で利用されているからです。
あなたが今、何気なく使っている、その画像生成AIサービス。ローカルPCで動くソフトウェア、特定のWebサイト、あるいはスマートフォンのアプリかもしれません。それらは一見すると、それぞれが全くの別物で、無関係なサービスに見えるでしょう。
しかし、その多くは、共通の「始祖」を持っています。それが、開発元であるStability AIがオープンソースとして公開した、一つの巨大な「学習済みデータ」Stable Diffusionです。
これは、壮大な「家系図」に例えることができます。
Stability AIが、極めて優秀な遺伝子を持つ「初代当主」を生み出しました。すると、様々な企業や世界中のクリエイターが、その「初代」の遺伝子(=学習済みデータ)を受け継ぎ、それぞれ異なる環境で育て(=ファインチューニングし)ました。その結果、ある者はアニメ風イラストに特化した家系を、またある者は実写のような写真を得意とする家系を築き上げたのです。
つまり、サービス名や見た目(UI)がどれだけ違っていても、その心臓部であるモデルの血統を辿れば、同じStable Diffusionという初代に行き着くケースが非常に多いのです。
そして、この構造は逆もまた真なりです。どれだけ見た目や機能が似ていても、この「始祖」のデータを使っていなければ、それはStable Diffusionではありません。FLUXやHiDreamといった新世代AIは、まさにこのケースです。彼らは、Stable Diffusionとは異なる、全く新しい「始祖」から始まる、別の家系図なのです。
この「多くのサービスが、実は同じ始祖を持つ遠い親戚である」という構造こそが、今回、大元であるStability AIが定めた「家訓(利用規約)」の変更が、無関係に見えたはずの無数のサービスやクリエイターにまで影響を及ぼす、根本的な理由なのです。
本記事では、この前提に立ち、規約変更の具体的な影響と、生態系に加わった新たな「始祖」候補であるFLUX.1やHiDreamという選択肢について、詳しく解説していきます。
Stable Diffusionを利用していた主なサービス例
1.NovelAI
https://novelai.net(外部サイト)
NovelAIは、始祖であるStable Diffusionモデルを、アニメ風イラストという特定の方向にその血統を専門化させた代表例です。
彼らは、汎用的な能力を持つベースモデル(始祖)に対し、膨大な量のイラストデータを追加学習させました。これにより、元のモデルでは難しかった、高品質で特定のスタイルを持つキャラクターアートの生成が可能になりました。この事例は、子孫(派生モデル)が特定の分野において始祖の能力を上回る可能性を示し、その後の無数の専門的な家系(特化型モデル)が生まれるきっかけとなりました。
また、NovelAIのモデルが流出した事件が、コミュニティを爆発的に活性化させる要素となりました。
2.SeeArt.ai
https://www.seaart.ai/ja(外部サイト)
NovelAIが「遺伝子」そのものを改造したのに対し、SeeArt.aiは、Stable Diffusionという血統が持つ力を誰もが利用しやすくすることに注力しました。
Stable Diffusion系のモデルを動かすための複雑な環境構築を自社のサーバーで肩代わりし、ユーザーはWebブラウザからアクセスするだけでその機能を利用できる仕組みを提供。これにより、高性能PCや専門知識を持たないユーザーでも、始祖やその様々な子孫(派生モデル)の力を手軽に扱えるようになりました。
3.PixAI.Art
https://pixai.art/ja(外部サイト)
PixAI.Artはさらに異なるアプローチを取り、Stable Diffusionという家系図の多様性を見せる「画廊」のような役割を担っています。
このサービスは、単一のモデルを提供するのではなく、コミュニティによって生み出された著名な「子孫」たち、すなわち人気の派生モデルをユーザーが選択できる形で提供しています。ユーザーは、まるで画廊で様々な画家の作品を見比べるように、異なるスタイルを持つモデルを切り替えながら画像を生成できます。このビジネスモデルは、豊かな家系図(エコシステム)が存在することを前提として成り立っています。
このように、多くのサービスやクリエイターがStable Diffusionを前提に活動しているからこそ、今回の規約変更は、今後のAIエコシステム全体に影響を及ぼす重要な変化と言えるのです。
次世代を担う、新たな「選択肢」
正統後継者「FLUX.1」
https://bfl.ai/models/flux-kontext(Black Forest Labs公式サイト・外部サイト)
Stable Diffusionが築いたエコシステムに、新たな潮流を生み出す可能性を秘めた最初のモデルが「FLUX.1」です。その出自と戦略から、多くのユーザーが「正統後継者」として注目しています。
本題に入る前に、ユーザーにとって最も重要な疑問に答えておきましょう。FLUX.1は、Stable Diffusionのモデルをベースにした派生物(ファインチューニングやマージ)なのでしょうか?
答えは、明確に「いいえ」です。
FLUX.1は、Stable Diffusionで使われていた「U-Net」という構造とは異なる、全く新しいAIアーキテクチャ(Zyklon-Blockと呼ばれるハイブリッドトランスフォーマー構造)を採用し、ゼロから完全に新規で学習されたモデルです。
これは極めて重要な点です。FLUX.1はStable Diffusionの血統を受け継ぐ「子孫」ではなく、全く別の家系図を始める新しい「始祖」です。したがって、Stability AI社の利用規約の変更は、FLUX.1には一切適用されません。
しかし、Stability AIの決定の影響が全くないとは言えません。独立した企業として存在しているとはいえ、規制の流れを受ける可能性は十分にあります。
開発チームはStable Diffusionのオリジネーター
ではなぜ「正統後継者」と呼ばれるのか。それは、開発元である新会社「Black Forest Labs」の設立メンバーが、他ならぬStable Diffusionを生み出した、元Stability AIのトップ研究者たち(Robin Rombach氏、Andreas Blattmann氏ら)だからです。
彼らは、Stable Diffusion開発で得た知見と反省を元に、その先の世代のAIを創り出すために独立しました。いわば、伝統ある流派の師範たちが、その技術の粋を集めて新たな道場を立ち上げた「のれん分け」のような存在です。その出自が、FLUX.1の圧倒的な性能への信頼を裏付けています。
用途で選ぶ3つのモデルラインとライセンス
FLUX.1の戦略が巧みなのは、性能とライセンスが異なる3つのモデルラインを明確に分けて提供している点です。
モデル名 | 主な用途 | ライセンス | 特徴 |
FLUX.1 Pro | プロ・商用API | 商用(有料) | 最高の画質と性能を誇るフラッグシップ。法人向けサービス。 |
FLUX.1 dev | 研究・個人利用 | 非商用 | Proに匹敵する高品質モデル。派生物も非商用。高性能なLoRA等のベース。 |
FLUX.1 schnell | 高速生成・商用利用 | Apache 2.0(商用可) | 高速・軽量化モデル。商用利用が可能で、多くのユーザーが気軽に試せる。 |
このように、企業向け、研究者向け、そしてコミュニティ向けと、ターゲットに応じて明確な選択肢を提示しています。
ローカル環境での要求PCスペック
ローカルで利用する場合、主にschnellとdevの2つが対象となります。
FLUX.1 schnell: 非常に軽量で、VRAM 8GB程度のミドルクラスのPCでも快適に動作します。SDXLが厳しかった環境でも、十分に楽しめるアクセシビリティが魅力です。
FLUX.1 dev: 高品質な分、要求スペックも高くなります。最低でもVRAM 12GB、快適な利用には16GB以上が推奨され、これはSDXLと同等か、それ以上の性能を要求します。
FLUX.1は、Stable Diffusionのオリジナーが作り上げた、技術的に完全に独立した次世代モデルです。その上で、ユーザーの目的やPCスペックに応じて複数の選択肢を提供する、洗練された戦略を持つAIと言えるでしょう。
オープン性の求道者「HiDream」
https://hidream.org(HiDream公式サイト・外部サイト)
FLUX.1が「正統後継者」ならば、2025年4月に突如として現れた「HiDream」は、全く新しい血統を持つ「新時代の挑戦者」です。その圧倒的な性能と、後述する徹底したオープン戦略により、一躍、次世代AIの主役候補に躍り出ました。
HiDreamは、その基盤にGoogleのT5やMetaのLlama 3.1といった強力な言語モデルをテキストエンコーダーとして採用し、完全にゼロから新規で学習された、独自のAIモデルです。
巨大モデルとアクセシビリティの両立
HiDreamを開発したのは、北京の「HiDream.ai」と香港の「VivagoAI」です。彼らのアプローチの最大の特徴は、その圧倒的なスペックと、それを扱うためのアクセシビリティを両立させた点にあります。
HiDreamの基盤モデルは170億という、ローカルで動作するモデルとしては最大級のパラメータ数を持ちます。これは、モデルがより多くの概念や文脈を深く理解できることを意味し、高品質で破綻の少ない画像生成能力に繋がっています。
通常、これほど巨大なモデルは相応のハイスペックなPCを要求します。しかしHiDreamは、最適化されたワークフローを用いることで、VRAM 12GBというミドルクラスのPCでも動作させることが可能です。「最高の性能を、より多くの人に」という、明確な思想が伺えます。
最大の武器は「完全なオープン性」というライセンス戦略
HiDreamの最も強力な特徴、そしてFLUXとの戦略的な違いが、そのライセンスにあります。
HiDreamは、最高性能を持つ非蒸留のフルモデル「HiDream-I1-Full」を含め、商用利用も完全に自由な「MITライセンス」で公開しています。
これは、コミュニティにとって計り知れない価値を持ちます。FLUXでは最高品質のdevモデルが非商用ライセンスに縛られていたのに対し、HiDreamでは誰もが最高の性能をベースに、何の制約もなく、商用目的でさえも、自由に派生モデルやLoRAを作成・公開できるのです。
この戦略は、かつてStable Diffusion 1.5が巨大なエコシステムを築き上げたのと全く同じ状況を再現しようとするものであり、今後のコミュニティの発展を強く期待させるものです。
ローカル環境での要求PCスペック
前述の通り、HiDreamは最適化によりVRAM 12GBでの動作報告が多数あり、SDXLと同程度の環境があれば、その性能を体験することが可能です。16GB以上のVRAMがあれば、より快適な運用ができます。
HiDreamは、技術的な先進性だけでなく、コミュニティの力を信じる「オープン性」という哲学で、次世代のスタンダードの座を狙う、非常に強力なAIと言えるでしょう。
3大AI性能比較 ― あなたに合うのはどれ?
それぞれのAIが持つ特徴と立ち位置を比較してみましょう。ここでは、現在ローカル環境の主流であるStable Diffusion XLを基準に、新世代のFLUX.1とHiDreamを比較します。
次世代AI 性能比較表
比較項目 | FLUX.1 | HiDream | Stable Diffusion XL (基準) |
主な特徴 | 指示理解力とテキスト描画に極めて強い。専門性の高いタスクが得意。 | 巨大モデルの表現力と、ライセンスの完全な自由度が最大の武器。 | 巨大なエコシステムを持つ、現行のスタンダードモデル。 |
指示理解力 (プロンプト忠実度) | ◎ (非常に高い) | ○ (高い) | △ (標準的) |
テキスト描画 | ◎ (非常に得意) | ○ (得意) | ✕ (不得意) |
要求VRAM (目安) | schnell: 8GB以上 dev: 16GB以上 | 12GB以上 | 12GB以上 |
ライセンスの自由度 (商用・派生モデル) | △ (モデル毎に異なる) 高品質なdevは非商用 | ◎ (MITライセンス) 最高品質モデルも商用可 | ○ (旧規約・寛容の可能性) |
エコシステム現状 | ○ (ComfyUI中心に発展中) | △ (発展途上だがポテンシャル大) | ◎ (非常に成熟・巨大) |
【参考】Stable Diffusion バージョン別比較表
中には、SDXL以外のバージョンに慣れ親しんだ方も多いでしょう。参考として、最新版であるStable Diffusion 3.5と、最も巨大なエコシステムを築いたStable Diffusion 1.5の特徴をまとめます。
比較項目 | Stable Diffusion 3.5 | Stable Diffusion 1.5 |
主な特徴 | 公式の最新版。テキスト描画性能が大幅に向上。 | 最も巨大なエコシステムを持つ伝説的モデル。第三者モデルの資産が膨大。 |
指示理解力 | ○ (高い) | ✕ (最新モデルには劣る) |
テキスト描画 | ○ (得意) | ✕ (不得意) |
要求VRAM (目安) | 12GB以上 | 6GB以上 |
ライセンスの自由度 | △ (今後は新規約が適用) | ○ (旧規約・寛容の可能性) |
エコシステム現状 | △ (これからの発展に期待) | ◎ (最大規模) |
これらの表から、各AIがそれぞれ異なる強みと戦略を持っていることが分かります。絶対的な「最強」は存在せず、ユーザーが何を重視するかによって、最適な「選択肢」が変わってくるのです。
次世代AIを使いこなす鍵「ComfyUI」への招待
これまで多くのユーザーは、Webサービスや、AUTOMATIC1111のような直感的なUIを通じて、画像生成AIに親しんできたことでしょう。しかし、FLUX.1やHiDreamといった新世代AIを使いこなすためには、少し様子の違うUI、「ComfyUI」への理解が、ほぼ必須のスキルとなりつつあります。
一見すると複雑に見えるこのUIが、なぜ今、重要なのでしょうか。その本質とメリットについて解説します。
ComfyUIとは何か?画像生成の「調理場」を可視化する
ComfyUIは、画像生成のプロセスを「ノード」と呼ばれる機能の箱と、それらを繋ぐ「ワイヤー」で視覚的に構築していく、ノードベースのユーザーインターフェースです。
ノードとは?: 「モデルを読み込む」「プロンプトを入力する」「画像を生成(サンプリング)する」といった、一つ一つの機能を持つ箱です。
使い方: ユーザーは、これらのノードをキャンバス上に配置し、データの流れ(例えば、「モデル」と「プロンプト」を「生成」ノードに繋ぐ)をワイヤーで結んでいくことで、画像生成の一連の流れ(ワークフロー)を自分で組み立てます。
例えるなら、AUTOMATIC1111が「ボタンを押せば料理が出てくる全自動調理器」だとすれば、ComfyUIは「食材や調理器具がすべて見える、プロ仕様の調理場」です。自分で調理工程を組み立てる手間はかかりますが、その分、料理の工程を強力にコントロールできます。
なぜ今、ComfyUIを使うメリットがあるのか?
一時的に学習コストはかかりますが、ComfyUIを学ぶことには、それを上回る大きなメリットがあります。
1. 新世代AIの運用にほぼ必須
FLUX.1やHiDreamは、複数のモデルファイル(メインモデル、テキストエンコーダー、VAEなど)が連携して初めて動作します。この複雑なデータの流れを正確に管理するには、AUTOMATIC1111のような固定的なUIよりも、処理を自由に組み立てられるComfyUIが圧倒的に適しています。実際、これらの新世代AIのサポートや最新機能は、ComfyUIを中心に開発・提供されています。
2. Stable Diffusionの「本当の自由度」を解放する
ComfyUIは、新世代AIのためだけのツールではありません。むしろ、Stable Diffusionの潜在能力を最大限に引き出すための最高の環境でもあります。
AUTOMATIC1111では一体化されていた各要素(VAE、CLIP Skipなど)を、個別のノードとして分離して扱えます。これにより、画像生成の裏側で何が起きているかを深く理解し、より精密な調整が可能になります。
作成したノード構成は、画像ファイル自体に埋め込んで共有できます。他人の傑作が、どのような設定で作られたのかを100%再現・分析し、自分の作品に応用することが可能です。
ハードルは必ず下がる
「難しそう」と感じるかもしれませんが、心配は無用です。これは、あらゆる新技術が普及する過程で必ず起きる現象です。
ComfyUIの利用者が増えるにつれ、日本語の解説記事や動画、便利なワークフローの共有など、コミュニティによる情報提供が活発になることが予想されます。
現在でも、Stability MatlixなどのComfyUIの導入を簡単にするマネージャーアプリや、特定の機能に特化したカスタムノードが次々と開発されています。将来的には、より直感的に使えるUIや、AUTOMATIC1111とComfyUIの長所を融合させたような、新しいツールが登場する可能性も十分に考えられます。
ComfyUIを学ぶことは、一見すると遠回りに見えるかもしれません。しかし、それはローカル画像生成AIの「次のステージ」へ進むための、最も確実な一歩なのです。
【編集部後記】
Stable Diffusionという一つの大きな川から、FLUX.1やHiDreamといった新たな支流が生まれ、画像生成AIの世界は、今まさに大河となってその流れを大きく変えようとしています。これは、業界全体にとっての、そして私たちユーザー一人ひとりにとっての、重大な転換点です。
特に、ローカル環境で自由な創作活動を行い、時には成人向けの表現を探求してきたユーザーにとって、今回の規約変更と新世代AIの登場は、これまでの常識が通用しなくなるほどの大きな変化と言えるでしょう。私たちは、自らの創作環境を、改めて見つめ直し、そして「選択」しなくてはならない時代を迎えました。
そして、この「選択の時代」は、新たな可能性と共に、私たちに新たな責任を問いかけます。
本稿の主題ではありませんが、最後に、これからのAI時代を歩む私たちが、常に心に留めておくべきことがあります。この画像生成AIの豊かな世界は、AIモデルの開発企業だけでなく、インスピレーションの源となった数多のアーティスト、便利なツールを開発するエンジニア、そして情熱を持って作品を投稿する無数のクリエイターによって成り立っています。
私たちは、他者の権利を尊重しなくてはなりません。アーティストたちの権利、そして意図しないコンテンツを目にしたくない人々の「見ない権利」、そして表現の自由。もちろん、今後整備されるAI関連法や、アダルト表現に関わる刑法175条といった、日本の法律を遵守するのは大前提です。
AIは、クリエイターの地位をいたずらに脅かすものではなく、あくまで私たちの創作活動を補助するための、強力なツールです。どれほどAIが進化しても、その出力結果に対する最終的な責任は、常にキーボードを叩く私たち人間にあります。
AIは、時に私たちの想像を超えるほど、美しく、精緻な絵を生み出します。しかし、試行錯誤の末に一本の線を描く画家の苦悩や、色が混ざり合う瞬間の喜びに宿る、「魂」までを再現することはできません。
この新しい画材の可能性を存分に楽しみながらも、私たちは、「人が描いた」という行為が持つ、本質的な価値を見失ってはならないのかもしれません。
技術がどれだけ進化しても、魂の表現としての創作は、最後は人の手に委ねられているのです。
【関連記事】
Dream Studioの使い方解説-Stable Diffusionの公式APIサービスで画像生成AIを無料体験
Google colabを利用したStable Diffusion Web UI導入方法-PCスペック不問で画像生成
Stable Diffusionのローカル環境構築手順-完全無料で無制限に画像生成