最終確認日: 2025年5月27日
こんにちは!
SDXL系の画像生成モデルを使っている皆さんなら、きっと
「なんでこの絵はこんなに綺麗なんだろう?」
「どうやったらこんなにリアルな絵が作れるの?」
って、不思議に思ったこと、ありますよね?
私も、AIが作った絵を見ては「うわー、すごい!」って感動するんですけど、その裏側って、なんだかすごく複雑で、専門的な話ばかりで、ちょっと敬遠しちゃってたんです。
でも、実は、AIが素晴らしい絵を描けるようになるには、「どんなデータでお勉強したか」っていうのが、とーっても大事なポイントなんですよ。
前回の記事では、Illustrious XLの「心臓部」とも言える技術の秘密、SDXLベースのアーキテクチャや高解像度生成の仕組みについて、ちょっとだけ難しい話も交えながら、でもなるべく分かりやすくお伝えしたつもりです。
今回は、そのIllustrious XLが、なぜあんなに強力なイラスト生成能力を持つに至ったのか、その「舞台裏」を、皆さんと一緒に覗いていきたいと思います。
前回の記事はこちら
👇
AIを高校生に例えると、どんな「ごはん」を食べて、どんな「お勉強」をして、今の賢さにたどり着いたのか、そんなお話だと思ってくださいね。
AIを高校生に例えると、AIのごはんって何?そして、その「お料理」の秘密
Illustrious XLは、ものすごくたくさんの絵のデータ(これを「データセット」って言います)を食べて、お勉強しているんです [17]。
特に、初期の頃のIllustrious-XL-v0っていうバージョンは、「Danbooru2023」っていう、アニメの絵がたくさん詰まった巨大なデータセットを、もぐもぐと食べていたそうですよ [13, 22]。
Danbooruデータセットって、どんな「味」がするの?
Danbooruデータセットは、なんと800万枚以上ものアニメの絵でできているんです。
しかも、ただの絵じゃなくて、キャラクターの名前とか、どんなシーンなのか、誰が描いたのか、みたいな「タグ付け」が、ものすごく細かくされているのが特徴なんです [26]。
SDXL系のモデルを使っている皆さんなら、「このタグを入れると、こんな絵が出る!」っていう経験、ありますよね?
あの「Danbooruタグ」が、まさにこのデータセットの「味付け」の元になっているんです。
AIは、この細かいタグ情報と一緒に絵を覚えることで、「こんなタグがあったら、こんな絵を描けばいいんだな」って、お勉強しているんですね。
AIのごはんにも「好き嫌い」や「栄養の偏り」があったんです
とはいえ、どんなにたくさんのデータでも、やっぱり完璧じゃないんです。
Illustrious XLも、初期の頃は、ちょっとした「好き嫌い」や「栄養の偏り」に悩まされていたみたいですよ。
- 「偏り」の問題:
例えば、データセットの中に、男の子の絵よりも女の子の絵の方が圧倒的に多かったりすると、AIも女の子の絵を描くのは得意だけど、男の子の絵はちょっと苦手…なんてことになっちゃうんです [17]。
まるで、毎日お肉ばかり食べていると、野菜が苦手になっちゃう、みたいな感じでしょうか。 - 「曖昧さ」の問題:
それから、「doctor」っていうタグがあったとして、AIが「これはお医者さんのキャラクターのことかな?それとも職業としての医者のことかな?」って迷っちゃうこともあったんです。
あるいは、たくさんの人が描かれている絵なのに、一人一人の詳細なタグが少なくて、AIが「この人たちは誰?」って混乱しちゃうことも [17]。
まるで、友達が「あの人、すごいよね!」って言っても、「あの人って誰のこと?」ってなっちゃうような、そんな感じです。 - 「解像度」の問題:
あとは、ものすごく大きな絵を、AIがうまく「小さくして理解する」のが難しかったりすることもあったんです。
これが、AIが絵の概念をしっかり理解できない原因になることもあったみたいですね [17]。
まるで、すごく大きな地図を、小さく折りたたんだ時に、どこに何があるか見づらくなっちゃう、みたいな感じでしょうか。
Onoma AIの皆さんは、これらの問題に気づいて、Illustrious XLがもっと健康に育つように、いろんな工夫をしてくれたんです。
- 「いらないタグ」はポイ!:
AIのお勉強の邪魔になるような、不正確だったり、関係ないタグは、データセットからきれいに削除したんです [17]。 - 「AIが作った絵」もごはんに!:
既存の絵だけじゃなくて、AI自身が作った絵と、その絵のキャプション(説明文)も、データセットに加えてあげたんです。
これって、AIが自分の絵を見て、さらに賢くなる、みたいな、ちょっと面白いお話ですよね [17]。 - 「マルチレベルキャプション」で、もっと詳しく!:
そして、一番すごいのが、既存のタグと、私たちが普段話すような自然な言葉の両方をカバーする、もっともっと詳細で、階層的な「キャプションシステム」を開発したことなんです [17, 26, 27, 28]。
これによって、AIはプロンプトの意味を、以前よりもずっと深く理解できるようになったんですよ。
これらの「データのお料理」への徹底したこだわりが、Illustrious XLがただ綺麗な絵を描くだけじゃなくて、絵の体のバランスが良くなったり、AIが絵の「意味」をしっかり理解してくれたりするようになった秘訣なんです。
特にアニメのキャラクターみたいに、細部までこだわりたい絵を描くときには、こんな風にデータにこだわってくれたからこそ、Illustrious XLが「すごい!」って言われる性能を出せるようになったんですね。
AIの「成長記録」:ファインチューニングとモデル進化のロードマップ
Illustrious XLは、生まれたばかりの時(初期バージョン)から、ずっと「ファインチューニング」っていうお勉強を続けています。
SDXL系のモデルを使ったことがある皆さんなら、ベースモデルにLoRAを適用して、自分好みの絵柄に調整する、みたいな経験、ありますよね?
Illustrious XLも、まさにそんな風に、繰り返しお勉強を重ねて、どんどん賢くなっていると考えると分かりやすいでしょう [5, 9, 10, 12, 14, 22]。
2.1. Illustrious XLちゃんの「成長アルバム」を見てみよう
Illustrious XLの開発過程は、まるで子供の成長アルバムみたいに、バージョンごとにどんな風に育ってきたか、ちゃんと記録されています。
ちょっと見てみましょうか。
- v0.1:
2024年9月頃に生まれた、Illustrious XLの最初の姿です。
この頃は、1024×1024の絵が描けたんですけど、まだプロンプトの自由度や品質に課題があったみたいですね [13]。 - v1.0:
2025年2月頃には、大きく成長しました!
なんと、SDXLのモデルとしては初めて、1536×1536っていう、ものすごく大きな絵を「そのまま」描けるようになったんです。
そして、自然な言葉とタグを混ぜて使える「ハイブリッドプロンプト」も、このバージョンから導入されたんですよ [10, 12, 13, 21]。 - v1.1:
v1.0のすぐ後、2025年2月頃には、さらに安定して、より自然な言葉のプロンプトに強くなるように、ちょっとした調整が加えられました [24, 32]。 - v2.0 BASE (eps):
2025年3月中旬頃には、コサインアニーリング学習率スケジュールっていう、ちょっと難しい名前のお勉強方法を取り入れて、モデルがもっと安定して、皆さんの指示に確実に応えてくれるようになりました [22, 30, 31]。 - v3.0シリーズ & v3.5 (vpred):
そして、2025年4月〜5月にかけては、CREATIVE(クリエイティブ)、EXPRESSIVE(エクスプレッシブ)、REFINED(リファインド)といった、いろんな「個性」を持ったIllustrious XLたちが、次々と誕生しているんです [29]。
まるで、いろんな特技を持った兄弟が増えていくような感じですね!
「みんなで育てる」オープンソースだから、もっと強くなるんです
Illustrious XLは、特定の絵のスタイルに偏らない「事前学習済みベースチェックポイント」として公開されている、という話を前回の記事でもしましたよね [10, 12, 14]。
これって、SDXLユーザーの皆さんにとっては、とっても嬉しいポイントなんです。
なぜなら、皆さんがLoRA(ローランクアダプテーション)っていう技術を使って、Illustrious XLをさらに自分好みに「お勉強」させたり、「ファインチューニング」したりするための、しっかりした土台が用意されている、っていうことだからです。
Illustrious XLは、LoRAやControlNet(コントロールネット)といった、SDXLで使える拡張機能と、バッチリ互換性があるんです [10, 12, 21, 24]。
だから、皆さんがこれまでSDXLで使っていたお気に入りのLoRAも、Illustrious XLでそのまま使えることが多いんですよ。
これって、これまで積み重ねてきた皆さんの知識や資産が、無駄にならないってことで、すごく安心できますよね。
この「みんなで育てる」オープンソースの考え方があるからこそ、Illustrious XLは、Onoma AIさんだけの力じゃなくて、世界中のクリエイターさんたちのアイデアや工夫が加わって、どんどん進化していくことができるんです。
まるで、みんなで協力して、一つの大きな作品を作り上げていくような、そんな素敵なプロジェクトなんですよ。
Illustrious XLの「得意なこと」と「個性」を見てみよう
Illustrious XLは、成長するにつれて、いろんなバージョンが生まれてきました。それぞれのバージョンには、ちょっとずつ違う「得意なこと」や「個性」があるんです。
以下の表で、その一部をご紹介しますね。
モデルバージョン | リリース時期 (推定) | ネイティブ解像度 | 主要な特徴/焦点 | ELOレーティング (参考) |
v0.1 | 2024年9月 | 1024×1024 | 初期リリース、プロンプト自由度と品質に課題 [13] | – |
v1.0 | 2025年2月 | 1536×1536 | 高解像度生成に特化、SDXLで初の1536×1536ネイティブサポート、ハイブリッドプロンプトシステム [10, 12, 13, 21] | 1571 [32] |
v1.1 | 2025年2月 | 1536×1536 | v1.0からの継続、安定化のためのハイパーパラメータ調整、より自然言語にフォーカス [24, 32] | 1617 [22, 24, 32] |
v2.0 BASE (eps) | 2025年3月中旬 | 1536×1536 | コサインアニーリング学習率スケジュールによる安定性向上 [22, 30, 31] | – |
v3.0 CREATIVE | 2025年4月 | – | スタイルの自由度と芸術的想像力を優先 [29] | – |
v3.5 EXPRESSIVE+ (vpred) | 2025年5月 | – | EXPRESSIVE+の最新版 [29] | – |
注:リリース時期は、提供された情報に基づいて推定されたものです。一部のバージョンは将来のリリースを示唆している可能性があります。
この表を見ると、Illustrious XLが、ただ大きくなっただけでなく、どんどん賢く、そしていろんな「個性」を持つようになってきているのが分かりますよね。
Illustrious XLの「お勉強方法」をちょっとだけ覗き見!
Illustrious XLのそれぞれのバージョンは、最高の性能を出すために、特別な「お勉強方法」と「ごはんの食べ方」をしているんです。
以下の表で、そのお勉強方法の一部をまとめたものですよ。
モデルバージョン | ベースモデル | トレーニングステップ数 | バッチサイズ | データセットサイズ | プロンプトスタイル | アノテーション方法 | トレーニング解像度 | U-Net学習率 | テキストエンコーダ学習率 |
Illustrious v0.1 | SDXL 1.0 | 781,250 | 192 | 7.5M | タグベース | Original Prompt + Reorganized / Manual Filtering [17] | 1024×1024 [17] | – | – |
Illustrious v1.0 | SDXL 1.0 | 625,000 | 128 | 10M | タグベース | Original Prompt + Reorganized / Manual Filtering [17] | 1536×1536 [17] | – | – |
Illustrious v1.1 | SDXL 1.0 | 93,750 | 512 | 12M | タグベース | Multi-level Captions [17] | 1536×1536 [17] | – | – |
Illustrious v2.0 | SDXL 1.0 | 78,125 | 512 | 20M | タグベース | Multi-level Captions [17] | 1536×1536 [17] | 4e-5 [33] | 3e-6 [33] |
この表は、モデルの進化に伴うデータセットの規模拡大(7.5Mから20Mへ)とトレーニング解像度の向上(1024×1024から1536×1536へ)を示しており、これらがIllustrious XLの性能向上に寄与していることが分かります。
特に、v1.1以降の「Multi-level Captions」の使用は、プロンプト理解の洗練に重要な役割を果たしています [17]。
この表を見ると、Illustrious XLが、最初750万枚くらいの絵で勉強していたのが、今では2000万枚もの絵を食べていることが分かりますよね。
しかも、絵のサイズも、最初は1024×1024だったのが、今では1536×1536の大きな絵で勉強しているんです。
特に、v1.1以降で使われている「Multi-level Captions」っていうお勉強方法は、AIがプロンプトをもっともっと深く理解するための、大切な秘密なんですよ [17]。
まるで、絵の先生が、ただ「リンゴ」って教えるんじゃなくて、「赤くて丸くて甘い、あの果物だよ」って、いろんな角度から教えてくれるような感じです。
というわけで、Illustrious XLが、ただのSDXLの派生モデルじゃなくて、イラストやアニメーションに特化するために、どれだけ「ごはん」と「お勉強」にこだわり抜いているか、少しは分かっていただけたでしょうか?
まとめ
今回の記事では、Illustrious XLがなぜあんなに高性能な絵を描けるのか、その「舞台裏」を、データセットの「お料理」から、モデルの「成長記録」まで、詳しく見てきました。
Danbooruデータセットの徹底したキュレーションや、バージョンごとの丁寧なファインチューニングが、Illustrious XLの進化の鍵になっているんですね。
SDXLユーザーの皆さんにとって、Illustrious XLが単なるSDXLの派生モデルではなく、イラストやアニメーションに特化するためにどれだけデータと学習プロセスにこだわり抜いているかを理解する一助となれば嬉しいです。
なんだかAIの裏側って、難しそうに見えて、実は私たち人間が何かを学ぶ過程と、ちょっと似ているのかもしれませんね。
そう考えると、AIにもっと親近感が湧いてきませんか?
というわけで、次回の記事では、いよいよIllustrious XLを実際に使って、最高のイラストを生成するための「応用分野とプロンプトエンジニアリング」について、実践的なヒントをたっぷりご紹介します。SDXLで培ったプロンプトの知識をさらに深めて、Illustrious XLであなたの想像力を爆発させてみましょう!どうぞお楽しみに!
今回の記事の内容を図解にまとめました
👇
Illustrious XLの成長戦略
Illustrious XL 進化の舞台裏
AIイラスト市場のトレンドから、成長の秘密を読み解く
「AIイラストはどうやって賢くなるの?」Illustrious XLの成長戦略は、市場が求めるAIの姿を映し出しています。
トレンド1:AI開発は「データが命」
市場の飽くなき高品質要求に応えるために
AIイラスト市場では、高品質な学習データこそがモデル性能を左右する最大の鍵です。Illustrious XLの「データのお料理」へのこだわりは、このトレンドを明確に示しています。
出発点:Danbooru2023データセット
800万枚+
アニメ画像と詳細なタグ付けが学習の土台。
課題と克服:「データのお料理」の重要性
しかし、量だけでは不十分。偏り、曖昧さ、解像度の問題を解決するため、Onoma AIは徹底したデータキュレーションを実施しました。
(偏り, 曖昧さ, 解像度)
(タグ削除, 合成データ追加, マルチレベルキャプション)
図1: Illustrious XL データセットキュレーションプロセス
図2: Illustrious XL トレーニングデータセット規模の拡大 (推定)
市場の示唆: データ品質への徹底的なこだわりが、AIモデルの競争優位性を生み出し、ユーザーが求める高品質なイラスト生成を実現します。
トレンド2:「進化」し続けるAI
市場の多様なニーズへの迅速な対応
AIモデルは一度作ったら完成ではありません。市場のフィードバックや新しい技術を取り込み、継続的に「ファインチューニング」というお勉強を重ねて進化することが、現代のAI開発の主流です。
Illustrious XLの成長記録:「ファインチューニング」の力
v0.1 (2025年9月頃)
初期版。1024px。プロンプト理解・品質に課題。
v1.0 (2025年2月頃)
初の1536pxネイティブ対応。ハイブリッドプロンプト導入。
v1.1 (2025年2月頃)
安定性向上、自然言語プロンプト強化。
v2.0 BASE (eps) (2025年3月中旬頃)
学習方法改良でさらに安定。堅牢なベースモデルへ。
v3.0シリーズ & v3.5 (vpred) (2025年4月-5月頃)
CREATIVE, EXPRESSIVEなど、特性特化型バリアント登場。
図3: Illustrious XL モデル進化タイムライン
市場の示唆: 迅速なイテレーション(繰り返し改善)と、特定の用途やスタイルに特化したモデルの開発が、市場の多様な要求に応える鍵となります。
トレンド3:「みんなで育てる」イノベーション
オープンソースとコミュニティの力が市場を加速
AI開発において、オープンソース化とコミュニティとの連携は、技術革新を加速し、より多くの人々に技術を届けるための重要なトレンドです。Illustrious XLはこの流れを積極的に取り入れています。
🌍オープンな基盤
「事前学習済みベースチェックポイント」として公開。誰もがアクセスし、改良できる土壌を提供。
🛠️拡張機能との互換性
LoRAやControlNetといった既存のSDXL拡張機能と互換。コミュニティの資産を活かし、多様なカスタマイズを可能に。
これにより、ユーザーは特定のスタイルや機能を持つモデルを容易に作成・共有でき、ニッチな市場のニーズにも細やかに対応できるようになります。まさに「みんなでAIを賢くする」動きです。
市場の示唆: オープンなエコシステムが、AI技術の民主化と、想像もつかないような新しい応用分野の開拓を力強く後押しします。
トレンド4:成果の可視化と信頼性
トレーニングがもたらす具体的な「強さ」を市場に示す
AIモデルの進化は、曖昧なものではなく、具体的な数値や特性の変化として現れるべきです。市場は、この「見える強さ」と透明性を求めています。
Illustrious XLの進化の証:モデルティア
モデルバージョン | ネイティブ解像度 | 主要な特徴/焦点 | ELO(参考) |
---|---|---|---|
v0.1 | 1024×1024 | 初期リリース、品質に課題 | – |
v1.0 | 1536×1536 | 高解像度特化、ハイブリッドプロンプト | 1571 |
v1.1 | 1536×1536 | 安定性向上、自然言語重視 | 1617 |
v2.0 BASE (eps) | 1536×1536 | 学習安定性向上 | – |
v3.0 CREATIVE | – | スタイルの自由度、芸術性 | – |
表1: Illustrious XL モデルティアと主要特性 (抜粋)
トレーニングパラメータの進化
モデルバージョン | データセットサイズ | アノテーション方法 | トレーニング解像度 |
---|---|---|---|
Illustrious v0.1 | 7.5M | Original Prompt + Manual Filtering | 1024×1024 |
Illustrious v1.0 | 10M | Original Prompt + Manual Filtering | 1536×1536 |
Illustrious v1.1 | 12M | Multi-level Captions | 1536×1536 |
Illustrious v2.0 | 20M | Multi-level Captions | 1536×1536 |
表2: Illustrious XL トレーニングパラメータの進化 (例)
これらの具体的な数値や特性の変化は、Illustrious XLがどのように市場の期待に応え、能力を向上させてきたかを明確に示しています。
市場の示唆: 定量的な進化の提示と開発プロセスの透明性が、AIモデルへの信頼を高め、幅広い採用を促進する上で不可欠です。
結論:Illustrious XLの成長が示すAIイラスト市場の未来
Illustrious XLのトレーニング戦略と進化の軌跡は、現代のAIイラスト市場が「高品質なデータ」「迅速かつ継続的な改善」「オープンな協力体制」、そして「目に見える具体的な成果」をいかに重視しているかを鮮明に映し出しています。このデータ中心で、コミュニティと共に成長し、具体的な成果を積み重ねていくアプローチこそが、次世代のAIモデルが市場をリードし、クリエイターの期待を超えるための鍵となるでしょう。
参照元:
- [5] Hugging Face. “illustrious-xl/illustrious-xl-v0.” https://huggingface.co/illustrious-xl/illustrious-xl-v0 (Accessed: 2025年5月27日)
- [9] Hugging Face. “illustrious-xl/illustrious-xl-v1.1-pruned.” https://huggingface.co/illustrious-xl/illustrious-xl-v1.1-pruned (Accessed: 2025年5月27日)
- [10] Hugging Face. “illustrious-xl/illustrious-xl-v2.0-base-eps.” https://huggingface.co/illustrious-xl/illustrious-xl-v2.0-base-eps (Accessed: 2025年5月27日)
- [12] Hugging Face. “illustrious-xl/illustrious-xl-v3.0-expressive.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.0-expressive (Accessed: 2025年5月27日)
- [13] Hugging Face. “illustrious-xl/illustrious-xl-v3.5-expressive-vpred.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.5-expressive-vpred (Accessed: 2025年5月27日)
- [14] Hugging Face. “illustrious-xl/illustrious-xl-v3.5-refined.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.5-refined (Accessed: 2025年5月27日)
- [17] Hugging Face. “illustrious-xl/illustrious-xl-v2.0-base-eps – Training Details.” https://huggingface.co/illustrious-xl/illustrious-xl-v2.0-base-eps#training-details (Accessed: 2025年5月27日)
- [22] Hugging Face. “illustrious-xl/illustrious-xl-v1.1 – Training Details.” https://huggingface.co/illustrious-xl/illustrious-xl-v1.1#training-details (Accessed: 2025年5月27日)
- [24] Hugging Face. “illustrious-xl/illustrious-xl-v3.5-expressive-vpred – Usage.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.5-expressive-vpred#usage (Accessed: 2025年5月27日)
- [26] Hugging Face. “illustrious-xl/illustrious-xl-v0 – Training Details.” https://huggingface.co/illustrious-xl/illustrious-xl-v0#training-details (Accessed: 2025年5月27日)
- [27] Hugging Face. “illustrious-xl/illustrious-xl-v1.0 – Training Details.” https://huggingface.co/illustrious-xl/illustrious-xl-v1.0#training-details (Accessed: 2025年5月27日)
- [28] Hugging Face. “illustrious-xl/illustrious-xl-v3.0-expressive – Training Details.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.0-expressive#training-details (Accessed: 2025年5月27日)
- [29] Hugging Face. “illustrious-xl/illustrious-xl-v3.5-refined – Model Card.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.5-refined#model-card (Accessed: 2025年5月27日)
- [30] Hugging Face. “illustrious-xl/illustrious-xl-v2.0-base-eps – Model Card.” https://huggingface.co/illustrious-xl/illustrious-xl-v2.0-base-eps#model-card (Accessed: 2025年5月27日)
- [31] Hugging Face. “illustrious-xl/illustrious-xl-v3.0-expressive – Model Card.” https://huggingface.co/illustrious-xl/illustrious-xl-v3.0-expressive#model-card (Accessed: 2025年5月27日)
- [32] Civitai. “Illustrious XL – Model Versions.” https://civitai.com/models/172352/illustrious-xl?modelVersionId=202158 (Accessed: 2025年5月27日)
- [33] Hugging Face. “illustrious-xl/illustrious-xl-v2.0-base-eps – Usage.” https://huggingface.co/illustrious-xl/illustrious-xl-v2.0-base-eps#usage (Accessed: 2025年5月27日)