バーチャル3Dクリエイター神部まゆみです(*^_^*)
この記事はChatGPTの画像生成機能を試してみたので、それについての記事です。
前回Stable Diffusin のForgeを使ってみたけど、手軽さはChatGPTが一番かな…と思った。

なんかChatGPTでベースを作って使い分けていくと良いっぽい?けど。
ChatGPTの画像生成機能について
昔のChatGPTはメタ認知能力が低かったのか、ChatGPT自身のことを聞いても頓珍漢な回答が返ってきた覚えがあるけど…今は大丈夫っぽいので彼に聞いてみます。




ChatGPTの画像生成機能について、概要と他サービスと比較したウリを教えてください。


今のChatGPTの画像生成は、昔の「DALL·Eを呼び出す別機能」ではなく、GPT-4oに統合された“会話型画像生成”になっています。
普通に会話しながら、
- 「もう少し可愛く」
- 「髪を柔らかく」
- 「このキャラのまま」
- 「背景だけ変えて」
みたいな修正を、そのまま文脈込みで続けられるのが大きな特徴です。
ChatGPT画像生成の概要
特徴を一言で言うと:
「画像生成AI」より、“画像を扱えるChatGPT”
という感じです。
例えば:
- テキストで会話
- 画像アップロード
- i2i
- 修正指示
- デザイン相談
- UIモック作成
- 漫画やバナー生成
などを、全部会話の流れでできます。
特に:
「この画像をベースに調整して」がかなり強いです。
今回みたいに:
- VRoid画像
- 雰囲気アップ
- anime寄り
- 髪質改善
- 柔らかい光
などを、自然言語だけでかなりいい感じに寄せられます。
他サービスと比べた最大のウリ
1. 会話しながら修正できる
これが最大。
MidjourneyやStable Diffusionは:
- prompt職人
- パラメータ調整
- seed管理
がかなり必要。
一方ChatGPTは:
「もう少し笑顔で」
「猫っぽさ増やして」
「前の絵の雰囲気で」
みたいな曖昧指示が通りやすい。
2. i2iが自然
Stable Diffusion系は:
- denoise
- CFG
- sampler
- ControlNet
など知識が必要。
ChatGPTは:
- 元画像アップ
- 口頭指示
だけでかなり動きます。
初心者への敷居がかなり低い。
3. 文字に強い
これは今かなり重要。
昔の画像AIは:
- 崩れた日本語
- 意味不明英語
が弱点でした。
GPT-4o系は:
- ロゴ
- UI
- ポスター
- サムネ
- 説明図
などで文字がかなり改善されています。
4. “理解力”が高い
例えば:
「VTuberっぽく」
「柔らかい夕方の光」
「青春アニメ風」
みたいな抽象表現。
ここがかなり強い。
単なる画像生成というより:
“文脈理解”
が強いです。
ChatGPT画像生成の立ち位置
かなり今っぽく言うと:
| サービス | 向いてる用途 |
|---|---|
| ChatGPT | 会話しながら作る |
| Midjourney | 一発で映える |
| Stable Diffusion | 自由に作り込む |
です。
特にChatGPTが強い人
かなり向いてるのは:
- アイデア出し
- ブログ
- SNS
- VTuber
- キャラデザイン
- サムネ
- ラフ制作
- 雰囲気調整
など。
一方で苦手な部分
完全キャラ固定
例えば:
- 同じキャラを100枚
- 厳密な衣装固定
- LoRA学習
- dataset作成
はStable Diffusion系が強い。
動画はまだ専業サービス優勢
瞬きや髪揺れ程度は可能でも、
- 長尺
- 高FPS
- ダンス
- 一貫性
はまだ:
- Kling
- Runway
- Sora
- ComfyUI workflow
などが強いです。
実際かなり増えてる使い方
最近は:
ChatGPT
→ ラフ・方向性・雰囲気
↓
Stable Diffusion
→ キャラ固定・量産
↓
動画AI
→ MV化
みたいなハイブリッド運用がかなり多いです。
VRoidのi2i用途で試してみる
AI画像と言ってもあくまで私のVTuber活動縛りで使いたいため、私のVRoidモデルをi2iして使う用に使っていきたい。
AI絵師の人でも特定のキャラだけ出力して縛りを設けている人は一途で好感が持てますね…。
VRoidの画像をクオリティアップする
これは前回の記事でやったけど、キャラの特徴を踏まえつつ完璧にクオリティアップしてくれましたねΣ(゚Д゚)
顔の比率、髪型、目のパーツなども保ったままでクオリティを上げてくれた。


角度を変えたり服に文字が書いてあっても普通に行けた。


うーんこれはなかなか…( *´艸`)指も破綻せずちゃんと5本ですね。


服装を変える
↑の画像の服装を変えてみます。


おお完璧だΣ(゚Д゚)


まぁi2iした後の画像を改変しているから、VRoid縛りで行くならVRoidでセーラー服画像撮ってからのほうが良いかな?
Unityに配置してポーズを撮らせてやる
VRoidをVRMエクスポートして、UniVRMを使えばUnityに持って行けます。
背景はシンプルなほうが良いっぽいので、適当に平面をキャラの後ろに持ってきて、影の影響を受けない Unlit/Color などのシェーダーにすると良い感じです。
Very Animationで適当にポーズをとらせる。
まぁこんなもんかな。
VRoidのブレンドシェイプにデフォルトで含まれている、Fangだっけ、八重歯っぽいやつを出すやつも使った。


おお、これはなかなか( *´艸`)




ちゃんと八重歯とか細かい部分も拾ってくれていますね。
背景を変える
これ背景は別に生成して、背景無地で生成して貰って後で合成するのも良いみたいだけど。
まぁ普通に背景を変えてもらいます。
…おお簡単にできたΣ(゚Д゚)
まったく凄い時代になったもんだぜ…(;゚д゚)ゴクリ




背景にモブの男子学生を追加する
ちょっと寂しいから背景にモブの男子学生を追加して、オタサーの姫っぽくするか…。
おお、簡単に追加できたΣ(゚Д゚)




ちょっとさわやかすぎるためキモオタっぽくしようとしたが…
なんかコンテンツポリシーに反するとかでダメだった。キモオタが差別用語と解釈されたか…?


オブラートに包んでプロンプトを書いたら行けました!これめっちゃ良い感じにオタサーの姫感が出ていて良いかもw




んーこれよくできたな…。エロじゃないから伸びなさそうだけどPixivにアップしてみようかな。AIタグをつけて。
追記:アップしたら普通に伸びなかったけど、AIだからかフォロワー減りました(^_^;)アカウント分けたほうが良さげ。
そもそも手書きでもオリジナルはエロ以外伸びにくいようなので、伸ばしたいならエロだけにしたほうが良いか…。
複数キャラでも行ける
ChatGPTパイセンによると、キャラの距離がある程度離れてれば成功率高いっぽいけど…。
このくらい密着してても行けるか?


というかどこまでセーフなんだろう?おねショタは児童ポルノでダメとかあるのだろうか?(^_^;)
…と思ったけど普通に行けましたね。




ChatGPT、やはりAI業界のトップランナーだから、どういう画像なのか解釈するのが上手いな(^_^;)
密着してると体の一部と誤解釈されてとんでもない画像が出てくるかと思ったけど、ちゃんとやってくれました。
おわりに
んー、さすがChatGPTは精度高くてクオリティも高いですね。
しかしどこまで行ってもAI絵でしかないため、嫌われてしまう傾向にあるけど…。
Pixivのアカウントに投稿してみたらフォロワー減ったし、投稿していくならアカウント分けたほうが良いと思う。
えっちなやつにしたいならこれでベース作ってローカルのやつでやるのが良いかな…。
まだ試してないから分からないけども。
また何かあれば追記します(*^_^*)


