*当ブログではアフェリエイト広告を利用しています。

chatgpt

ChatGPT-4O Image Generationの実力検証:何が変わった?何ができるようになった?

momeq

最近、OpenAI社が開発するChatGPT-4O(Oはオムニの”O”)に新たに搭載された画像生成機能「4O Image Generation」が大きな話題を呼んでいます。

この新機能は2024年3月に導入され、テキストだけでなく画像や映像も扱えるこの生成系AIの能力が驚異的に向上し、クリエイティブ業界に新たな波を起こしています。

本記事では、この革新的な機能について詳しく掘り下げ、何が変わったのか、何ができるようになったのかを実際の検証結果と共に解説します。

基本情報と使用可能なプラン

新しく登場した「4O Image Generation」は、ChatGPT上で簡単に高品質な画像生成を行うことができる機能です。

この機能は以下のプランで使用可能です:

  • ChatGPT Plus、Pro等の有料プラン
  • 無料版を含めたフリーユーザー

また、ChatGPTだけでなく、OpenAIの動画生成AI「Sora」のサイトからも同じ画像生成機能を利用できます。

なお、これまで使用されていたDALL-E 3は専用の「DALL-E GPT」を通じて引き続き利用可能です。

4O Image Generationの基本的な使い方

この新機能を活用するための基本的な操作手順を解説します。

ChatGPTからの利用

ChatGPTであれば、検索画面の下部にある「…」を押してください。

その中にある画像を生成するを押して、普段通りプロンプトを書けば画像生成ができます。

Soraからの利用

Soraであれば、検索画面の下部の部分を「Image」にすれば、画像生成になります。

大きさなども簡単に選べるようになっています。

注意点

現時点、有料プランでも連続生成は難しいようです。数枚作成すると次のような注意が流れて、画像生成まで時間がかかります。

「現在、画像生成のリクエストが短時間に集中しているため、3分間の待機時間が必要です。そのため、画像生成はまだ実行できませんでした

少し時間をおいてから、もう一度リクエストしていただければ対応可能です。引き続きどうぞよろしくお願いします!」

DALL-E 3との違い:何が変わった?

これまでOpenAIが提供していたDALL-E 3と比較すると、4O Image Generationには以下のような重要な進化が見られます:

  1. 写実性の向上
    • DALL-E 3では人物の画像がAI感満載でやや不自然でしたが、4O Image Generationではより自然な質感表現が可能になりました。
    • 「超リアルで立体的なダイヤモンド」のような指示でも、AI感の少ない高品質な画像が生成されます。
  2. 文字処理能力の大幅改善
    • これまで生成AIにとって、画像内のテキスト処理は難しい課題でした。
    • 特に日本語を含む非英語テキストの表示に弱点がありましたが、新機能では「生成AIがすごい」といった日本語テキストも適切に表示できるようになっています。
  3. プロンプト理解度の向上
    • GPT-4Oをベースにしているため、細かい指示にも忠実に従える能力が格段に上がりました。
    • これにより、複雑な構図や特定の状況の描写が以前より正確に生成できます。
  4. 特徴維持機能
    • アップロードした元画像の特徴を「維持する」能力が非常に優れています。
    • 例えば、お気に入りのキャラクターイラストをアップロードし、「これを維持して本にして」「キーホルダーにして」などの指示で、元の特徴を保ったまま様々なバリエーションを作れるようになりました。

何ができるようになったのか?主な機能と検証結果

4O Image Generationの主要な機能を詳しく検証した結果を以下に紹介します。

それぞれの機能がどのように改善され、どのような用途に適しているのかを見ていきましょう。

写真からのイラスト・サムネイル生成

検証内容

実際の写真からYouTubeでつかえるようなイラスト画像を「プロンプト一発」で簡単に作成できるようになりました。

検証では、みんなでの集合写真をアップロードし、「アニメ風のイラストにして」と指示しました。

結果

準備した写真がこちら。

利用した元画像(AI生成)

これを以下のプロンプトで生成に掛けます。

プロンプト:「アニメ風のイラストにして」

  • 髪型や服装まで再現されたアニメ風イラストに変換
  • 表情や特徴をしっかり捉えた変換が可能
  • YouTubeサムネイルとして十分な品質の画像を生成

実用性

サプリメントの広告素材やブログのアイキャッチ画像など、商業利用でも十分な品質が得られます。

これまでデザイナーに依頼していた作業が自分で簡単にできるようになりました。

日本人表現と日本語テキストの正確な生成

検証内容

「日本人女性が青い空の下白のワンピースを着て、笑顔で手でハートマークを作りながら、大好きというコメントを入れて」というプロンプトで画像を生成しました。

従来のAIでは日本人の表現がステレオタイプになりがちでした。

結果

プロンプト:「日本人女性が青い空の下白のワンピースを着て、笑顔で手でハートマークを作りながら、大好きというコメントを入れて」

  • 自然な日本人女性の顔立ち・肌の質感を表現
  • 「だいすき」という日本語が適切に表示
  • 指や歯の表現もかなり自然に

実用性

日本向けの商材やコンテンツ制作において、より自然な日本人表現と日本語テキストが使えるようになり、ローカライズの手間が大幅に減少しました。

スケッチからの高品質画像生成

検証内容

手書きの簡単なスケッチをアップロードし、「この画像のポーズのリアルな写真を作って」と指示しました。

結果

用意したポーズがこちら

満面の笑みで両手でVサイン。

こちらを生成に掛けると?

プロンプト:「この画像のポーズのリアルな写真を作って」

  • スケッチの基本構図を維持しながら高品質な写真に変換
  • ポーズや配置が指示通りに再現される

実用性

ラフスケッチからの商品デザイン案の作成や、漫画のネーム段階からの彩色版作成など、クリエイティブワークフローの効率化に大きく貢献します。

漫画作成機能

検証内容

「4コマの漫画スタイルとして1コマ目にサラリーマンが朝の電車で眠っています、2コマ目で突然目を覚まして自分の駅を乗り過ごしたことに気づき、3コマ目で慌てて反対方向の電車に乗り、4コマ目で会社に着いたら休日だったことがわかる、モノクロでコミカルなトーン表現あり」というプロンプトで検証。

結果

プロンプト:「4コマの漫画スタイルとして1コマ目にサラリーマンが朝の電車で眠っています、2コマ目で突然目を覚まして自分の駅を乗り過ごしたことに気づき、3コマ目で慌てて反対方向の電車に乗り、4コマ目で会社に着いたら休日だったことがわかる、モノクロでコミカルなトーン表現あり」

今回のプロンプトだけだと吹き出しでセリフがありませんでした。

そのため、追加でプロンプトを指示

追加プロンプト「吹き出しも入れて」

  • 単調なコマ割りですが、しっかりと4コマ漫画として出力。
  • セリフの日本語がわずかに崩れる場面もあるが、何となくわかる状況有り
  • 「Instagramのストーリー用で使いたいので、比率を縦長にして」という指示にも対応

応用例

メールマガジンの内容を4コマ漫画に変換したり、「白猫、画像生成と出会う」というタイトルの漫画を数分で生成するなど、コンテンツ制作の幅が大きく広がりました。

6コマなど複数コマの漫画も一度に生成可能です。

ポスターと広告デザイン

検証内容

  1. 「AIと共に創る明日というキャッチコピーが入ったテクノロジーカンファレンスのポスター、未来的でありながらも温かみのあるデザイン、青と紫を基調としたグラデーション背景」というプロンプトでポスターデザインを検証。
  2. また「和風の緑茶ブランドの広告、自然の中で茶葉を手に持つ女性、『一口の安らぎ』というキャッチコピー、和紙のような質感」という指示で商品広告も検証。

結果

プロンプト:「AIと共に創る明日というキャッチコピーが入ったテクノロジーカンファレンスのポスター、未来的でありながらも温かみのあるデザイン、青と紫を基調としたグラデーション背景」

プロンプト:「和風の緑茶ブランドの広告、自然の中で茶葉を手に持つ女性、『一口の安らぎ』というキャッチコピー、和紙のような質感」

  • 単純な画像だけでなく、綺麗な文字も表現可能
  • 全体のバランスのとれた配置でポスター等として使えるレベル

MidJourneyとの比較

  • MidJourneyはイラストの美しさでは優れるが、文字表現に難あり
  • 4O Image Generationは日本語を含むテキスト表示が格段に優れている

図解・インフォグラフィック・教育素材

検証内容

  1. 「SDGsの17の目標をインフォグラフィックで説明してください。各目標をアイコン化し、相互の関連性がわかるように配置。データと視覚的要素のバランスを重視」という指示でインフォグラフィックを生成。
  2. 「脳科学における記憶のメカニズムを図解で説明。短期記憶から長期記憶への変換プロセスが理解できるように」という指示で教育用図解も作成。

結果

プロンプト:「SDGsの17の目標をインフォグラフィックで説明してください。各目標をアイコン化し、相互の関連性がわかるように配置。データと視覚的要素のバランスを重視」

プロンプト:「脳科学における記憶のメカニズムを図解で説明。短期記憶から長期記憶への変換プロセスが理解できるように」

  • 教材として使えるほど高品質な図が短時間で完成
  • 小さな文字になると文字が崩れることもある
  • 「綴りを正確に」などの指示を追加すると改善

制限と対策

図解では文字の正確さが重要なため、「イラストだけを生成して後から別ツールで文字を入れる」という使い方も検討すべきです。

また、上記・下記などの順番をつける際には明示的に指示する必要があります。

写真の活用と特徴維持機能

検証内容

女性の写真をアップロードし、「画像の女性がサイダーを持っているように作成して」というプロンプトを試しました。

結果

この画像を使います。

AI生成画像

プロンプト:「画像の女性がサイダーを持っているように作成して」

  • 髪型、眉毛、目元、ポーズなどの特徴を維持した高精度な合成
  • 指の数、指輪やネイルの様子まで正確に再現
  • キャラクターの特徴を維持したままキーホルダーや本などに変換可能

独自の強み

特徴維持機能は4O Image Generationの最大の強みの一つです。

従来のAIではアップロードした画像の特徴を新しい生成物に正確に継承することが難しかったですが、この機能によりキャラクターデザインの一貫したバリエーション展開が可能になりました。

超リアルな表現

検証内容

「超リアルで立体的なダイヤモンド」というプロンプトで生成テストを行いました。

結果

プロンプト:「超リアルで立体的なダイヤモンド」

  • DALL-E 3ではAI感が残る表現だったものが、より写実的に
  • リアルな質感や光の反射など、細部までリアルに表現
  • 人形のようなリアル感のある人物表現も可能に

用途

商品撮影風の画像やリアルなプロダクト画像など、これまでカメラワークが必要だった映像を代替できる可能性があります。

他のAI生成ツールとの比較

MidJourneyとの比較

現在、画像生成AIの中でトップに君臨していると言われるMidJourneyと比較すると:

  • MidJourneyは1つのプロンプトで4つの画像を生成し、生成速度が速い
  • 4O Image Generationは生成に1分程度かかるが、プロンプト理解度が高い
  • MidJourneyは日本語プロンプトに対応していないが、4O Image Generationは対応
  • イラスト単体の美しさではMidJourneyが上回る場合も
  • 文字入りデザインでは4O Image Generationが大幅に優位

Googleのジェミニ(Gemini Flash)との比較

Googleのジェミニも画像生成機能を提供していますが、日本語テキストの表示に難があり、生成される画像の質もサムネイルとして使うには不十分です。

4O Image Generationは同じプロンプトでも格段に質の高い画像を生成します。

使用上の注意点

4O Image Generationを使用する際には、以下の点に注意が必要です:

  1. 著作権への配慮
    • 「ジブリ風にして」などの指示で特定スタイルを模倣すると、著作権問題が生じる可能性があります。
    • 一人一人が倫理感を持って使用することが重要です。
  2. 生成時間
    • MidJourneyと比較すると生成に時間がかかります(約1分)。
    • 即時性を求める場合は不向きかもしれません。
  3. 文字の制限
    • 日本語テキストは大幅に改善されていますが、小さな文字や多量のテキストでは崩れることがあります。
  4. 画像比率の指定
    • 特定の比率が必要な場合は事前にプロンプトで「正方形で」「16:9の比率で」などと指定するとよいでしょう。

まとめ:クリエイティブワークの新たな可能性

ChatGPT-4O Image Generationの登場により、クリエイティブ分野に革命的な変化が起きています。

写真からのイラスト変換、漫画作成、ポスターデザイン、図解作成など、多岐にわたる機能が実装され、その精度と使いやすさは以前のバージョンから大幅に向上しました。

特にイラストレーターやデザイナーにとって朗報なのは、チラシやフライヤー、広告デザインなどの制作が格段に簡単になったことです。

文字処理能力も向上し、日本語テキストも適切に表示できるようになりました。

元の画像の特徴を維持しながら別のスタイルに変換する能力は特筆すべき点で、一貫したキャラクターデザインのバリエーション展開などが容易になります。

GoogleやOpenAIなど大手AI企業間の競争が激化している現在、私たちユーザーはその恩恵を受け、より高性能で使いやすいツールを次々と手にしています。

こうした技術の進化を活用しながら、倫理的な配慮も忘れずに創造的な作品作りに取り組むことが重要でしょう。

AIの進化は止まることを知らず、わずか数ヶ月前には想像もできなかった機能が次々と実現されています。

4O Image Generationの登場により、私たちのクリエイティブワークの可能性はさらに広がったといえるでしょう。ぜひ自分自身で試してみて、創造的な作品作りに活用してみてください。

記事URLをコピーしました