人工知能が伝言ゲームで私たちを騙しました...そして結果は衝撃的でした！

AI を活用した画像生成モデルは急速に進歩していますが、依然として疑わしい画像が生成されることもよくあります。人間によるプロンプトが問題であると想定するのは簡単なので、AI が生成したプロンプトのみを使用して AI がより簡単に機能するかどうかをテストすることにしました。 ChatGPT や Gemini などの人工知能を使用して画像を生成するプロセスは、プロンプトの品質と精度に大きく依存します。自動請求を使用すると結果は変わりますか?これがこの実験で発見するものです。

経験則

数年前に AI 画像生成モデルが登場したとき、私たちは皆、それがビジュアルメディアに携わるすべての人にとって警鐘となるだろうと考えました。しかし、そうではありませんでした。 AI は非常にリアルな画像を作成できるにもかかわらず、より複雑な画像が必要な場合、特に AI 画像は予期しないカテゴリに分類されることがよくあります (たとえば、AI では手の画像を生成するのが難しい傾向があります)。

この問題の原因は、AI モデル自体にあると考えることも、人間の欠点やクレーム作成における一貫性のないスキルにあると考えることもできます。誰が責任者であるかをテストする自然な方法は、生成されたプロンプトを導入した場合に画像生成モデルがより良い結果をもたらすかどうかを確認することです。

AIは歴史的瞬間に対する新たな視点を与えてくれるのでしょうか？

この仮説をテストするために、Gemini を使用して、作成しようとしているオブジェクトまたは画像の名前を使用しない一連のプロンプトを作成します。これは、AI が指示をどれだけ正確に「読み取る」かを検証するのに役立ちます。確かに、モデルがトレーニングに使用したデータから大きなインスピレーションを得る可能性はまだある（特に既存の画像を再現する場合）が、それが現実だとヤング氏は言う。

画像を作成するために私が選んだツールは、DALL-E 3 をベースにした Bing (はい、Bing はまだ存在します) の Image Creator です。モデルをテストするために、まず単純な形状から始めて、実験が進むにつれてより複雑な画像に移行します。

ChatGPT などを使用したことがある人なら、その回答の一部がいかに役に立たないかすでにご存知でしょうが、「ベータ」実行中にモデルが私に尋ねたプロンプトも例外ではありませんでした。したがって、プロンプトの一貫性を維持するために、500 文字に制限することにしました。

AIが単純な形状を処理する方法

シンプルな正方形から始めましょう。私はジェミニに、正方形を名前をつけずに説明するように頼みました。すると、彼は次のように答えました。

すべての辺の長さが等しい四辺形。それぞれの内角は正確に 90 度です。向かい合う辺が平行な正四辺形です。

DALL-E に説明を入力すると、次の結果が得られました。

確かに正方形ですが、ちょっと幾何学的すぎる気がします。難易度を上げる時期が来たので、AIにキューブの詳細を書いてもらいました。

12 つの面が合同な 8 次元形状。それぞれの面は、XNUMX つの辺が等しく、XNUMX つの直角を持つ正四角形です。等しい長さの辺が XNUMX 個あり、頂点が XNUMX 個あります。図形内のすべての角度は直角です。

結果は驚くべきものでした。

AI モデルの予測不可能性について私たちが言ったことを覚えていますか?さて、ここで、DALL-E は立方体を作成しましたが、少し混乱してルービックキューブにしました。正確な単語を完全に避けたにもかかわらず、AIは部分的に間違えました。これは、銀河パズルゲームの人気によるものと考えられます。

AIによる人物撮影のアプローチ

キューブの状況は、正確で「偏りのない」説明であっても、AI がかなり単純な指示を誤解する可能性があることを示しています。それでは、ドロシア・ランゲの「移民の母」のような古典的な画像の AI 生成説明で、それがどれほどうまく機能するかを見てみましょう。元の画像は次のとおりです。

心配そうな表情でカメラから目をそらしている女性が映っている。子供たちは彼女を取り囲んでいるが、顔を隠したり背を向けたりしている。彼女は顔に手を当て、疲労と苦悩を表現している。この場面は貧困と苦しみを暗示しています。女性の服装はみすぼらしく、全体的な構図も暗いため、彼女の境遇の深刻さが強調されている。

これは、DALL-E による有名な画像のビジョンです。

とても近い！しかし、それは完全に正確ではない。DALL-Eは明らかに「子供たちに囲まれているが、彼らの顔は隠されているか、あるいは背を向けられている。「お母さん」が顔に手を近づける代わりに、子どもの一人がその役割を引き受けました。

もっと複雑なものを試してみましょう。有名な写真「高層ビルの上でのランチ」を見たことがあるかもしれません。

11人の男たちが、はるか高所にある鉄骨の梁に座り、足をぶらぶらさせて昼食を食べている。梁は広大な都市の上空に吊り下げられている。男たちは、非常に高い高度にもかかわらず、リラックスした様子だ。彼らはビジネスウェアを着ており、このシーンはやや低いアングルから撮影され、高さを強調している。

この素晴らしい主張は素晴らしい結果を生み出しました。

AI 生成画像の典型的な特徴 (同一の鉢や「コピー＆ペーストされた」被写体) を無視すると、構成や全体的な雰囲気の点で驚くほどのものになります。しかし、驚くことではありません。この画像は非常に一般的なだけでなく、パブリックドメインでもあるため、DALL-E がトレーニング中にその内容を実際に回復したのではないかと密かに疑っています。

AIは複雑な画像を処理できますか?

これは実験の最後の「テスト」なので、真剣に取り組みましょう。 AI は人間の画像の処理が得意ですが、複雑で曖昧なシーンに直面すると失敗することがよくあります。では、アポロ8号の月周回軌道から撮影された有名な「地球の出」の写真はどうでしょうか?

「部分的に照らされた球体が暗い空間に浮かんでいる。小さな灰色の球体が地平線から昇っていく。大きな球体には青と白の斑点が見られ、水と雲を連想させる。二つの球体と黒の鮮明なコントラストは、昇っていく小さな球体の脆さと孤独さを強調している。」

ジェミニ（またはボールと言うべきでしょうか）はこの説明には当てはまりません。あまりに抽象的だったので、「月周回軌道付近から撮影」というフレーズを主張に追加しましたが、あまり役に立ちませんでした。

かっこいいプログレッシブ・ロックのアルバムカバーですが、『Earthrise』とは全く関係ありません。実験の最後に、これまでで最も神秘的な画像、エドワード・ウェストンの工業傑作「アームコ・スチール」を選択しました。

円形の工業用金属タンクがフレームを埋め尽くしています。その形状は柔らかく球根状で、反復的なパターンを生み出しています。光が表面に反射し、曲線的なフォルムを際立たせ、ボリューム感を生み出しています。構図は工業製品の抽象的な側面に焦点を当て、機能よりも形状と質感を強調しています。シーンはシンプルでモダンであり、光と影が強く強調されています。

これは良いエントリーのように思えますが、Dall-E が同意するかどうか見てみましょう。

SF的な雰囲気は気に入っていますが、オリジナルとはまったく似ていません。私は実験を完全な失敗で終わらせたくなかったので、エントリの末尾に「1920 年代の写真」という用語を追加してマシンを支援することにしました。

この特定の用語は、私が言及している画像を明確にするのに役立つかもしれないと考えました。残念ながら、Dall-E はまた私を失望させ、またもやプログレッシブロックのアルバムカバーを作りました。

この実験の結果は興味深いものであり、特に抽象的な概念の場合、AI による画像生成は非常に予測不可能であるという結論を導き出すことができます。入力が AI によって生成されて正確であるか、人間によって生成されて不完全であるかは関係なく、結果はランダムに見えます。

したがって、次に自分自身や自分の入力スタイルを責めようとするときは、たとえ 2 つのデバイスが相互に通信していたとしても、結果はおそらくほぼ同じになるだろうということを思い出してください。