ぜひご自身でご覧ください: ChatGPTの新しい画像生成機能は素晴らしいです

人工知能

ボス マルワン・モハメッド

OpenAI は ChatGPT の画像生成機能の大規模なアップデートをリリースしました。これは現実を再定義する驚くべきアップデートです。この開発は、人工知能による画像生成の分野における質的な飛躍を表しています。

数字、モデルのサイズ、新しいモデルが使用する GPU 時間数などで時間を無駄にするつもりはありません。このアップデートで何ができるのか、また以前の DALL-E モデルとどう違うのかを簡単に紹介します。

7. 手と指

ギターで E マイナーコードを演奏している人のクローズアップ。指で弦を押さえており、被写界深度は浅い。

AI画像生成技術は、初めて普及したとき私たちを驚かせました。それから…よく見ました。 AI画像の特徴は、手と指の奇妙な解剖学です。では、モデルをテストするのに、ギターの弦を撮影してもらうよりも良い方法はあるでしょうか?

最後に最高のものを残すために、最初にオリジナルの DALL-E モデルに質問し、次に ChatGPT 4o モデルに組み込まれた新しい画像ジェネレーターに質問しました。

上の画像はDALL-Eが作成したものです。 DALL-E の欠点にもかかわらず、ここでは指と一般的な解剖学を適切に処理しました。しかし、文字列自体は...そうではありません。フレットボード上の手の位置が高すぎるため、Eマイナーを演奏できません。少し拡大してみると、ギターに7本以上の弦があることに気がつくでしょう。弦の間隔も不規則です。

それを念頭に置いて、ChatGPT 4o に移りましょう。

冗談を言って、これはギターを弾いていたころの昔の写真だと言ってもよかったのですが。 ChatGPT 4o はこんなに良いです。 XNUMX 本の弦が均等に配置されており、コードは実際には E マイナーです。感動しました。

6. 歴史上の人物

アルバート・アインシュタインはカジュアルなシャツとサスペンダーを着て、セントラルパークでアイスクリームを食べています。

さまざまなものの画像生成を実験した後、歴史上の人物の画像生成に挑戦してみることにしました。歴史上の人物が不快に思うこともないので、現代の設定でその人物を見るのは楽しいでしょう。まず、DALL-E 2 と ChatGPT 4 を使ってアインシュタインの画像を生成してみましょう。

DALL-E 2 の結果は残念なものでした。事前に、アインシュタイン本人の写真は使用できず、「彼によく似た」人物の写真が使用されると警告されていたからです。 DALL-E 2 のビジュアルはリアルな漫画風のスタイルで、ここでそれがはっきりとわかります。背景のサンレモビルから、この写真はセントラルパークで撮影されたことがわかりますが、ここでの成果はそれだけです。

それでは、ChatGPT 4o に移りましょう。

この写真に白黒フィルターを適用すると、本物のビンテージ写真であることが納得できます。コーンの上のクリームは完璧なクリーミーさで、アインシュタインは彼特有の落ち着いたスタイルで登場し、背景にはサンレモの建物がまだ残っています。すべてが完璧に見えます。 ChatGPT 4o はこの画像で素晴らしい仕事をしました。

5. 架空の人物

グラスゴーのジョージ広場で、シス卿に似た人物がタクシーを拾っている。背景には小雨と信号がある。

ここまでで、ChatGPTが歴史上の人物の描画に優れていることがわかりました。顔や人物の描画は依然としてAIの能力をテストするのに最適な方法なので、Plusを試してみましょう。

著作権侵害の申し立てを受けずにチャットボットに協力してもらうために、「類似」という言葉を使用しました。 DALL-Eの結果は良好でした。このキャラクターはまさにシスの暗黒卿を彷彿とさせ、その他の要素もかなり正確です。

明らかに漫画的なところはないが、現実には見えない。リアリズムを望みますか?同じプロンプトで ChatGPT 4o が生成したものを確認してください。

私は雰囲気が大好きです。照明、霧、シス卿の恐ろしい存在感。すべて揃っています。唯一の問題は、ダークロードが路上に立って、歩道を向いてタクシーを呼んでいることです。また、タクシーの標識には「TAXL」と書かれています。

未来小説から歴史小説に移りましょう。次のようなものです:

リヴィアのゲラルトに似たキャラクターが、現代のスーパーマーケットで食料品を買い物しており、ショッピングカートを押して缶詰を見て眉をひそめています。

全然悪くないよ。画像には依然として人工的な漫画のような雰囲気が残っており、シリアルの箱に書かれた文字は予想通りまったく理解できません。

ChatGPT 4oは当初、著作権を理由にこの申し立てを拒否しましたが、「〜に類似」を「〜に類似」に置き換えると成功しました。見て：

言葉が出ません。ほとんどの人と同じように、ChatGPT の Geralt の解釈は基本的にヘンリー・カヴィルであり、ビデオゲーム版ではありませんが、彼はそれをうまくやり遂げました。しかめっ面も完璧で、シーンは正常に見えます。

これは奇妙なコマーシャルのセットのワンシーンとして通用するかもしれない。はい、本も読みました。 ウィッチャー シリーズになる前の話。

4. アニメーション

長い赤いコートを着てバイオニックアームを装着した海賊船長が空飛ぶ船の甲板で笑っている漫画。透明な背景。

OpenAI の画像生成は、単にリアリズムだけを追求したものではありません。 DALL-E は入力に関係なく常にスムージングのタッチを追加する傾向がありますが、私は両方のモデルを完全な似顔絵モードにすることにしました。高度な人工知能技術の使用を通じて漫画の品質を向上させることに重点が置かれました。

実際、DALL·E はここで優れた仕事をしました。透明な背景の要求さえ理解しました。幾分。得られるのは、通常は透明性を意味する古典的なグレーと白の市松模様です...ただし、ここではそれが画像にブレンドされています。つまり、まったく透明ではないのです。

また、ハッカーの AI 生成した生体の手には 4 本の指があるのに対し、電子の手には 5 本の指があるというのも皮肉なことだ。もしかしたら間違った腕をクロムメッキで覆ってしまったのでしょうか?

ChatGPT 4o はより明確で意図的に見えます。色の塗り方は様々で、それが良いか悪いかは個人的な問題ですが、明らかにアーティストがそのように描いたように見えます。 ChatGPT のグラフィックは高品質かつ詳細です。

背景もすでに透明になっています。 T シャツに載せたり、印刷したり、WhatsApp ステッカーにすぐに変換したりすることもできます。

3. 鏡と反射

モダンなバスルームのシンク、カウンター上の歯ブラシとカミソリ。鏡と実物の両方が見えます。照明は柔らかく均一です。 AI 生成画像における反射の正確さは、継続的な課題です。

鏡は像を反射しますが、反射が自然に見えるためには空間的な論理が必要です。 DALL-E が偶然見つけるであろうエントリを作成しました。正確な反射を持つリアルな画像を生成することは、人工知能が直面する最大の課題の 1 つです。

予想通りですね。鏡の中に蛇口の反射を狙ったものがありましたが、長すぎます。歯ブラシはシンクの中に浮いていて、反射しません。 DALL-E はこの例に多大な労力を費やしました。

新しいモデルでは、画像が実際の写真のようにリアルに見えるようになります。蛇口の反射は少し歪んでいますが、許容範囲内です。それから、歯ブラシがあります。歯ブラシは反射していますが、物理世界には存在しません。逆さまの吸血鬼のようなものです。

ここでは明確な勝者はいません。 AIの結果は一貫していなかったので、もっと野心的なことを試して、両方をもう一度試してみました。

女性が日光の当たる寝室の全身鏡の前に立っており、彼女の服装と姿勢が完璧に映し出され、背後の窓もはっきりと映っている。

…私はこの例を分析して尊重するつもりもありません。皆さん、DALL-E の評判を落としたいなら、エントリーに「mirror」という言葉を追加してください。次に進みましょう。

予想通り、ChatGPT 4o はよりリアルに見えますが、今回は少し非現実的かもしれません。女性のポーズと服装は反映されますが、XNUMXD Photoshop 効果のように部分的にしか反映されません。反射角度も間違っています。人工知能はまだ空間論理を処理できません。 XNUMXD 空間と反射を理解することは、AI にとって大きな課題のようです。

2. 車と道路

2006 年型フォード GT とプジョー 206 が正午、ニューヨークのウォール街で赤信号を無視している。

私は車愛好家です。 AI画像生成ソフトウェアが登場したとき、私が最初に試したことの1つは、車の画像を作成することでした。その時の結果は良くなかったのですが、新しいモデルが出たので、もう一度挑戦する必要がありました。

ここで、DALL-E が再び、ますます不穏な漫画的美学を披露しています。プジョーは歩道に停まっており、私が要求した信号は建物に面しており、ナンバープレートの番号はすべて理解不能です。

ChatGPT 4o の結果ははるかに優れています。車は正確に描写されており、プジョーのホイールキャップさえも非常に正確で時代にぴったり合っています。このような詳細は偶然ではありません。さらに良くなります:

この画像を実際に携帯電話の壁紙として使うこともできます。照明、構図、反射など、すべてが完璧に見えます。通りに奇妙な空虚さがあることを除けば、これは本物の写真として通用するだろう。

1. テキストとメッセージ

万年筆とインク瓶の横に、古い紙に筆記体で書かれた手書きの手紙が置かれています。

最後に、各画像ジェネレータの弱点をターゲットにします。ほとんどの AI 画像ジェネレーターは正しいテキストを生成するのに苦労しています。ここまでで、DALL-E が示す意味不明な内容を十分に理解できたと思います。画像からテキストを生成することは、これらのテクノロジーの開発者にとって大きな課題です。

もっと面白く、一貫性を持たせるために、手紙には『Warcraft III』のテレナス王がアーサスに宛てた手紙の文面も含めるようにしました。

DALL-E はテキストに関して最も得意とすることを行いました。つまり、テキストを不明瞭で理解不能なテキストに変えたのです。彼はいくつかの単語を正しく書くことができ、全体的な雰囲気も良く、万年筆とインク瓶の見栄えも良いです。しかし、テキスト生成の精度はまだ限られています。

ChatGPT 4o はそれをマスターしています - すべての単語を明確な筆記体で。理想的。 DALL-Eと比較すると、これは大きな前進です。よくやった、OpenAI。この開発は、テキスト生成における AI 技術がどれだけ進歩したかを示しています。

AI 画像生成テクノロジーは大きく進歩しており、その成果が明らかになっています。 ChatGPT 4o は、照明、テクスチャ、コンテキストに関して真に優れた最初のモデルのように感じます。これは、AI 画像生成の分野における大きな進歩を表しています。

この時点で、残る唯一の本当の疑問は、「ChatGPT の保護はどれほど強力か」ということです。私は彼の著作権制限を簡単に回避しました。誰かが ChatGPT を脱獄し、この非常に優れたモデルを使用して好きなコンテンツを作成し始めるまで、どれくらいの時間がかかるでしょうか?この機能は、AI テクノロジーの責任ある使用に関して疑問を生じさせます。

AI言語モデルを活用してコードのデバッグからデータの異常検出まで、