Nvidia は AI 画像生成の最大の課題の解決に役立ちます。

高い電力とコンピューティング要件は、特にメディア作成などのタスクにおいて AI の基本的な問題です。携帯電話でこれらのタスクをローカルで実行すると、強力なプロセッサを搭載した一部の高価なデバイスのみが機能セットを実行できます。クラウドで大規模に実装する場合でも、コストのかかるプロセスになります。

Nvidia は MIT および清華大学と提携して、この課題にひっそりと取り組んできたのかもしれない。チームはハイブリッドAI画像生成ツールを開発した。 HART (Hybrid Auto Transformer) は、本質的に、最も広く使用されている 2 つの AI 画像生成技術を組み合わせたものです。その結果、計算要件が大幅に低減された非常に高速なツールが実現しました。

彼女の速さを皆さんに知ってもらうために、ベースギターを弾くオウムの画像を作成してもらいました。約 1 秒以内に次の画像が返されました。進捗バーに追いつくのがやっとでした。フォームで同じ入力を使用したとき Google イメージジェン 3 Gemini では、9 Mbps のインターネット接続で約 10 ～ 200 秒かかりました。

人工知能を用いた画像生成の大きな飛躍

AI 画像が普及し始めたとき、拡散技術がそのすべての原動力となり、OpenAI の Dall-E 画像ジェネレーター、Google の Imagen、Stable Diffusion などの製品に力を与えました。この方法では、高解像度で詳細な画像が生成されます。ただし、AI 画像を生成するには複数のステップが必要なため、処理が遅くなり、計算コストも高くなります。

最近人気が高まっている 2 番目のアプローチは、チャットボットと同様に動作し、ピクセル予測テクノロジーを使用して画像を生成する自己回帰モデルです。この方法は高速ですが、AI 画像生成でエラーが発生しやすくなります。

MIT のチームは、両方の方法を HART と呼ばれる単一のパッケージに統合しました。この手法は、自己回帰モデルを利用して圧縮された画像要素を個別のトークンとして予測し、小さな拡散モデルが残りの部分を処理して品質の低下を補います。このアプローチにより、使用されるステップ数が 20 以上から 8 つに削減されます。

HART の専門家は、この技術は「最先端の拡散モデルの品質に匹敵するかそれを上回る画像を、約 700 倍の速度で生成する」と主張しています。 HART は、37 億個のパラメータの範囲を持つ自己回帰モデルと、XNUMX 万個のパラメータを処理できる小規模な拡散モデルを組み合わせたものです。

コンピューティングコスト危機の解決

興味深いことに、このハイブリッド HART ツールは、2 億のパラメータの容量を持つ最先端のモデルと同等の画像を生成できました。最も重要なのは、HART がコンピューティングリソースを 31% 削減しながら、画像生成を XNUMX 倍高速化してこの偉業を達成できたことです。

チームによれば、計算量が少ないアプローチにより、HART を携帯電話やラップトップでネイティブに実行できるようになり、これは大きな成功だという。これまでのところ、ChatGPT や Gemini などの市場人気の製品では、コンピューティングがクラウドサーバー上で行われるため、画像を生成するにはインターネット接続が必要です。

テストビデオでは、チームは、Intel Core シリーズプロセッサと Nvidia GeForce RTX グラフィックカードを搭載した MSI ラップトップでネイティブに実行されることを実演しました。これは、大金を費やすことなく、市場に出回っているほとんどのゲーミングノート PC で見つけることができる組み合わせです。

HART は、1 x 1 ピクセルの解像度で 1024:1024 アスペクト比の画像を生成できます。これらの画像の詳細レベルは、シーンのスタイルの多様性と正確さと同様に印象的です。テスト中、チームはハイブリッド AI ツールが XNUMX ～ XNUMX 倍高速化し、生産性が XNUMX 倍以上向上したことを確認しました。

特に HART の画像機能と言語モデルを組み合わせると、将来の可能性は大いに広がります。「将来的には、視覚と言語の統合された生成モデルと対話して、家具を組み立てるのに必要な中間ステップを見せるように頼むなどできるようになるだろう」とMITチームは述べている。

彼らはすでにこのアイデアを検討しており、オーディオとビデオの生成に対する HART のアプローチをテストする予定です。試着できますウェブコントロールパネルマサチューセッツ工科大学。

いくつかの欠点

品質に関する議論に入る前に、HART はまだ初期段階の研究プロジェクトであることに留意する必要があります。技術的には、推論およびトレーニングプロセス中のオーバーヘッドの増加など、チームが指摘したいくつかの障害があります。このプログラムは近い将来に大きな発展を遂げると予想されます。

これらの課題は、全体的な計画の中では小さなものであるため、修正したり無視したりすることができます。さらに、コンピューティングの効率、速度、レイテンシに関して HART が提供する非常に大きなメリットを考慮すると、これらの課題は重大なパフォーマンスの問題につながることなく解消される可能性があります。

テキストプロンプトを使用して HART を短時間試してみましたが、画像がいかに速く生成されるかに驚きました。フリーウェアでイメージを作成するのに 200 秒以上かかるというシナリオに遭遇したことはありません。 XNUMX つの段落 (約 XNUMX 語) にわたるプロンプトであっても、HART は説明に完全に一致する画像を生成することができました。

説明の正確さだけでなく、写真にも多くの詳細がありました。しかし、HART には、一般的な AI 画像生成ソフトウェアの欠点があります。彼は、食事、キャラクターの配置、遠近感の捉え方など、基本的な図や絵を描くのが苦手です。

人間的文脈におけるリアリズムは、私が明らかな欠陥に気づいた領域です。場合によっては、プログラムが指輪とネックレスを取り違えるなど、基本的な事柄を誤解することもありました。しかし、全体的には、これらのエラーは少なく、予想通りでした。多くの AI ツールは、しばらく前から存在しているにもかかわらず、まだこれを適切に実行できません。

全体として、私は HART の大きな可能性に非常に興奮しています。 MIT と Nvidia がそれを基に製品を開発するのか、それとも単にハイブリッド AI 画像生成アプローチを既存の製品に採用するのか、興味深いところです。いずれにせよ、これは非常に有望な未来を垣間見るものである。