DeepSeek は自己改善モデルによる次の AI 革命に備えています。

ほんの数ヶ月前、ウォール街のジェネレーティブAIへの大きな賭けは、それが登場した時に決定的な瞬間を迎えた。ディープシーク現場にて。オープンソースの DeepSeek は、その高度に制御された性質にもかかわらず、画期的な推論 AI モデルは必ずしも数十億ドルを必要とせず、適度なリソースで実現できることを証明しました。これは、高度な AI モデルの開発に関する私たちの理解における大きな変化を表しています。

Huawei、Oppo、Vivoなどの大企業によってすぐに商業的に採用され、Microsoft、Alibaba、Tencentなどの企業もすぐに自社のプラットフォームにこれを組み入れました。現在、話題の中国企業の次のターゲットは、ループする「判断・報酬」アプローチを使用して自己改善する AI モデルです。この傾向は、企業がより効率的かつ効果的な AI システムの開発を継続的に追求していることを反映しています。

プレプリント論文（ブルームバーグDeepSeekと中国の清華大学の研究者らは、自己改善的な方法でAIモデルをよりスマートかつ効率的にできる新しいアプローチについて説明している。基礎となる技術は「自己原理的批判的制御」(SPCT) として知られており、このアプローチは技術的には「生成的報酬モデリング」(GRM) として知られています。このアプローチは、人工知能の強化学習の分野における重要な進歩を表しています。

簡単に言えば、リアルタイムのフィードバックループを作成するようなものです。 AI モデルは主に、トレーニング中にモデルサイズを拡張することによって改善されます。これには多くの人的労力と計算リソースが必要です。 DeepSeek は、ユーザーのクエリに対する回答を準備する際に、主要な「仲裁者」が AI モデルに対する独自の批判と原則のセットを作成するシステムを提案しています。このアプローチは、トレーニングプロセスにおける集中的な人的リソースへの依存を減らすことを目的としています。

この一連の批判と原則は、AI モデルの中心にある確立されたルールと望ましい結果と比較されます。一致度が高い場合、報酬信号が生成され、次のラウンドでより良いパフォーマンスを発揮するように AI に効果的に指示します。この評価と報酬の継続的なプロセスにより、モデルの学習能力と適応能力が向上します。

その専門家は次のように指摘している。研究論文 DeepSeek-GRM と呼ばれる次世代の自己改善型 AI モデルへ。論文に含まれるベンチマークによれば、これらのモデルは Google の Gemini、Meta の Llama、OpenAI の GPT-4o よりも優れたパフォーマンスを発揮することがわかります。 DeepSeekは、これらの次世代AIモデルはオープンソースでリリースされる予定だと述べています。このオープン性への取り組みにより、AI におけるイノベーションのペースを加速することができます。

自己改善型 AI: それは可能か?

自己改善が可能な人工知能というアイデアは、野心的で物議を醸す議論を巻き起こした。元Google CEOのエリック・シュミット氏は、このようなシステムには「オフスイッチ」が必要になるかもしれないと述べています。そしてそれは移管されたフォーチュンシュミット氏は、「システムが自ら改善できる場合、その電源を切ることを真剣に検討すべきだ」と語った。自己改善型 AI システムは、AI 分野における最も重要な開発の 1 つです。

反復的に自己改善する AI の概念はまったく新しいものではありません。より優れた機械を作ることができる超知能機械のアイデアは、戻る 1965年に数学者のI.J.グッドが提唱した。2007年に人工知能の専門家であるエリエゼル・ユドコウスキーは、シードAI「自己理解、自己修正、そして反復的な自己改善のために設計された」人工知能。

2024年に日本のサカナAI社は、概念「AI World」は、研究論文の制作ライン全体を最初から最後までナビゲートできるシステムに関するものです。そしてシート今年3月に発表された研究論文の中で、Metaの専門家は、トレーニング中にAI自身が報酬を与える審査員として機能する自己報酬型言語モデルを公開した。自己学習型 AI システムへの移行は、人工知能の開発におけるパラダイムシフトを表しています。

マイクロソフトCEOのサティア・ナデラ氏は、AI開発はOpenAIのO1モデルによって最適化されており、再帰的な段階に入ったと述べた。「私たちはAIを使ってAIツールを構築し、より優れたAIを構築しています。」 pic.twitter.com/IHuFIpQl2C

— ツァラトゥストラ (@tsarnick) 2024 年 10 月 21 日

革新的な自己報酬技術を使用したMetaのLlama 2 AIモデルの社内テストでは、AnthropicのClaude 2、GoogleのGemini Pro、OpenAIのGPT-4モデルなどの競合モデルよりも優れた性能を示した。 Amazonの支援を受けたAnthropic 提供された詳細彼女が報酬操作と呼ぶものは、「モデルが自身の報酬メカニズムを直接修正する」予測不可能なプロセスです。

Google もこのアイデアに遅れをとってはいない。ジャーナルに掲載された研究では自然今月初め、Google DeepMindの専門家はMinecraftを練習例として使い、自己改善できるDreamerと呼ばれるAIアルゴリズムを実演した。

作品 IBMの専門家推論閉包トレーニングと呼ばれる独自のアプローチでは、AI モデルが独自の応答を使用し、それをトレーニングデータと比較して評価することで、AI モデル自体を改善します。しかし、仮説全体がすべて肯定的というわけではありません。

研究によると、AI モデルが自己生成の合成データでトレーニングしようとすると、「モデルクラッシュ」と呼ばれる欠陥が発生するそうです。 DeepSeek がこのアイデアをどのように実現するのか、そして欧米の競合他社よりも経済的な方法で実現できるかどうかを見るのは興味深いでしょう。

ディープシーク