OpenAIは、o3-mini向けの詳細な思考追跡技術でDeepSeekの競争に対抗

OpenAIは、最新の思考モデル「o3-mini」の推論プロセスに関する詳細を公開しました。この変更は、 Xプラットフォーム上のOpenAIのアカウントこれは、AI ラボが、思考コードを完全に表示する競合オープンソースモデルである DeepSeek-R1 からの圧力の高まりに直面している中で起こった。

o3 や R1 のようなモデルは、長い「アイデアの連鎖」(CoT) プロセスを経ます。このプロセスでは、追加のコードを作成し、問題を分解し、さまざまな答えを考え、テストし、最終的な解決策に到達します。これまで、OpenAI の推論モデルは思考プロセスを隠し、推論手順の概要のみを提供していました。これにより、ユーザーや開発者がモデルの推論を理解し、指示やプロンプトを変更して正しい方向に導くことが困難になりました。

OpenAI はアイデアパイプラインを競争上の優位性とみなし、競合他社がそれをコピーしてモデルをトレーニングするのを防ぐためにそれを隠しました。しかし、R1や他のオープンソースモデルは完全な推論プロセスを実証しているため、透明性の欠如はOpenAIにとって欠点となっている。

新しい o3-mini は、Ideas シリーズのより詳細なバージョンを示しています。最初のシンボルはまだ見えませんが、思考プロセスについてより明確な情報を与えてくれます。

なぜこれがアプリケーションにとって重要なのでしょうか?

O1 モデルと R1 モデルを使用した以前の実験では、O1 モデルの方がデータ分析と推論の問題の解決にわずかに優れていることがわかりました。しかし、大きな制限は、モデルがなぜエラーを起こしたのかを知る方法がなかったことです。また、Web から取得した乱雑な現実世界のデータに直面すると、モデルがエラーを起こすことがよくありました。一方、R1 の思考プロセスにより、問題のトラブルシューティングが可能になり、プロンプトを変更して思考を改善することができました。

たとえば、ある実験では、どちらのモデルも正しい答えを出すことができませんでした。しかし、R1 の詳細な分析のおかげで、問題はモデル自体ではなく、Web から情報を収集する検索段階にあることが判明しました。他の実験では、R1 の思考の流れは、私たちが提供した情報を分析できなかったときにヒントを提供することができましたが、O1 は、彼女がどのように返答を組み立てるかの非常に大まかな概要を提供しました。

私たちは、o3 で行った以前の実験のバリエーションで、新しい o1-mini モデルをテストしました。私たちは、2024 年 2025 月から 140 年 7 月までのさまざまな株価を含むテキストファイルをモデルに提供しました。ファイルは乱雑でフォーマットされておらず、プレーンテキストと HTML 要素が混在していました。次に、2024 年 2025 月から 7 年 XNUMX 月まで、毎月 XNUMX 日に Magnificent XNUMX 銘柄に XNUMX ドルを投資し、すべての銘柄に均等に分散させたポートフォリオの価値をモデルに計算させました (より難しくするために、プロンプトでは「Magnificent XNUMX」という用語を使用しました)。

今回はo3-miniシリーズのアイデアが本当に役に立ちました。まず、モデルは Mag 7 が何であるかを考え、関連する株式のみを保持するようにデータをフィルタリングし (問題を難しくするために、Mag 7 以外の株式もいくつかデータに追加しました)、各株式に投資する月間金額を計算し、最終的な計算を行って正しい答えを出します (モデルに入力したデータの最後の記録時点で、ポートフォリオの価値は約 2200 ドルになります)。

OpenAIはまだ多くの詳細を公表していないため、新しいアルゴリズムの限界を見極めるにはさらなるテストが必要です。しかし、初期のテストでは、新しい形式の方がより有用であるように思われます。

これはOpenAIにとって何を意味するのでしょうか?

DeepSeek-R1 がリリースされたとき、OpenAI の推論モデルに比べて XNUMX つの明らかな利点がありました。それは、オープンソースであること、低コストであること、そして透明性があることです。

それ以来、OpenAI はそのギャップを埋めることができた。 o1 は採掘されたトークン 60 万個あたり 3 ドルかかりますが、o4.40-mini はわずか 1 ドルで、多くのベンチマークで o1 を上回っています。 R7 のコストは、米国のプロバイダーで発行されるトークン 8 万個あたり約 1 ～ 2.19 ドルです。 (DeepSeek は自社サーバーで採掘されたトークン XNUMX 万個あたり XNUMX ドルで RXNUMX モデルを提供していますが、中国でホストされているため多くの組織では使用できないでしょう。)

CoT 出力の新たな変更により、OpenAI は透明性の問題をある程度克服することができました。

OpenAI がモデルをオープンソース化することに関してどのような措置を取るかはまだ分からない。 R1 はリリース以来、すでにさまざまな研究所や企業に採用され、展開され、ホストされており、企業にとって好ましい思考モデルとなる可能性を秘めています。 OpenAIのCEOサム・アルトマン氏は最近、オープンソースの議論において「歴史の間違った側にいた」ことを認めた。この実現が将来の OpenAI リリースにどのように反映されるかを見守る必要があります。