GoogleがGemini 2.0 ProとFlash-Liteを発表、Flash ThinkingをYouTube、マップ、検索に接続

Google の大規模言語モデル (LLM) である Gemini シリーズは、約 2.0 年前に恥ずかしい誤生成画像がいくつか出て不安定なスタートを切りましたが、それ以来着実に改善され、同社は第 XNUMX 世代の取り組みである Gemini XNUMX を消費者と企業にとってこれまでで最大かつ最高のものにする意向のようです。

اليوم、発表同社は、Gemini 2.0 Flash の一般公開を発表し、Gemini 2.0 Flash-Lite を導入し、Gemini 2.0 Pro のベータ版をリリースしました。

開発者と企業をサポートするために設計されたこれらのモデルは、現在 Google AI Studio と Vertex AI を通じて利用可能で、Flash-Lite はパブリックプレビューで、Pro は早期テストで利用可能です。

「これらのモデルはすべて、発売時にテキスト出力付きのマルチメディア入力を搭載し、今後数か月でPlusメディアが一般向けに利用可能になる」と、Google DeepMindのCTOであるコレイ・チャヴクチョグル氏は発表を発表した同社のブログ記事で述べた。これは、Googleのような競合他社が参入しているにもかかわらず、Googleがもたらす優位性を示している。ディープシーク و OpenAI 強力な競争相手を立ち上げる際。

Googleはマルチメディア機能を活用している

DeepSeek-R1も OpenAIの新しいo3-miniモデルマルチメディア入力（画像、ファイルのアップロード、添付ファイルなど）を受け入れます。

R1 モデルは、ウェブサイトやモバイルチャットアプリでこれらの写真や動画を受け入れることができますが、アップロードされた写真や動画からテキストのみを抽出するために 60 年以上前の技術である光学式文字認識 (OCR) を使用し、写真や動画内のその他の特徴を理解したり分析したりすることはありません。

しかし、どちらも、回答を考え、「思考の連鎖」と回答の妥当性について熟考するために意図的に時間をかける、新しい種類の「思考」モデルを表しています。これは、Gemini 2.0 プロシリーズのような一般的な大規模言語モデルとは対照的であり、Gemini 2.0 を DeepSeek-R1 および OpenAI o3 と比較するのは、リンゴとオレンジを比較するようなものです。

しかし、今日はGoogleからも思考面でのニュースがありました。GoogleのCEOであるサンダー・ピチャイは、 Xプラットフォームアプリケーションアップデートについて Google ジェミニ Gemini 2.0 Flash Thinking を搭載した iOS および Android の携帯電話向け。このモデルは Google マップ、YouTube、Google 検索に接続できるため、DeepSeek や OpenAI などの新しい競合他社がこれらのサービスなしでは実現できない、まったく新しい一連の AI を活用した検索とインタラクションが可能になります。

この記事を書いている間に、iPhone の Google Gemini iOS アプリで簡単に試してみたのですが、最初の問い合わせに基づくと、過去 10 か月で最も多く視聴された YouTube 動画トップ XNUMX の類似点を見つけ、近くの診療所のリストとその開院時間と閉院時間をすべて数秒以内に表示してくれたので、感銘を受けました。

Gemini 2.0 Flash 公開リリース

当初ベータ版としてリリースされたGemini 2.0 Flashモデルは、 12月に、現在生産準備完了です。

非常に効率的な AI アプリケーション向けに設計されており、低遅延の応答を実現し、大規模なマルチモーダル推論をサポートします。

競合製品に対する主な優位性の 1 つは、コンテキストウィンドウ、つまり、ユーザーがインセンティブに追加して、LLM を利用したチャットボットまたは API との 1 回のやり取りで受け取ることができるトークンの数です。

先週デビューした OpenAI の新しい o3-mini など、多くの主要モデルが 200000 万トークン以下 (400 ～ 500 ページの小説に相当) をサポートしているのに対し、Gemini 2.0 Flash は XNUMX 万トークンをサポートしているため、膨大な量の情報を処理でき、特に高頻度で大規模なタスクに役立ちます。

Gemini 2.0 Flash-Lite: 低コストのAIソリューション

Gemini 2.0 Flash-Lite は、品質を損なうことなくコスト効率の高い AI ソリューションを提供することを目的とした、まったく新しい大規模言語モデルです。

Google DeepMind は、Flash-Lite が、価格と速度はそのままに、MMLU Pro (1.5% vs. 77.6%) や Bird SQL (67.3% vs. 57.4%) などの外部ベンチマークで、フルサイズ (よりパラメータ化された) の前身である Gemini 45.6 Flash よりも優れていると報告しています。

また、マルチメディア入力もサポートしており、完全な Flash モデルと同様に、100 万トークンのコンテキストウィンドウを備えています。

Flash-Lite は現在、Google AI Studio および Vertex AI を通じてパブリックプレビューとして利用可能で、今後数週間以内に一般公開される予定です。

下の表に示すように、Gemini 2.0 Flash-Lite の価格は、0.075 万トークンあたり 0.30 ドル (入力)、1.5 万トークンあたり XNUMX ドル (出力) です。 Flash-Lite は開発者にとって非常に手頃なオプションであり、同じコスト構造を維持しながら、ほとんどのベンチマークで Gemini XNUMX Flash を上回ります。

ローガン・キルパトリックは、ジェミニ2.0フラッシュモデルのコストと価値を強調した。 Xプラットフォームの男性「Gemini 2.0 Flash は、あらゆる LLM モデルの中で最も価値の高いモデルです。今すぐ構築しましょう!」

実際、プロバイダAPIを通じて利用できる他の主要な従来のLLMモデル（例えば、 OpenAI 4o-mini （0.15万I/Oトークンあたり0.6ドル/XNUMXドル）、およびアントロピック・クロード (0.8 万 I/O トークンあたり $4/$3!)、DeepSeek の従来の LLM V0.14 ($0.28/$2.0) と比較しても、Gemini XNUMX Flash は最もコストパフォーマンスに優れているようです。

Gemini 2.0 Proベータ版がコンテキストウィンドウに2万個のアイコンを搭載して登場

より高度な AI 機能を必要とするユーザー向けに、Gemini 2.0 Pro (ベータ) モデルのテストが利用可能になりました。

Google DeepMind は、このモデルをプログラミングパフォーマンスと複雑なプロンプトを処理する能力において最も強力なモデルであると説明しています。 2 万文字のコンテキストウィンドウと強化された推論機能を備え、Google 検索やコード実行などの外部ツールを統合する機能も備えています。

レッドドラゴンAIの共同創業者兼CEOであり、Googleの外部機械学習開発専門家で、VentureBeatと頻繁に協力しているサム・ウィッテヴェーン氏は、次のように語った。 YouTubeレビューのプロモデル。「新しい Gemini 2.0 Pro モデルには、1.5 万アイコンのコンテキストウィンドウがあり、ウィジェット、コード実行、関数呼び出し、Google 検索との統合をサポートしています。Pro XNUMX のすべての機能が向上しています。」

彼はまた、AI開発に対するGoogleの反復的なアプローチを指摘し、「Googleの戦略の重要な違いの1つは、モデルが一般公開（GA）される前にベータ版をリリースし、フィードバックに基づいて迅速な反復を可能にしていることです。」

パフォーマンスベンチマークにより、Gemini 2.0 モデルファミリの機能をさらに実証します。たとえば、Gemini 2.0 Pro は、推論、多言語理解、長いコンテキストの処理などのタスクにおいて Flash や Flash-Lite よりも優れたパフォーマンスを発揮します。

AIの安全性と将来の発展

これらのアップデートに加えて、Google DeepMind は Gemini 2.0 モデルに新たな安全性とセキュリティ対策を実装しています。同社は強化学習技術を活用して応答精度を向上させ、人工知能を使用して出力を批評および改善しています。さらに、間接的なクレームインジェクションの脅威を含む脆弱性を特定するために、自動化されたセキュリティテストが使用されます。

今後、Google DeepMind は Gemini 2.0 モデルファミリの機能を拡張する予定で、テキスト以外の追加手法が今後数か月以内に一般提供される予定です。

Google はこれらのアップデートにより AI 開発への取り組みを強化し、効率性、手頃な価格、高度な問題解決を目的に設計されたモデルスイートを導入し、強力なものから非常に強力なもの、非常に手頃な価格からやや安価なもの (それでも手頃な価格) まで、独自のモデルスイートで DeepSeek の台頭に応えています。

これは、以前は OpenAI が独占し、現在は DeepSeek が独占しているエンタープライズ AI 市場に Google が参入するのに十分でしょうか?引き続き、追ってお知らせいたします！

上司に良い印象を残したいなら、VB Daily が役に立ちます。組織変革から実際の導入まで、企業が生成 AI で何を行っているかについて内部情報を提供し、ROI を最大化するための洞察を共有できるようにします。