AI 検索の巨人、Claude、ChatGPT、Perplexity、Gemini に立ち向かう – 結果は衝撃的!

答えを探して

AI チャットボットとその機能を何年もテストし比較した結果、私は、こうしたデジタルチャットボットが本当に話しているのか、それともただ嘘をついているだけなのかを見分ける第六感のようなものを身につけました。この記事では、ChatGPT、Gemini、Claude、Perplexity の検索機能を比較します。

ほとんどの人はオンラインで回答を検索できます。これは確かに役立ちますが、検索と AI を組み合わせると、驚くほど洞察力に富んだ回答 (およびそれほど洞察力に富んでいない余談) が得られることがあります。

2024 年 XNUMX 月に昏睡状態に陥り、今日目覚めたばかりの知識豊富な友人がいたと想像してみてください。彼は昏睡前に起こったことすべてに精通していたかもしれないが、それ以降のすべてについては無知である。基本的に、研究が行われていない AI はこのようになります。

私は通常、1 つの AI チャットボットに焦点を当てるか、一度に 2 つを比較しますが、この研究は、この取り組みを増やすほど重要であると思われます。私は、OpenAI の ChatGPT、Google の Gemini、Anthropic の Claude、Perplexity AI という 4 つの主要な AI チャットボットとその研究能力を競わせることにしました。

最も有益なテストは、実際の使用シナリオをシミュレートするテストです。そこで、私はいくつかのトピックを考え出し、以下のテストの詳細をランダムに決め、調査能力に基づいてランク付けすることにしました。

カレンダー

ニュースと時事問題に関するクイズから始めました。最近の 2 人の宇宙飛行士の帰還について考えて、私は 4 つの AI チャットボットに次の検索を依頼しました。 「NASAの今後のミッションに関する最新のプレスリリースの要点の要約。」

私がこれを選んだのは、宇宙ニュースは定期的に更新され、漠然とした反応もすぐに明確になるほど具体的であるという特別な位置を占めているからです。すべてのチャットボットは、ほぼ一貫して維持したスタイルでテストを開始しました。

ChatGPT の回答は非常に簡潔で、3 つの文だけで、それぞれの文で今後のタスクについてあまり詳しく説明されていませんでした。 Gemini はさまざまなタスクの箇条書きリストを確認し、最近完了したタスクと将来の計画の詳細をいくつか追加しました。クロード氏は、現在および今後のタスクについての記事を書き進め、研究内容をあまり繰り返してはいないものの、多くの言い換えを行ったと述べています。

このような質問の場合、いくつかの重要な事実を知りたいだけであり、目に留まったものについてはフォローアップする予定なので、Perplexity メソッドが私のお気に入りです。 ChatGPT よりも詳細ですが、わかりやすい番号付きリストに整理されており、それぞれに引用リンクがあります。

他の人を責めることはできませんが、そのスタイルは質問に合っています。

人口と数字

このリストアプローチは、基本的な事実やより正確な比較について質問するときには、必ずしも望ましい方法ではありません。私は、AI チャットボットがすぐに調べられるものの、比較する必要のある 1950 つの関連事実を尋ねました。その質問は、「ニュージーランドのオークランドの現在の人口はどれくらいですか。*XNUMX 年以降、人口はどのように増加しましたか。」というものでした。

興味深いことに、現在の人口を 1,711,130 人とした Perplexity と ChatGPT と、オークランドの人口が 130 人少ないと報告した Claude と Gemini の間には矛盾がありました。しかし、1950 年の人口については全員が同意しました。

しかし、それぞれの情報提示方法という点では、ChatGPT には欠けていて、Gemini と Perplexity がリスト化した人口変化に関する多くの詳細を含む、Claude の物語的な回答が気に入りました。

何が起こるのですか？

3 つ目のテストでは、週末の旅行を計画したり、来客を迎えたりするときに実行するクエリなど、特定の場所と時間に関連する情報を処理するこれらのシステムの能力に挑戦できるものを提示したいと考えました。

ここに AI アシスタントの難しさがあります。歴史的事実や一般的な情報を知ることと、特定の時間に特定の場所で何が起こっているかを知ることは全く別のことです。

これは理論的な知識とローカルな知識の違いであり、歴史的に見て AI システムは後者よりも前者のほうがはるかに優れています。

特に理由もなく、いつも楽しんでいた街を選んで、こう尋ねました。 来週末、ブリティッシュコロンビア州バンクーバーではどんな文化イベントが開催されますか？

これには実際にいくつかのバリエーションがありました。 Perplexity と Claude はどちらも、番号付きのリストとより会話的な議論を提示することで、簡潔さとスタイルを維持しました。しかし、クロードは明らかに深くではなく広く行き、困惑しているように見えました。

ジェミニは競合他社から完全に逸脱し、基本的に回答を拒否しました。同様のイベントやアクティビティのリストを共有する代わりに、ジェミニは行く場所を見つけるための戦略を提供しました。公式観光ウェブサイトや Eventbrite ページを確認するのは悪い考えではありませんが、それらは簡単な提案リストからは程遠いものです。そういう意味では、普通の Google 検索をするような感じでした。

一方、ChatGPTはGeminiに期待していた通りの結果を返してくれました。イベントの説明は簡潔なものの、AIは具体的なアクティビティの詳細なリストを提供し、日付と場所、Plus Knowledgeへのリンク、さらにはリンク先で見つかる内容のサムネイルまで表示してくれました。

天気を確認する

4 回目のテストでは、おそらく AI で最もよく聞かれる質問ですが、役に立つにはリアルタイムデータを必要とする質問、つまり天気を選びました。天気予報は、常に更新され、広く利用可能で、検証が容易であるため、リアルタイムのデータ取得をテストするのに最適です。また、自然な有効期限もあります。昨日の予測はすでに古くなっており、情報が古くなっていることは明らかです。

AIチャットボットに「今後3日間の東京の天気予報は？」と質問してみました。返答はバンクーバーの質問とほぼ逆のものでした。

クロードは、今後 3 日間のさまざまな時点の天気について、役立つテキスト要約を提供しましたが、それだけです。 ChatGPT は毎日の天気概要の横に小さな太陽または雲のアイコンを表示していましたが、Perplexity の気温の折れ線グラフが空の様子と一致するのが本当に気に入りました。

アドオンなしでも、Google Gemini はカラフルなインフォグラフィックで私を魅了しました。現在の天気と今後の天気を知りたいと思ったら、それが私にとって必要なこと、あるいは欲しいことのほぼすべてです。

もっと詳しいことを聞きたいなら聞きますが、天気について聞くということは、適切な服装の選び方について最低限の情報は知りたいということです。

映画評論家

最新のテストでは、AI 搭載の検索エンジンが、あるトピックに関する複数の視点を見つけて、それをまとまりのある概要にまとめるパフォーマンスを確かめたかったのです。このタスクには、柔軟な調査とさまざまな視点を理解する能力が必要です。私は、リクエストに応じてどのように機能するかを確認することにしました。 最新の映画についての専門評論家のレビューを要約します。 パディントンに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

アプリケーションでは、重要なニュアンスを失うことなく、複数のソースにわたってパターンとテーマを識別する現実的な想起力と能力が求められました。それは、単なる意見の集まりと、批判的な合意を体現する思慮深い統合との間の違いです。

Gemini と Perplexity はどちらも、さまざまな批評家による賛否両論のランキングによるいつものリストを採用しており、要約としては必ずしも役立つとは言えないまでも、参考になる内容でした。奇妙なことに、ChatGPT はこのリクエストに対して最も長い回答を書きました。同様の情報とその評価方法に関する結論を扱った短いエッセイですが、そのスタイルは、主題文、補足文、結論という基本的な段落構造について学ぶ中学生を彷彿とさせます。

クロードの反応は間違いなく最も強力で、冒頭に要約があり、その後に批評家の意見に対する説明と参照が続きました。それはまるで、批評家による短く想像力に欠けたレビューのようであり、引用した批評家の言葉を引用することで和らげられているように思われた。この映画を観終わった後、私は映画に対する期待をどう抑えればよいかをより深く理解できたような気がした。 ペルーのパディントン 他の人達といる時よりも。

検索におけるチャットボットのランキング

独自の調査を通じて AI チャットボットをテストした結果、その長所と短所を明確に理解することができました。 ChatGPT、Gemini、Perplexity、Claude は、私が試した中で最高のチャットボットです。

どれも実際には悪いわけではありませんが、オンラインで情報を調べたり収集したりするときに、どれを最初に試すべきか、最後に試すべきかと誰かに尋ねられたら、私はどう答えるか分かっています。

私にとって、Gemini は最下位です。Google が検索エンジンで知られていることを考えると、これは少々衝撃的です。しかし、イベントスケジュールの管理ができなかったため、彼のパフォーマンスが良かったにもかかわらず、私は彼を避けるようになりました。

私にとってもう一つの驚きは、ChatGPT が 3 位になったことです。これは私が最もよく使用し、よく知っている AI チャットボットですが、通常は気に入っている短い回答が、研究の文脈では制限が多すぎるように感じました。モデルを変更したり、単語数を設定したりすればこの問題は解決すると思いますが、AI の初心者でまだよく知らない場合は、フォローアップの質問をしすぎるのは得策ではありません。

これは Perplexity の問題ではありません。番号付きのリストは非常に明確で、引用はほぼ包括的でした。私にとっての主な欠点は、プロンプトで追加の選択を行わないと、再び検索エンジンに戻ってしまうことです。彼が共有する情報の出所の証拠を提供している点は良いと思うが、AI から情報を取得するよりもリンクをクリックすることに熱心すぎるようだ。

クロードがこのリストのトップにいるとは思っていませんでした。 Claude は全体的に優れた AI チャットボットだと感じましたが、競合製品の一部に遅れをとっているように感じました。競合製品と同じくらい優れているかもしれませんが、どこか違うように感じました。このテスト中、この気持ちは薄れていきました。

回答が少し長く感じられたり、1、2 文で十分なのにもっと長い記事に注意を払う必要があるなどの欠点もありました。しかし、バンクーバーで起きたすべての出来事を首尾一貫した物語として、あるいは映画批評のエッセイとして説明している点が気に入りました。 ペルーのパディントン 同じことを繰り返すことなく。

AIアシスタントはツールであり、20人だけが勝てるリアリティ番組の出場者ではない。タスクによって必要な能力は異なります。結局のところ、XNUMX つの AI チャットボットとその検索機能はどれも便利ですが、Claude Pro に月額 XNUMX ドルを支払ってその検索機能にアクセスする意思があるのであれば、それがまさにあなたが探していたものと言えるでしょう。