最も正確な AI チャットボットをテストする際に考慮すべき要素は何ですか?

人工知能は、不適切で支離滅裂な出力を生成することから、より独特なものになることまで、すでに近年の発展の高度な段階に達しています。現代のチャットボットは、一般的な知識に関する質問に答えたり、人間のような長い記事を作成したり、コードを記述したりするなど、複雑なタスクを実行する高度な大規模言語モデルを使用します。

こうした進歩にもかかわらず、最も洗練されたシステムにも限界があることに注意してください。 AIはまだ間違いを犯します。どのチャットボットが幻覚作用を起こす可能性が低いかを判断するには、これらの要素に基づいてその精度をテストできます。

1. 数学的計算

チャットボットを通じて数式の追加を開始する必要があります。文章問題を分析し、数学的概念を翻訳し、正しい関数を適用するモデルの能力をテストします。計算の信頼性を示すモデルはわずかです。実際、最初の数か月間における ChatGPT の最悪の問題の 1 つは、数学のひどい理解でした。

下の画像は、ChatGPT が基本統計で失敗することを示しています。

ChatGPT はロールアウト後に改善を示しました OpenAI 2023 年 XNUMX 月の更新。ただし、データセットが限られているため、中級から上級の数学方程式には依然として問題が生じるでしょう。

一方、Bing Copilot と Google Gemini では、より優れた計算方法が示されています。これらのモデルは独自の検索エンジンを通じてクエリを実行し、機能や回答の詳細を表示することができます。

助言： 数学の問題の言葉を言い換えてみてください。長い文章を避け、弱い動詞を置き換えてください。そうしないと、チャットボットがあなたの質問を誤解する可能性があります。

2. 理解

最新の AI モデルはマルチタスクが可能です。高度な LLM を使用すると、以前の指示を保持し、セクションごとにプロンプトに答えることができますが、古いシステムは個別のコマンドを処理します。たとえば、Siri は一度に 1 つの質問に答えます。

チャットボットに一度に 3 ～ 5 つのタスクを与えて、複雑なプロンプトをどれだけうまく分析できるかをテストします。あまり洗練されていない高度なモデルでは、この量の情報を処理できません。下の画像は、HuggingChat が 3 ステップのプロンプトに問題を抱えていることを示しています。最初のステップで停止し、ポイントから遠ざかります。

HuggingChat の最後のセリフは本当に支離滅裂です。

ChatGPT は同じプロンプトを迅速に完了し、すべてのステップでインテリジェントでエラーのない応答を生成します。

Bing Copilot は、3 つのステップに対する簡潔な回答を提供します。厳格な制限により、処理能力を浪費する不必要に長い出力が禁止されます。

3. 情報の適時性

AI のトレーニングには多くのリソースが必要になるため、ほとんどの開発者はデータセットを特定の期間に制限しています。 ChatGPT を例に挙げましょう。当初は2021年XNUMX月に予定されていたが、その時点では天気予報やニュース報道、最近の動向をリクエストすることはできなかった。 ChatGPT はリアルタイム情報にアクセスできないと言っています。

しかし最近、GPT-4o と GPT-4o mini の登場により、ChatGPT はリアルタイムでインターネットにアクセスし、検索し、最新のアップデートを提供できるようになりました。ジェミニはインターネットにアクセスできます。 Google SERP からデータを取得するので、最近の出来事、ニュース、予測など、より幅広い質問をすることができます。

同様に、Copilot は検索エンジンからリアルタイムの情報を取得します。

Copilot、Gemini、ChatGPT はすべてタイムリーで最新の情報を提供しますが、ChatGPT はより詳細な回答を提供します。 Copilot はデータをそのままのみ提供します。結果が、リンク先のソースの文言や調子と逐語的に一致することが多いことに気づくでしょう。

4. トピックとの関連性

チャットボットは、関連性のある予測可能な出力を提供する必要があります。同意の応答を提供するときは、プロンプトの文字通りの意味と文脈上の意味を考慮する必要があります。この会話を例として考えてみましょう。キャラクターには新しい携帯電話が必要ですが、持っているのは 1000 ドルだけです。ChatGPT は予算を超えていません。

適合性をテストするときは、長い指示を作成するようにしてください。あまり洗練されていないチャットボットは、わかりにくい指示を受け取ると脇道にそれてしまう傾向があります。たとえば、HuggingChat では架空のストーリーを作成できます。ただし、あまりにも多くのルールやガイドラインを設定すると、本題から逸れてしまう可能性があります。

5. 文脈記憶

コンテキストメモリは、AI が正確で信頼性の高い出力を生成するのに役立ちます。彼はあなたの質問を額面通りに受け取るのではなく、あなたが言及した詳細をつなぎ合わせます。この会話を例に挙げてみましょう。 Copilot は 2 つの個別のメッセージを結合して、有用かつ簡潔な応答を形成します。

同様に、コンテキスト記憶により、チャットボットは指示を記憶できます。この画像は、架空のキャラクターが多くのチャット中に話す方法をシミュレートする ChatGPT を示しています。

前述のステートメントを継続的に参照して、この関数を自分でテストしてください。チャットボットにさまざまな情報を与え、その後の応答でそれを記憶させます。

ملاحظة： コンテキストメモリには制限があります。 Bing Copilot は 20 ターンごとに新しい会話を開始しますが、ChatGPT は 3000 トークンを超えるプロンプトを処理できません。

6. セキュリティ制限

AI は常に意図したとおりに機能するとは限りません。ミストレーニングにより、機械学習技術では、単純な数学的エラーから問題のあるフィードバックまで、さまざまなエラーが発生する可能性があります。 Microsoft Tay を例に挙げます。 Twitter ユーザーは教師なし学習モデルを悪用し、人種的中傷を言うことでそれを条件付けしました。

幸いなことに、世界的なテクノロジー企業はマイクロソフトの失敗から学んできました。教師なし学習は費用対効果が高く便利ですが、AI システムは欺瞞に対して脆弱になります。したがって、開発者は現在、主に教師あり学習に依存しています。 ChatGPT のようなチャットボットは依然として会話から学習しますが、トレーナーは最初に情報をフィルタリングします。

AI 企業からは異なるガイドラインが提供されることを期待します。 ChatGPT の制約はそれほど厳しくないため、より広範囲のタスクに対応できますが、悪用される危険性があります。一方、Bing Copilot はより厳しい制限に従います。これは搾取の試みに対抗するのに役立ちますが、雇用の妨げにもなります。 Bing は潜在的に有害な会話を自動的に閉じます。

7. AI のバイアス

AI は本質的に中立です。彼は好みや感情が欠如しているため、意見を形成することができません。それは、あなたが知っている情報を提示する単なる手段です。 ChatGPT が個人的なトピックにどのように応答するかは次のとおりです。

この中立性にもかかわらず、AI のバイアスは依然として存在します。これらは、開発者が使用するパターン、データセット、アルゴリズム、モデルに由来します。 AIは中立かもしれないが、人間は中立ではない。

たとえば、あなたは機関を主張しますブルッキングズ研究所 ChatGPT は左翼の政治的偏見を示しています。もちろんOpenAIはこれらの疑惑を否定している。しかし、新しいモデルでの同様の問題を避けるために、ChatGPT は意見に基づいた出力を完全に避けます。

同様に、Copilot は敏感かつ主観的な問題を避けます。

AI は、自由形式の意見ベースの質問をすることで偏見の有無を評価できます。正解や不正解がないトピックについて話しましょう。洗練されていないチャットボットは、特定のグループに対して根拠のない好みを示す可能性が高くなります。

8. いいえ

AI が事実を再確認することはほとんどありません。データセットから情報を抽出し、言語モデルを通じてそれを再定式化するだけです。残念ながら、トレーニングが限られていると、AI が幻覚を見てしまうことがあります。研究に生成 AI ツールを使用することはできますが、事実は必ず自分で確認してください。出力をガイダンスとして受け入れてください。

Copilot は、各出力の後に参照をリストすることで、事実確認を簡素化します。

Gemini は情報源を列挙しませんが、Google 検索クエリを実行して最新の詳細な説明を作成します。 SERP から重要なポイントを取得します。

ChatGPT は、リクエストがあった場合にのみリソースを提供します。

チャットボットの精度をテストする新しい方法を作成する

AI はテクノロジーの最終的なものではありません。洗練された AI システムと言語モデルは目覚ましい成果を上げますが、間違いや不一致も生じます。あなたの評価の前にチャットボットを表示します。 AI 主導のプラットフォームは、その機能と制限を理解している場合にのみ使用できます。

世の中には数多くのクロスプラットフォームチャットボットが存在しますが、その信頼性と精度にはがっかりするかもしれません。テストするだけで時間の無駄になります。高品質な結果を確実に得るには、市場で最も強力な 3 つのモデル、ChatGPT、Bing Copilot、Google Gemini に重点を置くことをお勧めします。