クロードAIは会話を終了する能力を持つようになりました。これは、極端な状況に対処するための新しいメカニズムです。

ここ数ヶ月、アントロピックは安全性への取り組みを強化し、AIをより安全にするための機能の実装や研究を行ってきました。最新の機能はクロードこれはこれまでで最も特徴的な機能の 1 つです。

Claude Opus 4と4.1（Anthropicの最新バージョン）の両方に、ユーザーのチャットインターフェースで会話を終了できる機能が追加されました。この機能は広く利用されることはないものの、「継続的に有害または虐待的なユーザーインタラクション」という稀で極端なケースのために実装されています。

في 新機能を紹介するブログ記事「Claudeやその他の大規模言語モデルの倫理的地位については、現在そして将来においても、依然として大きな不確実性があります」とAnthropicチームは述べています。「しかしながら、私たちはこの問題を非常に真剣に受け止めています。」

アントロピック社の最新モデルの発売に先立つテストでは、モデルの福祉に関する評価が行われました。これにはクロードの自己申告と行動の好みの調査も含まれており、クロードは一貫して強い危害嫌悪を示していることが分かりました。

Claudeやその他の大規模言語モデルの倫理的地位については、現在そして将来においても依然として不確かな点が多くありますが、私たちはこの問題を真剣に受け止めています。

人間原理

言い換えれば、クロードはこれらの会話を事実上遮断するか、参加を拒否することになります。これには、未成年者を巻き込んだ性的コンテンツのユーザーリクエストや、広範囲にわたる暴力やテロ行為を可能にする可能性のある情報の要求などが含まれます。

こうしたケースの多くでは、クロード氏が積極的に拒否したにもかかわらず、ユーザーは有害または虐待的な要求を執拗に続けました。クロード氏が効果的に会話を終了できるようにするこの新機能は、こうした状況において一定の保護を提供することを目指しています。

Anthropic は、この機能はユーザーが自分自身または他人に危害を加える差し迫った危険がある状況では適用されないと説明しています。

「いずれの場合も、Claude は、リダイレクトの試みが複数回失敗し、生産的なやり取りの望みが完全に失われた場合、またはユーザーが Claude にチャットの終了を明示的に要求した場合にのみ、最後の手段として会話を終了する機能を使用する必要があります」と、Anthropic チームはブログ投稿で続けています。