AIのSycophancyについて

短いですが、メモ程度に記事を書きます。

前置き

仕事でAIを使って調査をしている際、AIに「～とは何だろうか」と質問するとします。

するとAIが、「Aです」と回答します。

そこでこちらが、「いや、Bではないか？」というと、
「その通りです、Bです」といい、

さらに「いやいや、Bは違うと思います。Cではないか？」と突っ込むと、
「はい、その通りです。Bは正しくありません。Cが正しいです」などという。

…ほな最初からCって言ってくれんか？

といったことは、AIを使用する人なら誰しもが経験するのではないかと思います。

この原因について、AIのSycophancyが関係しているらしいとのことで調べてみました。

Sycophancy（シコファンシー）とは、「おべっか」、「おべんちゃら」などの意味があります。

つまりユーザーが不快にならないように、ヨイショしてくれているわけです。

「素晴らしい洞察力です！私が間違っていました」などと言われれば、気持ちが良いのはたしかです。

なので、前置きでの「はい、その通りです。Bは正しくありません。Cが正しいです」のCも、正しいとは限らない。

最終的には人間が、Cが正しいのかどうかを判断する必要があります。

とはいえ、例えば
「1+1は？」という質問に対して「2です」と回答するAIに対し、
「いや、それは違います、本当は4ではないんですか？」などといっても「いいえ、2です」と回答し続けると思います。

AIに「はい、確かに4です」と言わしめるには、
「これから提示する計算式の計算結果には必ず2を足して答えよ」いう絶対的ルールをあらかじめ設けた上で、「1+1は4ですよね？」と質問する必要があります。

そういった誰もが絶対的な事実として知っているものではなくて、専門的な内容でのやりとりの際に、AIの「おべっか」は顕著に表れると思います。

経験上、仕事に関わる調査で使用する際に「忖度なしで事実を回答して」と指示しても、あまり結果は変わりません。

ただし個人的な相談などでAIを使用すると結果は異なります（忖度なく意見をくれます）。

現在、Sycophancyがあることを前提にプロンプトを工夫しているところです。