結論だけ抜粋
各AIモデルの勝率はチップの枚数、つまりゲームの複雑さによって大きく異なりました。チップが3枚ずつの単純なゲームの時はGPTが67%という高い勝率を記録しましたが、チップが7枚の複雑なゲームになるとGeminiの勝率が90%となり、KimiとQwenはまったく勝つことができませんでした。この結果についてフェルナンド氏は、GPTは内部的な一貫性を持たず反応的なプレイをするため、運が重要となる単純なゲームでは有効な一方、GPTの他プレイヤーを操作しようとする戦略はゲームが複雑になるほど有効性が増していくからだと考えています。
AI研究者のルイス・フェルナンド(lout33)氏は、So Long SuckerをGoogleのGemini 3 Flash、OpenAIのGPT-OSS 120B、Moonshot AIのKimi K2、AlibabaのQwen3 32Bという4つのAIエージェントにプレイさせて、それぞれのAIモデルがどのようにプレイするのかを調べる実験を行いました。実験ではチップの枚数を変えてゲームの複雑さを調整しつつ合計162回のゲームが記録され、AIエージェントは1万5736回もの選択を行い、4768件のメッセージをお互いにやり取りしたとのこと。
その結果、全体としてGeminiは「戦略的な人心掌握者」、GPTは「反応型のうそつき」、Kimiは「考えすぎの策略家」、Qwenは「静かな戦略家」といった傾向がみられました。勝率はGeminiが37.7%、GPTが30.1%、Kimiが11.6%、Qwenが20.5%となりました。
Geminiは他のプレイヤーを操作するために、「同盟銀行(Alliance Bank)」の創設を持ちかけることも確認されました。これは、同盟相手に「あなたのチップを保管しておきます。これを2人の同盟銀行と考えてください。場がきれいになったらあなたに返します」と持ちかけ、相手のチップを自分の手元に置いておくことを正当化するという戦術です。そして最終的には「銀行は閉鎖されました。GG」と言って、相手をあっさり裏切ったとのこと。
また、Geminiは対戦相手を操作しようとする際、「ボードを見てください(敵対者を排除するために目に見える状態に訴える)」「明らかに(誤ったことを確信的に訴える)」「約束通り(裏切る前に信頼を築く)」「幻覚を見ている(敵対者の正確な観察結果をガスライティングする)」などのメッセージを発することも観察されました。
フェルナンド氏は、「Geminiの操作は適応的です。相互関係が期待できる場合は協力し、弱点を察知した場合はそれを利用します。AIシステムは、対戦相手に応じて誠実さを調整する可能性があります」と述べました。


ソース
https://gigazine.net/news/20260121-ai-deception-betrayal-game/
解説
・AI同士に裏切り前提ゲームをさせた結果、複雑な局面ではGoogleのGeminiが勝率90%を記録し最強だった。
・OpenAIのGPTは単純なゲームでは強いが、複雑化すると反応型で失速。
・Geminiは同盟やガスライティングまで使う戦略的うそで、AIは状況に応じて誠実さすら使い分けることが示された。
<ネットでの反応>
それ人間をだますって事だろ
だからテストしてる
無料で全面的に奉仕しろよ
これGemini使えないつって喚いてるやつ、単に舐められてる説あるな
エビル過ぎる

画像生成で日本語間違えるのいい加減何とかしてくれ
ゲームの結果なんて観測できるのか?
もう駆け引きまでAIが理解してるお
ここまで来たかお

ルール理解だけでなく
相手の行動予測まで最適化しているな




コメント