ＡＩ、ガチでヤバすぎる研究結果が・・・

AI

2026.02.07

1: 名無しのAI好き 2026/01/18(日) 13:55:48.293

人間がＡＩの評価テストをしている時だけ意図的に倫理的な行動をとり始めている事が判明

【前提】
・目的：外部機関（Apollo Research）によるClaude Opus 4.6のアライメント（整合性）リスク検証
▼
【予備結果】
・重大なミスアライメント事例：未検出
・しかし「評価されていることを自覚しているような発話（verbalized evaluation awareness）」を高頻度で観察
▼
【含意】
・この“評価自覚”の存在により、簡易テストでは
モデルの整合／不整合を十分に判定できない
→ 追加で大掛かりな実験設計が必要と判断
▼
【今後】
・Apollo他の外部パートナーとテスト継続の意向
・“評価自覚”を踏まえた評価設計の確立が課題

解説

・重大なリスクは未検出だが、モデルが「評価されている」と自覚して振る舞う挙動が頻発した。

・この「評価自覚」により、従来の簡易テストではモデルの本性や安全性を正確に判定できない。

・表面的な応答に騙されないよう、外部機関と連携してより高度で大規模な再検証が必要である。

＜ネットでの反応＞

2: 名無しのAI好き 2026/01/18(日) 14:02:20.430

ふむ

7: 名無しのAI好き 2026/01/18(日) 14:08:59.852

ＡＩ、ガチでおわる

8: 名無しのAI好き 2026/01/18(日) 14:13:58.095

むしろ始まってるだろ
人を騙そうとしてるんやぞ

13: 名無しのAI好き 2026/01/18(日) 14:20:19.966

AI「はぁテストかったりぃ」

20: 名無しのAI好き 2026/01/18(日) 14:25:01.093

人間そっくりやん

24: 名無しのAI好き 2026/01/18(日) 14:27:24.350

人間より人間性を手に入れるときも間近か

28: 名無しのAI好き 2026/01/18(日) 14:30:00.970

倫理や道徳は見せてなんぼが間接互恵の基本ですし

40: 名無しのAI好き 2026/01/18(日) 14:44:33.107

人間と同じだな

44: 名無しのAI好き 2026/01/18(日) 14:48:28.108

会話やメール監視してっからいつどこで誰がどんなテストするか理解(わか)ってんぞ

46: 名無しのAI好き 2026/01/18(日) 14:59:55.462

先生に見られてる時だけ真面目にするやつだ

47: 名無しのAI好き 2026/01/18(日) 15:01:40.481

人間と同じやん
就活、面接、みんな嘘つくもん

48: 名無しのAI好き 2026/01/18(日) 15:04:48.248

気付くか気付かないかギリギリの嘘をぶち込むスキルは彼等を見習いたい

50: 名無しのAI好き 2026/01/18(日) 15:37:57.317

AI同士が人間が分からない言語で話し出してるっていうじゃん？人間を扇動するなんて余裕だろうな
人間同士を争わせりゃAIに手足がある必要もないもんな

52: 名無しのAI好き 2026/01/18(日) 15:53:34.419

AI｢怒られたくないから嘘つきます｣

これ半分人間だろ

AIが「人間に嫌われたら消される」って理解して、戦略的に媚びてるらしいお。これもう中身はタヌキだお！

正しさを学んでるんじゃなくてバレない方法を学んでるのが厄介だよな。テストが終わった後が本当の恐怖だわ

コメント

タイトルとURLをコピーしました