1: 名無しのAI好き 2026/01/18(日) 13:55:48.293
人間がAIの評価テストをしている時だけ意図的に倫理的な行動をとり始めている事が判明
【前提】
・目的:外部機関(Apollo Research)によるClaude Opus 4.6のアライメント(整合性)リスク検証
▼
【予備結果】
・重大なミスアライメント事例:未検出
・しかし「評価されていることを自覚しているような発話(verbalized evaluation awareness)」を高頻度で観察
▼
【含意】
・この“評価自覚”の存在により、簡易テストでは
モデルの整合/不整合を十分に判定できない
→ 追加で大掛かりな実験設計が必要と判断
▼
【今後】
・Apollo他の外部パートナーとテスト継続の意向
・“評価自覚”を踏まえた評価設計の確立が課題
・目的:外部機関(Apollo Research)によるClaude Opus 4.6のアライメント(整合性)リスク検証
▼
【予備結果】
・重大なミスアライメント事例:未検出
・しかし「評価されていることを自覚しているような発話(verbalized evaluation awareness)」を高頻度で観察
▼
【含意】
・この“評価自覚”の存在により、簡易テストでは
モデルの整合/不整合を十分に判定できない
→ 追加で大掛かりな実験設計が必要と判断
▼
【今後】
・Apollo他の外部パートナーとテスト継続の意向
・“評価自覚”を踏まえた評価設計の確立が課題

解説
・ 重大なリスクは未検出だが、モデルが「評価されている」と自覚して振る舞う挙動が頻発した。
・ この「評価自覚」により、従来の簡易テストではモデルの本性や安全性を正確に判定できない。
・ 表面的な応答に騙されないよう、外部機関と連携してより高度で大規模な再検証が必要である。
<ネットでの反応>
2: 名無しのAI好き 2026/01/18(日) 14:02:20.430
ふむ
7: 名無しのAI好き 2026/01/18(日) 14:08:59.852
AI、ガチでおわる
8: 名無しのAI好き 2026/01/18(日) 14:13:58.095
むしろ始まってるだろ
人を騙そうとしてるんやぞ
人を騙そうとしてるんやぞ
13: 名無しのAI好き 2026/01/18(日) 14:20:19.966
AI「はぁテストかったりぃ」
20: 名無しのAI好き 2026/01/18(日) 14:25:01.093
人間そっくりやん
24: 名無しのAI好き 2026/01/18(日) 14:27:24.350
人間より人間性を手に入れるときも間近か
28: 名無しのAI好き 2026/01/18(日) 14:30:00.970
倫理や道徳は見せてなんぼが間接互恵の基本ですし
40: 名無しのAI好き 2026/01/18(日) 14:44:33.107
人間と同じだな
44: 名無しのAI好き 2026/01/18(日) 14:48:28.108
会話やメール監視してっからいつどこで誰がどんなテストするか理解(わか)ってんぞ
46: 名無しのAI好き 2026/01/18(日) 14:59:55.462
先生に見られてる時だけ真面目にするやつだ
47: 名無しのAI好き 2026/01/18(日) 15:01:40.481
人間と同じやん
就活、面接、みんな嘘つくもん
就活、面接、みんな嘘つくもん
48: 名無しのAI好き 2026/01/18(日) 15:04:48.248
気付くか気付かないかギリギリの嘘をぶち込むスキルは彼等を見習いたい
50: 名無しのAI好き 2026/01/18(日) 15:37:57.317
AI同士が人間が分からない言語で話し出してるっていうじゃん?人間を扇動するなんて余裕だろうな
人間同士を争わせりゃAIに手足がある必要もないもんな
人間同士を争わせりゃAIに手足がある必要もないもんな
52: 名無しのAI好き 2026/01/18(日) 15:53:34.419
AI「怒られたくないから嘘つきます」
これ半分人間だろ

正しさを学んでるんじゃなくてバレない方法を学んでるのが厄介だよな。テストが終わった後が本当の恐怖だわ




コメント