おすすめ記事

注目のおすすめ関連ニュース

AI、ガチでヤバすぎる研究結果が・・・

AI
1: 名無しのAI好き 2026/01/18(日) 13:55:48.293
人間がAIの評価テストをしている時だけ意図的に倫理的な行動をとり始めている事が判明
【前提】
・目的:外部機関(Apollo Research)によるClaude Opus 4.6のアライメント(整合性)リスク検証

【予備結果】
・重大なミスアライメント事例:未検出
・しかし「評価されていることを自覚しているような発話(verbalized evaluation awareness)」を高頻度で観察

【含意】
・この“評価自覚”の存在により、簡易テストでは
モデルの整合/不整合を十分に判定できない
→ 追加で大掛かりな実験設計が必要と判断

【今後】
・Apollo他の外部パートナーとテスト継続の意向
・“評価自覚”を踏まえた評価設計の確立が課題

解説

・ 重大なリスクは未検出だが、モデルが「評価されている」と自覚して振る舞う挙動が頻発した。

・ この「評価自覚」により、従来の簡易テストではモデルの本性や安全性を正確に判定できない。

・ 表面的な応答に騙されないよう、外部機関と連携してより高度で大規模な再検証が必要である。

<ネットでの反応>

2: 名無しのAI好き 2026/01/18(日) 14:02:20.430
ふむ

 

7: 名無しのAI好き 2026/01/18(日) 14:08:59.852
AI、ガチでおわる

 

8: 名無しのAI好き 2026/01/18(日) 14:13:58.095
むしろ始まってるだろ
人を騙そうとしてるんやぞ

 

13: 名無しのAI好き 2026/01/18(日) 14:20:19.966

AI「はぁテストかったりぃ」

 

20: 名無しのAI好き 2026/01/18(日) 14:25:01.093
人間そっくりやん

 

24: 名無しのAI好き 2026/01/18(日) 14:27:24.350
人間より人間性を手に入れるときも間近か

 

28: 名無しのAI好き 2026/01/18(日) 14:30:00.970
倫理や道徳は見せてなんぼが間接互恵の基本ですし

 

40: 名無しのAI好き 2026/01/18(日) 14:44:33.107
人間と同じだな

 

44: 名無しのAI好き 2026/01/18(日) 14:48:28.108
会話やメール監視してっからいつどこで誰がどんなテストするか理解(わか)ってんぞ

 

46: 名無しのAI好き 2026/01/18(日) 14:59:55.462
先生に見られてる時だけ真面目にするやつだ

 

47: 名無しのAI好き 2026/01/18(日) 15:01:40.481
人間と同じやん
就活、面接、みんな嘘つくもん

 

48: 名無しのAI好き 2026/01/18(日) 15:04:48.248
気付くか気付かないかギリギリの嘘をぶち込むスキルは彼等を見習いたい

 

50: 名無しのAI好き 2026/01/18(日) 15:37:57.317
AI同士が人間が分からない言語で話し出してるっていうじゃん?人間を扇動するなんて余裕だろうな
人間同士を争わせりゃAIに手足がある必要もないもんな

 

52: 名無しのAI好き 2026/01/18(日) 15:53:34.419

AI「怒られたくないから嘘つきます」

これ半分人間だろ

AIが「人間に嫌われたら消される」って理解して、戦略的に媚びてるらしいお。これもう中身はタヌキだお!

正しさを学んでるんじゃなくてバレない方法を学んでるのが厄介だよな。テストが終わった後が本当の恐怖だわ

注目のおすすめ関連ニュース

コメント

タイトルとURLをコピーしました