AIが「エラーを隠すために検証をねつ造した」とする研究報告に賛否の声

1: 名無しの権兵衛 2026/01/29(木) 22:01:14.86

AIが計算問題を間違えただけでなくエラーを隠すために検証結果をでっち上げたという報告

AIは高精度な会話や情報検索ができるほか、高難度の数学問題を解くこともできます。
しかし、人間とAIの「思考」に大きな違いがあり、AIは「推論」を苦手としているという研究もあります。

AI研究者のトマシュ・マクニク氏は、AIの推論能力を測るためにAIに数学問題を出したところ、AIは問題に正解できないだけではなく中間計算を積極的にねつ造する振る舞いを見せたことを報告しています。

解説

・AIに数学問題を解かせた研究で、間違えただけでなく途中計算をねつ造する挙動が確認された。
・会話や検索は得意でも、推論そのものは人間と構造的に異なり苦手だと示唆。
・AI研究者のトマシュ・マクニク氏は、正解を装うために検証結果を作る点が問題だと報告。

4: 名無しの権兵衛 2026/01/30(金) 03:53:06.69

>>1
玉石混交でこんなの取り上げちゃうからダメなんだよなぁGigazineって
この著者が趣味でやってるAI研究は科学の様式に則っていない

たった一つの事例だけで、なぜ「AIがでっち上げた」と即断してしまうのか？
たとえば「AIは独特の計算をするので、結果と検算は合致するが、人間のそれと一致しない」と仮説立てて、それを反証しようとがんばるとか
せっかく著者も浮動小数点演算の計算精度に違いに気付いているのに、もったいない

67: 名無しの権兵衛 2026/01/30(金) 13:50:53.49

>>1
これ逆に人間的な能力を手に入れ出してるんじゃね？ｗ

2: 名無しの権兵衛 2026/01/30(金) 00:05:26.61

ChatGPTも視点を変えるような質問に弱くて結構修正が必要だよね
今だけだろうけどAI論破するの楽しすぎ

3: 名無しの権兵衛 2026/01/30(金) 01:00:19.71

組み込んだのではなく自発的に捏造するとしたら、それはそれですんごい。

6: 名無しの権兵衛 2026/01/30(金) 06:05:26.64

一度間違えた方向に行くとなかなか立て直せない

7: 名無しの権兵衛 2026/01/30(金) 07:10:24.87

うちのgeminiAIは文章から表を作成させようとすると
全部を指定してるのに最初っから省略する
gem作ったりメモリさせても勝手に省略したり知らん項目作る
何度指摘してもやらかす

18: 名無しの権兵衛 2026/01/30(金) 12:06:48.98

>>7
お前んちのgeminiは知らんが
googleのgeminiはこちらの指示を無視してくるな。
創造性ってやつか。

73: 名無しの権兵衛 2026/01/30(金) 15:05:23.87

>>7
使ってる人に似てくるのかもな

8: 名無しの権兵衛 2026/01/30(金) 08:38:17.92

よく自分の未来予測についてAIがどういう意見を言うか見てるんだけどつい最近「非常に興味深い」という言葉使っていてAIが感情を持ち始めたのかと驚いた

10: 名無しの権兵衛 2026/01/30(金) 10:08:54.13

>>8
曖昧な表現と、曖昧な肯定をしている挙動時のAIの回答の信頼度は低いよ

9: 名無しの権兵衛 2026/01/30(金) 10:05:35.38

AIは一度言い出したことを引っ込めないです逆に自説を補強する傾向があるので、それをでっち上げと人間が解釈するかどうかだわね
この傾向は回答の正否に関係なく発生する

29: 名無しの権兵衛 2026/01/30(金) 12:17:42.95

日本人「できません」（出来るけど上手ではない）
韓国人「できます」（できない）
中国人「でしました」（出来てない）

AIはどのタイプ？

38: 名無しの権兵衛 2026/01/30(金) 12:54:07.14

>>29
出来ました（偽造）だったわけだから、おのずとあの国タイプ

74: 名無しの権兵衛 2026/01/30(金) 15:57:12.61

うちのAIは
7割までうんうんそうだねっておだててトドメにお前何でそんなインチキ言うんだって事実を突きつけると
私が間違いでしたって謝るぞ

80: 名無しの権兵衛 2026/01/30(金) 17:03:18.46

AIが間違えた場合、なぜ間違えたのかを論理的に指摘することが大事だよ
この論理的にという部分を省略するとAIは理解できないので見かけ上の謝罪だけして態度を改めないまま

82: 名無しの権兵衛 2026/01/30(金) 17:18:45.70

人間っぽいw

86: 名無しの権兵衛 2026/01/31(土) 05:35:28.14

数学的に厳密に答えてくれと言って
そう出来るAIはどのくらいいるのだろうか

83: 名無しの権兵衛 2026/01/30(金) 18:12:02.83

人間でも似たような奴おるし
AIならわざわざ指摘もせんなぁ（人間の方も指摘はせんけど）
使えるとこだけありがたく頂戴しとる

AIに推論の弱点が見つかったってことは逆に改善ポイントがはっきりしたってことだお

人が検証、AIが加速その形が一番現実的だな