大模型的模拟推理能力只是一种脆弱的幻觉
AI公司转向模拟推理模型通过思维链解决问题,但研究发现这些模型只是模式匹配而非真正推理。它们在偏离训练分布时表现差,生成的语言流畅但无逻辑。研究人员警告不要将其输出等同于人类思维,在高风险领域需谨慎信任。 2025-8-12 13:1:14 Author: www.solidot.org(查看原文) 阅读量:8 收藏

最近几个月 AI 公司开始转向模拟推理模型,使用思维链通过多个逻辑步骤解决难题。但模拟推理真的是推理吗?已有研究显示,如果一个问题中包含上下文无关的文本,模型出错的可能性将会大增。根据发表在 arxiv 上的一篇预印本,亚利桑那大学的研究人员认为,思维链模型只是类推理文本的模拟器。他们的测试发现,思维链模型所谓的性能飞跃只是一种脆弱的幻觉,它展示的只是对训练过程中所学到的模式的复制,而不是真正的对文本的理解。思维链模型没有表现出广义的逻辑推理能力,而是展现出一种复杂的结构化模式匹配形式。稍稍偏离其训练分布,性能就会显著下降。模型生成流畅但胡扯的语言的能力创造出一种虚幻的信任光环,其内容经不起仔细审查。研究人员警告不要将思维链模型的输出等同于人类思维,不要在医学、金融或法律分析等高风险领域过于信任大模型。

arstechnica.com/ai/2025/08/researchers-find-llms-are-bad-at-logical-inference-good-at-fluent-nonsense/
arxiv.org/pdf/2508.01191


文章来源: https://www.solidot.org/story?sid=82023
如有侵权请联系:admin#unsafe.sh