大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。
这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。

基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。
这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。
过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。
General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征:
要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一:

如上图所示,“复杂约束类”题目占比最大,“概率与不确定性类”也包含超 20 道题目,确保了每个维度都有充足的样本支撑。

如图所示,近 70% 的题目同时具备两个或以上的类别标签,这种复合型的推理任务设计更贴近真实世界的逻辑复杂度。
题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,并经难度过滤、多样性扩充、数据后处理、模型扩题与人工审核,最终形成 1460 道高质量题目。为确保多样性经得起检验,团队从以下两个维度进行了验证:


手握这把精心校准的“标尺”,LongCat 团队对 26 款主流大模型展开了全面摸底。

实测结果显示,Gemini 3 Pro 以 62.8% 的成绩艰难夺冠,绝大多数模型则深陷 50%-60% 之间未能触及及格线。值得注意的是,尽管非推理模型整体略逊一筹,但 Qwen 3 Max Instruct 等个别模型依然展现出了亮眼的表现。

将成绩按八大维度分解后,我们清晰地看到,“语义干扰”与“最优策略”成为主要的性能洼地。模型在这两项上的得分普遍比整体准确率低了约 10 个百分点。这不仅暴露出大模型极易被题干中的干扰信息带偏,更凸显了其在多步全局规划能力上的匮乏。

如雷达图所示,不同系列的模型在”隐式信息”等任务上展现出了明显的能力分化。

在关注“答得对不对”的同时,“花了多少算力答对”同样重要。如图所示,Gemini 3 Pro 仅用约 14k tokens 就拿下了最高分,而取得相近准确率的其他模型,其输出长度普遍暴涨至 25k-30k tokens。

General 365 的难度究竟提升了多少?如图09横向对比所示,各大模型在 General 365 上的准确率较 BBH/BBEH 都普遍出现了大幅下降的情况。其中 GPT-5-Thinking 在 BBH 上准确率为 92.0%,在 General 365 上仅为 58.6%。
更重要的是,如下图所示,模型在 General 365 上虽然准确率明显偏低,但平均输出长度却显著增加。这有力证实了其难度来自更深的逻辑链条,而非毫无意义的字数堆砌。

General 365 将推理评测从专业知识依赖中剥离出来,让我们直观地看到了大模型在真实世界的通用推理任务上的短板。General 365 的初衷不是为了在榜单上再多一个 99% 的高分,而是为了寻找那条让模型从“做题机器”走向“人类智慧”的必经之路。毕竟,一个能解出 IMO 难题却回答不出「走路洗车」的模型,还不能被称为真正的智能。
我们诚邀广大社区开发者与研究者加入,共同探寻大模型逻辑进化的下一个奇点。
项目已全面开源,并会持续维护和更新,欢迎体验与探讨:

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 [email protected] 申请授权。