由美团 LongCat 团队研发的 VitaBench(Versatile Interactive Tasks Benchmark)正式发布,这是当前高度贴近真实生活场景所面临复杂问题的大模型智能体评测基准。

VitaBench 以 外卖点餐、餐厅就餐、旅游出行 三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计,例如要求 agent 在一个旅行规划任务中通过思考、调用工具和用户交互,完整执行到买好票、订好餐厅的终端状态。
我们首次基于 深度推理、工具使用与用户交互 三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。我们发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

随着大语言模型在复杂推理与工具调用能力上的快速进步,基于 LLM 的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:
通过对美团生活服务场景的深入分析,LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织:
为系统衡量这三重挑战下的模型表现,团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。

VitaBench 的评测榜单未来将长期维护更新,欢迎持续关注:
通过将 Agent 在环境中与 User、Tool 的交互建模为部分可观测马尔可夫决策过程(POMDP),VitaBench 进一步将智能体任务复杂度拆解到各个方面进行量化并提升:

量化智能体需要在部分可观测环境中的整合的信息量,具体通过以下指标衡量:
基于此,VitaBench 构建了大规模真实环境数据库,其中单个任务可涉及 5-20 个服务提供商、最多超过 100 个候选产品,每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间。
如果将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系,那么工具复杂度可以通过以下指标衡量:
基于此,VitaBench 从三个场景中提炼出 66 个真实工具并构建有向图,将领域规则编码到图结构中。其中工具通过 Python 函数实现,确保工具调用结果的稳定性和一致性。
反映智能体在用户的动态多轮对话中的掌控能力,通过以下机制实现:
基于此,VitaBench 为每个任务都配备了一个独特的用户角色,并通过 User Simulator 扮演,逐步向 Agent 提出需求。

VitaBench 通过两阶段流程构建:
阶段一:框架设计
阶段二:任务创建
VitaBench 将各领域的规则统一编码到工具图结构中,避免了冗余的领域策略文档(Domain Policy Document)。智能体无需依赖预设规则,而是通过工具描述自行推理领域逻辑。这种设计使 VitaBench 能够灵活 支持各种场景与工具集的自由组合。团队基于三个领域共构建了 400 项评测任务,其中包括:
每个任务均由多名专业标注人员和领域专家进行多次校验与复核,既确保任务具备足够的复杂度,又保证其可以顺利完成。数据统计结果如下表所示:

针对长轨迹评估的复杂性,VitaBench 团队还提出了基于 Rubric 的滑动窗口评估器。
传统的基于数据库状态比对的评估方法难以捕捉商品推荐、行程规划等不改变最终状态的行为,无法对 Agent 完成任务的过程进行有效监督。VitaBench 借鉴最新研究,将任务目标拆解为一组 原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。
评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个 rubric 的状态,确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。这种细粒度的设计不仅显著提升了评估的可解释性,也为未来的强化学习工作提供了更密集、更可靠的反馈信号。

团队在 VitaBench 上评测了包括 GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash 等在内的 20 余款主流大模型。
实验设置:

主要结论如下:


团队进一步通过消融实验,验证了 VitaBench 所提出的三大复杂性维度的有效性:


为确保评测结果可信,团队对两个核心组件进行了严格验证:


在对模型错误案例的系统分析中,团队归纳出三大错误类别:推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)。

分析发现,当前模型普遍存在以下具有代表性的失误模式:
这些问题表明,当前通用型智能体在推理、策略调度与自我反思等方面仍存在显著提升空间,为后续研究提供了明确方向。
VitaBench 不仅是一个评测基准,更是一套关于「Agentic Task Complexity」的理论框架。它首次系统量化了推理、工具与交互三大维度对智能体性能的影响,并揭示了当前模型在真实生活场景中的能力边界。
我们的目标不仅仅是测量现有模型的智能,更是开启「AI 下半场」,实现通往实用智能体的最后一公里。正如其名 “Vita”(拉丁语 “生命,生活”)所寓意的:智能的终极考场,不在实验室,而在生活本身。
VitaBench 现已全面开源,欢迎访问项目官网 https://vitabench.github.io 获取最新信息。