unSafe.sh - 不安全
我的收藏
今日热榜
公众号文章
导航
Github CVE
Github Tools
编码/解码
文件传输
Twitter Bot
Telegram Bot
Search
Rss
黑夜模式
AI Coding与单元测试的协同进化:从验证到驱动
嗯,用户让我帮忙总结一篇文章的内容,控制在100字以内,而且不需要特定的开头。首先,我得仔细阅读这篇文章,了解它的主要内容和结构。 文章主要讲的是美团在AI生成代码质量方面的技术实践,提出了三个策略来解决AI编程中的痛点。第一个策略是用单元测试快速验证逻辑正确性,第二个是构建安全网保护存量代码演进,第三个是采用TDD模式精准传递需求。这些策略帮助开发者告别“看起来没问题”的错觉,构建AI时代的代码质量保障体系。 接下来,我需要把这些信息浓缩到100字以内。要抓住关键词:美团的技术实践、三大策略、单元测试、安全网、TDD模式、代码质量保障体系。同时,语言要简洁明了,直接描述内容。 可能的结构是:首先点明主题和来源,然后列出三个策略,最后说明目标或效果。这样既全面又简洁。 最后检查一下字数是否符合要求,并确保没有使用任何不需要的开头语句。 </think> 美团分享AI编程技术实践:通过单元测试快速验证代码逻辑正确性、构建安全网保护存量代码演进、采用TDD模式优化需求传递与验证流程,打造AI时代的代码质量保障体系。...
2025-12-5 00:0:0 | 阅读: 6 |
收藏
|
美团技术团队 - tech.meituan.com
coupon
bigdecimal
tdd
R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架
嗯,用户让我帮忙总结一下这篇文章的内容,控制在一百个字以内。首先,我需要通读文章,抓住主要信息。 文章是美团技术团队和复旦大学合作的项目,推出了R-HORIZON框架。这个框架用于评估和提升大型推理模型的长链推理能力。当前模型在处理多个关联任务时表现不佳,R-HORIZON通过构建问题间的依赖关系来解决这个问题。 接下来,评测发现模型在长链推理中性能显著下降,尤其是随着问题数量增加,准确率下降明显。此外,模型还存在反思机制局部化和思考预算分配失衡的问题。 训练方面,他们使用强化学习方法GRPO进行训练,结果显示模型在长链任务和单问题上的性能都有提升。最后,文章指出R-HORIZON标志着AI研究从解决问题转向能力扩展的转变。 现在要将这些信息浓缩到100字以内。需要涵盖R-HORIZON的目的、评测结果、训练方法和结论。确保语言简洁明了。 </think> 美团技术团队与复旦大学联合推出R-HORIZON框架,系统性评估与增强大型推理模型的长链推理能力。评测发现主流模型在多步推理场景下性能显著退化,并揭示了有效推理长度受限、反思机制局部化及预算分配失衡三大瓶颈。通过强化学习训练显著提升模型表现。...
2025-11-28 00:0:0 | 阅读: 0 |
收藏
|
美团技术团队 - tech.meituan.com
模型
horizon
数据
反思
lrms
美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限
嗯,用户让我帮忙总结一篇文章,控制在一百个字以内,而且不需要特定的开头。首先,我得仔细阅读这篇文章,理解它的主要内容。 文章主要讲的是美团LongCat团队发布的AMO-Bench,这是一个新的数学推理评测基准。他们提到当前的评测体系存在一些问题,比如题目难度不够,数据泄露风险等。AMO-Bench解决了这些问题,提供了50道原创的高难度题目,并且有高效的评分系统。 接下来,我需要提炼出关键点:AMO-Bench的目标、它的优势、评测结果以及未来展望。然后把这些信息浓缩到100字以内。 可能的结构是:先介绍AMO-Bench是什么,然后说明它解决了什么问题,接着提到评测结果和未来计划。这样既全面又简洁。 最后检查一下是否符合用户的要求,确保没有使用特定的开头,并且控制在字数限制内。 </think> 美团LongCat团队推出数学推理评测基准AMO-Bench,包含50道竞赛专家原创试题,难度对标甚至超越IMO竞赛。该评测集旨在解决现有数学推理评测任务区分度下降和数据穿越风险问题,并提供高效自动化评分方案。目前头部大模型在AMO-Bench上的表现尚未及格,为模型推理能力提升树立新标杆。...
2025-11-27 00:0:0 | 阅读: 0 |
收藏
|
美团技术团队 - tech.meituan.com
模型
amo
bench
数据
longcat
美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService
在本地生活服务领域,大模型技术落地正遭遇 “三重困境”:通用能力与领域需求难以适配,复杂场景下服务可靠性与个性化无法兼顾,高昂的数据成本与漫长的训练周期进一步增加了开发难度。更关键的是,行业内缺乏可复...
2025-11-21 00:0:0 | 阅读: 7 |
收藏
|
美团技术团队 - tech.meituan.com
数据
模型
wowservice
协同
机制
美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench
多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合,即全模态大模型(Omni-models)时代。然而,相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战,且几乎完全以英文为中心,缺...
2025-11-17 00:0:0 | 阅读: 8 |
收藏
|
美团技术团队 - tech.meituan.com
模型
模态
数据
uno
bench
美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 “听不懂” 语音,车载助手 “说” 得像机器人,实时翻译延迟卡半...
2025-11-14 00:0:0 | 阅读: 0 |
收藏
|
美团技术团队 - tech.meituan.com
longcat
codec
模型
llm
speech
LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代
好的,我现在需要帮用户总结一篇关于美团LongCat-Flash-Omni模型的文章,控制在100字以内。首先,我得通读整篇文章,抓住关键点。 文章提到美团发布了LongCat-Flash系列模型,并且现在升级到了LongCat-Flash-Omni。这个模型有几个亮点:全模态覆盖、端到端架构、大参数量高效推理。这些都是技术上的突破。 接下来,文章详细说明了模型的性能,比如在文本、图像、音频、视频等多模态任务中的表现达到了开源的最先进水平(SOTA)。同时,它还解决了行业中的推理延迟问题,支持实时音视频交互。 另外,文章还提到了模型的训练策略和架构设计,以及开源后的使用情况和用户体验。这些信息虽然重要,但可能在总结时可以适当简化。 现在,我需要将这些关键点浓缩到100字以内。要确保涵盖模型名称、主要特点、性能优势以及开源信息。同时,语言要简洁明了,不使用复杂的术语。 最后,检查一下是否符合用户的要求:直接描述内容,不需要特定开头。确保字数控制在范围内,并且信息准确无误。 </think> 美团发布LongCat-Flash-Omni开源大语言模型,支持全模态覆盖与实时音视频交互,在多模态任务中实现毫秒级响应。该模型参数达5600亿,在文本、图像、音频、视频理解及生成等任务中达到开源最先进水平(SOTA),为开发者提供高效技术选择。...
2025-11-3 00:0:0 | 阅读: 11 |
收藏
|
美团技术团队 - tech.meituan.com
longcat
模态
模型
omni
开源
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
美团LongCat团队发布VitaBench评测基准,基于外卖、餐厅就餐和旅游出行三大生活场景构建交互式环境与跨场景任务。该基准提出三维复杂度框架量化推理、工具使用与交互复杂性,并通过实验揭示现有模型在真实生活应用中的局限性。已全面开源以推动智能体研发与应用。...
2025-11-2 00:0:0 | 阅读: 1 |
收藏
|
美团技术团队 - tech.meituan.com
模型
vitabench
信息
数据
基准
ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享
美团技术团队在ICCV 2025发表5篇论文,并在多模态推理竞赛中获1冠2季军。论文涵盖视频大型语言模型、实时对话生成、多粒度感知框架、文档理解及视觉分割等领域。...
2025-10-27 00:0:0 | 阅读: 0 |
收藏
|
美团技术团队 - tech.meituan.com
模型
数据
模态
qwen2
vl
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
好的,我现在需要帮用户总结这篇文章的内容,控制在100字以内。首先,我得仔细阅读文章,抓住主要信息。 文章主要讲的是美团技术团队发布的LongCat-Video视频生成模型。这个模型有几个关键点:统一模型架构、支持多种任务、长视频生成能力强、推理效率高。 接下来,我需要把这些要点浓缩成一句话。要确保涵盖模型名称、核心功能、优势以及应用场景。 可能的结构是:美团发布LongCat-Video模型,支持多种视频生成任务,尤其擅长长视频连贯生成,并优化推理效率,助力世界模型构建和自动驾驶等场景。 这样既简洁又全面,符合用户的要求。 </think> 美团技术团队发布LongCat-Video视频生成模型,支持文生、图生及视频续写任务,尤其擅长长视频连贯生成,并通过优化推理效率助力世界模型构建与自动驾驶等场景应用。...
2025-10-27 00:0:0 | 阅读: 0 |
收藏
|
美团技术团队 - tech.meituan.com
模型
longcat
续写
文生
稀疏
从0到1建设美团数据库容量评估系统
美团数据库团队为应对容量评估与变更风险的挑战,建设了一套完整的数据库容量评估系统。该系统通过流量回放、容量上探与容量运营三大核心功能,在隔离的沙盒环境中模拟真实流量进行测试与评估,并提供科学的决策依据。系统支持多种数据库类型扩展,并结合自动化运维能力提升效率。...
2025-10-17 00:0:0 | 阅读: 19 |
收藏
|
美团技术团队 - tech.meituan.com
回放
流量
数据
集群
数据库
可验证过程奖励在提升大模型推理效率中的探索与实践
文章探讨了大规模推理模型在强化学习后生成冗余回复的问题,并提出了一种可验证的过程奖励机制(VSRM),通过奖励有效步骤、惩罚无效步骤来优化推理效率。实验表明,在多个数学任务基准上,VSRM显著减少了输出长度并提升了模型性能。...
2025-10-10 00:0:0 | 阅读: 12 |
收藏
|
美团技术团队 - tech.meituan.com
模型
vsrm
机制
正确率
可验证
LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
美团LongCat团队发布新模型LongCat-Flash-Thinking,在逻辑、数学、代码和智能体任务中达到全球开源模型最先进水平。该模型结合深度思考与工具调用能力,并创新性地实现非形式化与形式化推理结合。...
2025-9-22 00:0:0 | 阅读: 4 |
收藏
|
美团技术团队 - tech.meituan.com
longcat
模型
形式化
开源
基准
开源 | InfiniteTalk:无限长虚拟人视频生成的新范式
InfiniteTalk技术解决虚拟人长视频生成的质量退化问题,支持语音驱动图像和视频模式,实现无限时长生成。已在GitHub开源,应用于电商直播、教育、影视等领域。...
2025-9-21 00:0:0 | 阅读: 16 |
收藏
|
美团技术团队 - tech.meituan.com
模型
dubbing
范式
控制
LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型
美团开源LongCat-Flash智能体模型,采用创新性混合专家模型(MoE)架构,总参数量达5600亿,结合SGLang框架实现系统优化,在智能体任务中表现优异且推理速度快。...
2025-9-11 00:0:0 | 阅读: 10 |
收藏
|
美团技术团队 - tech.meituan.com
longcat
模型
sglang
moe
吞吐
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
LongCat-Flash-Chat 是一个采用 MoE 架构的 560B 参数大模型,在智能体任务和复杂推理中表现优异。其创新机制实现高效算力分配,并在多项基准测试中取得领先成绩。模型支持快速部署,在 H800 上可实现 100+ tokens/s 的推理速度。现已开源并提供详细部署指导。...
2025-9-1 00:0:0 | 阅读: 12 |
收藏
|
美团技术团队 - tech.meituan.com
longcat
模型
基准
指令
位列
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的“听话”能力
美团M17团队推出Meeseeks评测基准,专注于评估大模型的指令遵循能力。测试结果显示OpenAI o3-mini表现最优,Claude紧随其后。评测采用三级框架与多轮纠错模式,强调客观性与细致性。该基准已上线魔搭社区等平台,并计划推出多语言版本以支持更广泛应用。...
2025-8-29 00:0:0 | 阅读: 4 |
收藏
|
美团技术团队 - tech.meituan.com
模型
指令
meeseeks
纠错
rllms
可信实验白皮书系列08:开放式分析引擎 | 附PDF合集
美团开发了AB实验分析引擎BETA,支持随机对照、准实验等多种方法和小样本解决方案。该引擎设计高效、易用,并支持分布式计算和多种接入方式。...
2025-8-22 00:0:0 | 阅读: 35 |
收藏
|
美团技术团队 - tech.meituan.com
数据
履约
对照
可信
美团智能头盔研发实践系列01:硬件设计篇
美团推出智能头盔专为外卖骑手设计,集成语音交互与实时感知功能,并采用轻量化设计与多孔道通风系统提升佩戴舒适度与续航能力。具备IPX6级防水性能及主动安全预警系统,在全国推广并获骑手高度评价。...
2025-8-15 00:0:0 | 阅读: 15 |
收藏
|
美团技术团队 - tech.meituan.com
头盔
骑手
安全
模组
配送
美团智能头盔研发实践系列02:软件功能篇
美团智能头盔为外卖骑手提供主动与被动安全功能,包括通话降噪、语音助手、物理防护及摔倒监控,旨在提升配送效率与安全性,并计划未来升级为多模态大模型入口。...
2025-8-15 00:0:0 | 阅读: 16 |
收藏
|
美团技术团队 - tech.meituan.com
骑手
安全
头盔
骑行
风险
Previous
1
2
3
4
5
6
7
8
Next