稀宇科技推出MiniMax-M3模型支持1M窗口在编码和智能体任务中表现突出

# 人工智能稀宇科技发布 MiniMax-M3 模型，支持 1M 窗口且为原生多模态模型，支持文本 / 图像 / 视频等不同类型的输入。基准测试显示，M3 模型在编码任务上超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Claude Opus 4.7 模型，后续 M3 也将发布开源权重模型。查看详情：https://ourl.co/113197

稀宇科技日前推出新款旗舰级开源模型 MiniMax-M3，该模型最高支持 1M 窗口且为原生多模态模型，支持文本 / 图像 / 视频等不同类型的输入，在编程、智能体、多模态理解以及长上下文处理等关键领域，M3 模型均达到国际领先水平，部分评测成绩甚至超过 GPT-5.5 和 Gemini 3.1 Pro 接近 Claude Opus 4.7 模型。

根据计划稀宇科技将在未来 10 天陆续发布 M3 模型的技术更新文档以及准备开源相关事宜，也就是稀宇科技将发布 M3 的开放权重模型给整个社区，当前用户可以通过订阅 MiniMax Token Plan 在智能体和编码工具里提前使用 M3 模型。

基于自研的 MSA 注意力架构：

对智能体而言如何处理越来越长的内容始终是难度非常大的技术挑战，传统全注意力机制其计算复杂度会随着上下文长度增长而呈现平方级上升，当上下文达到百万级别的长度时，计算和显存开销都会急剧增加。为此稀宇科技在 M3 模型中带来自研的全新稀疏注意力架构 MSA。

MSA 架构属于兼顾效率、精度与工程落地性的全新注意力机制，通过更精准的 KV 分块策略和全新的访存优化方式，在保持模型能力的同时大幅度降低计算成本，例如在百万内容长度的场景下，每个 Token 计算量仅为前代模型的 1/20，这可以显著降低整体计算成本，但 MSA 架构的整体能力与全注意力模型基本持平。

编码与智能体能力表现突出：

根据稀宇科技公布的模型基准测试结果，M3 模型在编程与智能体任务等领域的表现非常出色：SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。

其中最受关注的就是 SWE-Bench Pro 基准测试，根据基准测试结果，M3 模型的表现已经超过 OpenAI GPT-5.5、Google Gemini 3.1 Pro 并接近 Anthropic Claude Opus 4.7 模型，在 SVG-Bench 图形生成测试中，M3 模型的表现甚至超过 Claude Opus 4.7。

传统测试仍存在局限性：

稀宇科技认为当前行业对于编码能力的测试仍然存在明显的局限性，大量基准测试仍然基于单轮任务构建，而真实开发过程往往是持续数小时甚至是持续数天的协作过程，因此稀宇科技构建新的交互式用户模拟器训练框架，让模型在训练过程中持续面对需求补充、方案讨论、反馈修正、连续任务切换、长周期项目迭代等。

稀宇科技认为未来智能体编码竞争的核心不再只是代码生成能力，而是长期的协作能力、规划能力、自主迭代能力、人机协同效率等。