IT之家 3 月 18 日消息,今日 MiniMax 稀宇科技发布新一代 Agent 旗舰大模型 M2.7,首次展示“模型自我进化”路径。该模型通过构建 Agent Harness 体系,据称能让模型深度参与自身训练与优化流程。公司称,在部分研发场景中,M2.7 可承担约 30%—50% 的工作量,并在内部评测集上实现约 30% 的效果提升。在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分 55.6%,几乎与 Opus 4.6 持平。IT之家附官方详细介绍如下:M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力,完成高度复杂的生产力任务。例如,在研发 M2.7 的过程中,我们基于模型构建强化学习 Harness 中的数十个复杂的 skills,更新自己的 memory,驱动模型自身的强化学习,并基于结果优化强化学习过程和 Harness,开启模型的自我进化。基于上述能力,M2.7 也在显著加速我们自身向一个 AI Native 组织的进化。
01、构建模型自我进化智能体在最开始,我们分享一个我们内部让 M2 系列模型自我进化的实践,这也是对模型 Agent 能力边界的探索。Agent Harness 通常依赖复杂的 Skills、记忆系统和其他组件来提升模型对不同工作环境的适应能力。在此基础上,我们在 M2 的早期版本中,将其引导为一个研究型 Agent 框架 —— 它能够与不同的研究项目组进行交互和协作。该系统覆盖了数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆 —— 让研究员可以驱动它来交付更好的模型。研究 Agent 驱动着产出下一代模型的迭代循环。研究员在每一层引导方向,模型在每一层负责构建。以一个 RL 场景为例:研究员从一个实验想法出发,与 Agent 展开讨论。Agent 协助进行文献调研,持续跟踪预设的实验规格,完成数据流水线及其他对接工作,并启动实验。实验运行期间,它会自动监控和分析实验状态,并自动触发日志读取、问题排查、指标分析、代码修复、合并请求以及冒烟测试,识别并配置那些细微但关键的变更。这些工作过去可能需要来自不同团队的多位同事协作完成,而现在研究员只需在关键决策和讨论时介入。这大幅加速了问题发现和实验迭代,从而更快地交付模型。在这个场景下,M2.7 能够胜任 30-50% 的工作流。
我们在迭代过程中也意识到,模型自主迭代 harness 的能力也至关重要。我们内部的 harness 会自主收集反馈,建立内部任务的评测集,并基于此不断迭代自己的 Agent 架构、Skills / MCP 实现和记忆机制,来更好和更高效的完成任务。举个例子,我们让 M2.7 优化一个内部脚手架上模型的软件工程开发表现。M2.7 全程自主运行,执行“分析失败轨迹 → 规划改动 → 修改脚手架代码 → 运行评测 → 对比结果 → 决定保留或回退”的迭代循环超过 100 轮。这个过程中 M2.7 发现了针对模型的有效优化:系统性搜索温度、频率惩罚、存在惩罚等采样参数的最优组合;为模型设计更具体的工作流指引(如修复后自动搜索其他文件中的相同 bug 模式);在脚手架的 Agent Loop 中添加循环检测等优化。最终在内部评测集上效果提升 30%。我们相信,未来的 AI 自我进化会逐步向完全自动化过渡,包括完全自主的协调数据构建、模型训练、推理架构、评测等等。我们用 M2.7 参与了 MLE Bench Lite 的 22 个机器学习任务测试,几乎囊括了研发的所有环节。我们设计和实现了一个简易的脚手架来引导 Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块。具体来讲,Agent 完成每轮迭代后会形成一个短时记忆文件,同时对当前轮次的结果进行自反馈,从而给下一轮次提供潜在的优化方向,下一轮次基于所有历史轮次的记忆及自反馈链进行下一步的自优化。我们总共测试三次,每次有 24 小时来迭代进化,从下图中能够看到 M2.7 随时间不断取得更高的性能。最好的一次取得 9 枚金牌,5 枚银牌,1 枚铜牌。三次平均是 66.6% 的得牌率,此成绩仅次于 Opus-4.6 (75.7%)、GPT-5.4 (71.2%),和 Gemini-3.1 (66.6%) 持平。
02、真实的软件工程在编程等代码生成类任务上,M2.7 更深入地打磨了真实软件工程所需的编程能力,覆盖日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。以线上最常见的线上生产环境故障调试为例 —— 这类任务不仅需要生成代码,还需要很强的综合推理能力。面对我们实际的生产环境告警,M2.7 能关联监控指标与部署时间线做因果推理,对轨迹采样做统计分析并提出精准假设,主动连接数据库执行验证根因,定位到代码仓库中缺失的索引迁移文件,甚至知道用非阻塞建索引先止血,再提 MR。从可观测性分析、数据库专业知识到 SRE 级别的决策判断 —— 这不只是一个会写代码的模型,而是一个真正理解生产系统的模型。相比传统的人工排障流程,基于 M2.7,我们已多次将线上生产系统故障的恢复时间缩短到三分钟以内。在单项编程能力上,M2.7 已具备国际一线模型水准。在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;而在更贴近真实工程场景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展现出更显著优势。这一能力同样延伸到了端到端的完整项目交付场景。在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分 55.6%,几乎与 Opus 4.6 持平 —— 这意味着无论是 Web、Android、iOS 还是 Simulation 类需求,都可以直接交给 M2.7 完成。更值得关注的,是对复杂工程系统的深层理解。在对系统认知要求极高的 Terminal Bench 2(57.0%)和 NL2Repo(39.8%)中,M2.7 同样表现稳健,进一步印证了它不只擅长代码生成,更能深入理解软件系统的运行逻辑与协作流程。为了提升开发效率,一个比较重要的特性是原生的 Agent Teams (多智能体协作)。Agent Teams 对模型提出了范式级要求:角色边界、对抗性推理、协议遵循、行为分化 —— 这些无法通过提示词,必须内化为模型的原生能力。Agent Teams 场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。下面是我们内部使用的一个做产品原型开发的 Agent Teams,里面包含了做产品原型的一个最小组织。
03、专业办公除了软件工程外,Agent 开始在办公场景中变得越来越有用,我们认为这是两个核心能力:我们测试了在 Finance 领域的专业水准,与上代模型相比,模型的能力提升显著。例如,在 Finance 领域一个阅读研报并建模公司未来营收的场景,M2.7 可以自主阅读公司的年报与业绩沟通会纪要,交叉比对多篇研报,独立设计假设并构建营收预测模型,再基于模版产出 PPT 和研究报告 —— 像一个初级分析师一样理解、判断、输出,并在多轮交互中自我修正。从业者的评价是:产出物已经可以作为初稿直接进入后续工作流程。下面是一个关于台积电的例子。










最近 OpenClaw 爆火为代表的 Agent 社区蓬勃发展,我们很高兴看到 M2 系列模型帮助到了社区的繁荣。我们基于 OpenClaw 中的常用任务,构建了一个评测集 MM-Claw,涵盖个人学习规划,到办公文档的处理与交付、定时的专业信息调研与投资建议、代码开发与维护等工作与生活中形形色色的真实需求。M2.7 在这个测试中达到了接近 Sonnet 4.6 的水平,正确率是 62.7%。04、互动娱乐在 OpenClaw 等 Agent 脚手架的使用过程中,不少用户在使用 Agent 完成工作的同时,还希望模型具备比较高的情商和复杂人设保持能力。在有人设的情况下,用户不再只是让模型机械完成任务,而是开始自然于与 Agent “相处”。这促使我们思考,产品与交互设计、内容创作、甚至娱乐体验的构建,都可以被 AI 原生驱动的可能性。我们认为这会让 Agentic 模型的使用从单纯的生产力能进一步拓展到互动娱乐。为此,我们在 M2.7 中极大加强了人设保持和对话能力。基于此,我们构建了一个 Agent 交互系统 OpenRoom,它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。我们认为这个框架扩展性较高,能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索出更多人与 Agent 之间全新的交互方式。为了促进这个领域的创新,我们已将这个原型项目开源(这个里面的代码大部分也是 AI 写的):项目地址: github.com/ MiniMax-AI/OpenRoom立即体验: openroom.aiMiniMax M2.7 已在 MiniMax Agent 与开放平台上全量上线,期待用户和开发者朋友们能在 MiniMax M2.7 上探索出更多有趣场景。MiniMax Agent:agent.minimaxi.comAPI 服务:platform.minimaxi.comCoding Plan 订阅:platform.minimaxi.com/subscribe/coding-plan
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。
