2026年6月大模型排行：MiniMax M3推荐，编程能力直逼Claude Opus 4.7

据智东西6月1日的报道, MiniMax于今日发布了新一代旗舰大模型M3, 该模型在编程以及Agent能力方面达到前沿水准, 进而引发了行业的热烈讨论, 对于这到底是技术突破还是营销的噱头呢, 我们在第一时间展开了实测。

编程Agent能力成焦点

于多款基准测试里, MiniMax M3的编程以及Agent能力展现突出, 超越诸多竞争对象。此模型可以领会真实开发工作流程, 主动去跟用户交流需求。

MiniMax察觉到, 传统编程测试基准有着显见的局限, 它们假定任务是一轮就完成的, 然而实际开发里是需要多次反复进行迭代的, 此情形致使测试分数不能够全然地反映出真实体验。

MiniMax为了达成缩小差距的目的, 开发了一个交互式用户模拟器框架, 这个框架对真实开发者的协作行为予以模拟, 使得模型在训练以及评测期间能接触到更趋近于实际情况的交互场景。

在实测的过程当中, 我们对于M3提出了一项要求, 那就是要去实现一个类似于谷歌文档的协作系统的MVP版本。模型会先跟用户就技术选型展开讨论, 之后历经10分钟的思考, 最终给出完整的规划, 整个过程真的是让人印象颇为深刻。

对于动态SVG图生成任务而言, MiniMax M3虽说勾勒出了大致的外形框架, 然而自行车以及鹈鹕的外在模样并非全然精准无误。可是, 当开展复杂任务之际, 它能够持续地进行自我反思进而对代码予以修改。

总体而言, MiniMax M3于编程Agent任务当中，领会了实际协作流程, 能够主动开展沟通, 进而进行迭代优化情形下, 不过任务完成程度仍旧拥有提升的空间存在了, 如此这般便给后续版本留出了改进的余地所在了。

MiniMax宣称, M3属于那种自起始点起就开展多模态混合训练的模型, 且着重指出, 交错数据对于性能所带来的提升效果, 相较于普遍认知而言, 具备更为关键的意义。其训练数据规模已然提升到了100万亿token量级。

于视觉QA任务里, DeepSeek等模型可把地点精准辨认至10公里范围以内, 然而MiniMax M3的表述虽说详尽, 不过跟头部模型相比较而言还是存有一定差距的。多模态基础扎实, 只是需要持续进行优化。

MiniMax M3运用了新型注意力机制MSA, 在预填充阶段, 它比采用全注意力机制的M2加速了9倍, 在解码阶段, 它比M2加速了15倍, 这种设计能够精准地对KV进行分块, 从而实现更高的有效覆盖。

团队于算子层面, 采用“KV outer gather Q”策略, 每个块仅读取一回, 速度比开源方案快4倍有余, 达成了效率跟性能的平衡, 为长上下文应用予以支撑。

MiniMax M3具备能够连续展开工作达24小时的特性, 于经历147次基准提交以及1959次工具调用之后 , 促成了将CUDA内核予以优化到峰值利用率为71.3%的结果 , 达成了9.4倍的加速成效 , 这呈现出了具备强大能力的自主Agent的表现。

眼下, M3已然于MiniMax Code、Token Plan以及API里上线, 在未来的10天之内将会更新技术报告并且开源权重。这给开发者赋予了更多应用可能性。

你所认为的MiniMax M3, 它有没有可能在编程范畴之内去超越DeepSeek以及GPT - 4o, 欢迎于评论区域当中去把你的看法给分享出来, 点赞并且转发能让更多的人看到！