MiniMax发布开源推理模型M1 挑战业界巨头
时间:2025-06-19 12:25
小编:小世评选
近日,总部设在上海的人工智能公司MiniMax正式推出了其全新的开源推理模型M1。这款模型在性能和成本方面对比中国的DeepSeek和美国的主要竞争者(如Anthropic、OpenAI及Google)发起了强有力的挑战。M1的发布不仅标志着MiniMax在人工智能领域的新进展,也为开源生态系统注入了新的活力。
M1的发布采用了Apache软件许可证,真正意义上实现了开源,这与Meta推出的Llama系列(使用非开源社区许可证)及DeepSeek采取的部分开源策略形成鲜明对比。MiniMax在其官网博客中强调,M1在复杂的生产力场景中展现出的能力在开源模型中名列前茅,不仅超越了国内的一些闭源模型,甚至在性能上接近一些国际领先的闭源模型,同时具备无与伦比的成本效益。
在这次发布中,MiniMax详细阐述了M1的多项技术指标。根据公司发布的基准测试结果,M1在AIME 2024、LiveCodeBench、SWE-bench Verified、Tau-bench和MRCR等多个评测中与OpenAI的o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1、DeepSeek R1-0528及Qwen3-235B展开了全面的对比。虽然不同模型的性能对比仍需谨慎解读,MiniMax已经在GitHub上公开了M1的源代码,用户可以自主验证模型的性能并进行修正,从而促进了科研的透明度与合作。
MiniMax在行业中的目标明确,期望取代DeepSeek成为AI领域的颠覆者。特别是在模型的上下文窗口方面,M1的表现尤为亮眼。M1的上下文窗口能够处理高达100万个token的数据,而这一指标不仅与谷歌的Gemini 2.5 Pro相当,甚至是DeepSeek R1的八倍,这为其在实际应用中开拓了更大的空间。
M1在输出性能上的优势也日益显著。该模型可以处理高达8万个token的输出,这一能力明显优于DeepSeek的6.4万个token,但略逊于OpenAI o3的10万token输出能力。这种多样化的能力使得M1在实际应用中表现出更强的灵活性和适应性,因此MiniMax对于M1的前景充满信心。
在模型的技术创新方面,MiniMax的Lightning Attention机制备受瞩目。该机制通过改进注意力矩阵的计算方式,提升了模型在训练和推理阶段的效率,使得M1在处理长上下文输入和推理时所需的计算资源大幅度减少。MiniMax表示,“在执行高达8万个token的深度推理时,M1的计算需求仅为DeepSeek R1的约30%。”这一效率的提升将大幅降低训练和推理的成本。
值得一提的是,通过改进的信息增强过程,MiniMax还引入了一种名为CISPO的强化学习算法,这一创新使得M1在计算成本方面也实现了有效压缩。根据MiniMax的声明,整个强化学习的训练阶段仅使用了512块英伟达H800芯片,持续三周的租赁成本仅为53.74万美元,这一数字比最初的预期成本少了一个数量级,这展现了MiniMax在AI训练和推理方面的技术实力和市场竞争力。
关于M1的未来,MiniMax计划继续优化模型的性能,推动其向更高的规格和能力发展。公司还计划与更多的开发者和科研团队进行深入合作,以寻找更广泛的应用场景和合作机会。此次开源模型的发布,为MiniMax扫清了更多的市场竞争障碍,同时也为广大开发者提供了一个强大的工具进行更为深入的探索与研究。
随着人工智能行业的迅猛发展,MiniMax的M1模型不仅为自身的业务增长提供了强力支撑,也为整个AI生态系统带来了新的机遇与挑战。未来,MiniMax将如何持续创新,与全球顶尖的AI公司展开竞争,值得行业内外持续关注。