标题: MistralAI推出24B开源模型能运行于32GBRAM苹果MacBook [打印本页] 作者: [db:作者] 时间: 2025-8-1 20:47 标题: MistralAI推出24B开源模型能运行于32GBRAM苹果MacBook 同样面对 AI 大模型领域的“鲶鱼”DeepSeek,不同于美国 AI 公司 Anthropic CEO 达里奥·阿莫迪(Dario Amodei)用“万字檄文”施压白宫加强管制的敌对态度,法国明星 AI 公司 Mistral AI 则在发布自家新模型的同时在其技术博文中两次“致敬”DeepSeek。
当地时间 1 月 30 日,Mistral AI 发布一款名为 Mistral Small 3 的开源模型。与此同时,其发表了一篇技术博文针对该模型加以详细介绍。
Mistral AI 在博文中表示:“Mistral Small 3 既没有经过强化学习训练,也没有经过合成数据训练,因此比 Deepseek R1(一项伟大而互补的开源技术!)等模型更早进入模型生产流程。”
其还写道:“对于开源社区来说,这是激动人心的日子!和最近发布的 DeepSeek 一样,Mistral Small 3 为大型开源推理模型带来了补充,作为一款强大的基础模型,其推理能力得到了更进一步的发展。”言辞之间,似乎流露着 Mistral AI 对于 DeepSeek 的惺惺相惜。
值得一提的是,Mistral Small 3 的层数远少于同类模型,大大减少了每次前向传播的时间。
在评估该模型的性能时,Mistral AI 与外部第三方供应商一起针对 1k 多个专有编码和通才提示进行并排评估。这项评估任务旨在从 Mistral Small 3 与从另一个匿名模型生成的内容中,挑选出来更受欢迎的模型响应。
Mistral AI 在博文中写道:“我们意识到在某些情况下,人类判断的基准与公开可用的基准截然不同,但在核实公平评估时我们格外谨慎。因此我们相信,上述基准是有效的。”
评估结果显示,相比三倍于其大小的开源权重模型和专有 GPT4o-mini 模型,Mistral Small 3 的指令调优模型在代码、数学、常识和指令遵循基准测试上更加出色。
Mistral AI 表示,Mistral Small 3 是目前同类产品中最有效的模型,它很好地补全了大型开源推理模型,其还称 Mistral Small 3 极大降低了计算成本,并表示这可能会重塑先进 AI 部署的经济性。
Mistral AI 的联合创始人兼首席科学官纪尧姆·兰普莱(Guillaume Lample)也告诉媒体:“我们认为,它在所有参数小于 700 亿的模型中是最好的。”“我们估计它基本上与几个月前发布的 meta Llama 3.3 70B 相当,而 Mistral Small 3 却比它小了近三倍。”
据介绍,Mistral AI 之所研发这款新模型,是为了在适合本地部署的规模上拉满模型性能。Mistral AI 的技术方法侧重于效率而非规模,其主要通过迭代模型训练技术来提高模型性能,这样一来无需再投入更多的计算能力。
事实上,不仅 Mistral AI 的模型训练方式有所不同,其模型优化的方式也有所不同。据介绍,Mistral Small 3 在 8 万亿个 tokens 上进行训练,而同类模型的训练量为 15 万亿,这让那些重视计算成本的企业更容易获得先进的 AI 功能。
据该公司称,Mistral Small 3 可以在单个图形处理器(GPU,graphics processing unit)上运行,并能处理 80-90% 的典型业务,这些业务往往需要严格的语言和指令遵循表现、以及对于延迟要求非常低。与此同时,Mistral AI 在 Apache 2.0 协议下发布了预训练和指令调优的检查点。
Mistral Small 3 允许企业自由修改和部署它,因此 Mistral AI 表示它非常期待开源社区来采用 Mistral Small 3 以及基于定制其进行模型性质,并表示非常欢迎开发者通过破解 Mistral Small 3 来使其变得更好。
同时,Mistral AI 还在官网预告称,预计未来几周内 Mistral AI 的小模型和大模型将具有更强的推理能力。
随着 AI 行业的成熟,Mistral AI 对更小、更高效模型的关注,可能会被证明是一种具有先见之明的做法。目前,OpenAI 和 Anthropic 等公司更专注于开发越来越大、越来越昂贵的模型,而 Mistral AI 的做法则和其形成鲜明对比。