训练成本不到 50 美元，研究人员打造出媲美 OpenAI o1 的推理模型

[db:作者] · 发表于 2025-8-1 20:24

IT之家 2 月 6 日消息，一份上周五发布的研究报告显示，斯坦福大学和华盛顿大学的人工智能研究人员仅花费不到 50 美元（IT之家备注：当前约 364 元人民币）的云计算费用，就成功训练出一个具备“推理”能力的人工智能模型。
该模型名为 s1，在数学和编程能力测试中表现出与 OpenAI 的 o1 和 DeepSeek 的 r1 等顶尖推理模型相似的水平。目前，s1 模型及其训练所用的数据和代码已在 GitHub 上开源。
s1 团队表示，他们通过“蒸馏”技术创建了该人工智能模型，该技术旨在通过训练模型来学习另一个人工智能模型的答案，从而提取其“推理”能力。研究人员透露，s1 是从谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸馏出来的。上个月，加州大学伯克利分校的研究人员也使用了相同的蒸馏方法，以约 450 美元的成本创建了一个人工智能推理模型。
类似 s1 模型的出现也引发了关于人工智能模型商品化的问题 —— 如果有人可以用相对较低的成本就能复制一个价值数百万美元的模型，那么大型科技公司的“护城河”在哪里呢？
不出所料，大型人工智能实验室对此并不满意，例如 OpenAI 此前就指责 DeepSeek 不当获取其 API 数据用于模型蒸馏。
s1 的研究人员希望找到实现强大推理性能和“测试时扩展”（即允许人工智能模型在回答问题之前进行更多思考）的最简单方法，这些是 OpenAI 的 o1 中的一些突破。
s1 的论文表明，可以使用一种称为监督微调（SFT）的方法，可以使用相对较小的数据集来蒸馏推理模型。在 SFT 中，人工智能模型会被明确指示在数据集中模仿某些行为。SFT 比 DeepSeek 用于训练其 R1 模型的大规模强化学习方法更具成本效益。
谷歌通过其 Google AI Studio 平台免费提供 Gemini 2.0 Flash Thinking Experimental 模型的访问权限，但每天有使用限制。然而，其条款禁止对模型进行逆向工程，以开发与谷歌自身人工智能产品竞争的服务。
S1 基于阿里巴巴旗下中国人工智能实验室 Qwen 提供的一款小型、现成的免费人工智能模型。为了训练 s1，研究人员创建了一个仅包含 1000 个精心策划的问题的数据集，以及这些问题的答案，以及谷歌 Gemini 2.0 Flash Thinking Experimental 给出的每个答案背后的“思考”过程。
研究人员表示，在训练 s1 后（使用 16 个 Nvidia H100 GPU，耗时不到 30 分钟），s1 在某些人工智能基准测试中取得了良好的表现。参与该项目的斯坦福大学研究员 Niklas Muennighoff 告诉 TechCrunch，目前租用这些计算资源的成本约为 20 美元。
研究人员使用了一个巧妙的技巧来让 s1 检查其工作并延长其“思考”时间：他们让它“等待”。论文显示，在 s1 的推理过程中添加“等待”一词，有助于模型获得稍微更准确的答案。