成本仅50美元，性能媲美Deepseek-R1

iagree · 发表于 2025-2-7 12:00:01

在DeepSeek火爆全球之际，一个更低成本的AI推理模型悄然登场...

近日，一项来自斯坦福大学和华盛顿大学等机构的研究成果引起了市场关注，李飞飞等人以不到50美元的云计算费用成功训练出了一个名为s1的AI推理模型。研究成果表明，s1在数学和编码能力测试中与OpenAI的o1和DeepSeek的R1等模型的表现不相上下。

s1论文作者Niklas Muennighoff表示：

“DeepSeek r1令人兴奋，但缺少OpenAI的测试时间扩展图，并且需要大量数据。我们推出了s1，仅使用1K样本和简单的测试时间干预即可重现o1的预览扩展和性能。”

简单高效的训练方法，挑战传统AI研发模式
s1的研究团队表示，s1模型是以谷歌推理模型Gemini2.0 Flash Thinking Experimental为基础模型，通过蒸馏法提炼出来的。

他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K，通过难度、多样性和质量三个标准来筛选，其中包括1000个经过精心挑选的问题以及相应答案，并附上了“推理”过程，仅使用了16台英伟达H100 GPU，耗时26分钟就完成了训练。
这种方法与传统的大规模强化学习方法（RL）形成鲜明对比，后者的成本通常较高，DeepSeek、OpenAI都采用了这种方法。而s1的研究通过较小的数据集和监督微调（SFT）蒸馏推理模型，大大降低了训练成本并提高了效率。

此外，为了提高答案的准确度，研究团队还运用了一种“预算强制”技术，可以控制测试时间计算，通过强制提前终止模型的思考过程，或在s1推理时多次追加“等待”指令以延长思考，从而优化性能。

研究显示，新模型s1-32B在使用该技术后，性能与测试时的计算资源成正相关。

性能媲美顶级模型，引发行业关注和担忧
根据研究团队的测试结果可知，在竞赛数学问题上，s1-32B的表现较o1-preview高27%（MATH和AIME24）；且该模型在AIME24上的表现几乎与Gemini 2.0 Thinking API相当，显示其蒸馏过程是有效的。

而s1的出现也引发了行业的担忧。此前，OpenAI曾指控DeepSeek不当使用其API数据进行蒸馏。

有分析人士质疑，如果任何人都可以轻易复制和超越现有的顶级模型，那么大型AI公司多年的研发投入和技术积累可能会受到威胁。而且，尽管蒸馏技术在以较低成本复现AI模型方面表现出色，但其对新AI模型性能的提升效果并不显著。

本文来自华尔街见闻

……………………………………
专业上不太懂，成本 50 美元是站在巨人的肩膀上做的部分功能的二次开发吧！
是不是有点偷换概念呢？

safengine · 发表于 2025-2-7 12:29:35

感觉ai比很多普通人工作能力都强了

kalong · 发表于 2025-2-7 13:41:24

数据蒸馏是不是可以看成是摘桃子。一切建立在庞大原始数据的收集、整理、归纳、分析基础之上。原始数据或模型不开源，蒸馏什么呢？

数据蒸馏（Data Distillation）是一种机器学习技术，旨在通过提炼和浓缩原始数据中的关键信息，生成更精简且高效的数据集，以提高模型的训练效率和性能。这一过程涉及对原始数据进行去噪、降维和特征提取等操作，使模型能够从更小但信息密度更高的数据集中学习。
NEWS.SOHU.COM

在数据蒸馏过程中，通常会使用一个性能优异的教师模型（Teacher Model）来生成精炼的数据或伪标签，这些数据随后用于训练较小的学生模型（Student Model）。这种方法不仅能加速模型的训练过程，还能在保持模型性能的同时显著减少计算资源的消耗。
CLOUD.BAIDU.COM

数据蒸馏在多个领域具有广泛的应用，包括：

模型压缩：通过数据蒸馏，将大型模型的知识传递给小型模型，实现模型压缩，适用于资源受限的环境。

隐私保护：通过生成不含敏感信息的精炼数据集，保护数据隐私。

持续学习：在持续学习场景中，数据蒸馏有助于模型在学习新任务时保持对旧任务的性能。

值得注意的是，数据蒸馏与知识蒸馏（Knowledge Distillation）密切相关。知识蒸馏主要关注将大型模型的知识传递给小型模型，而数据蒸馏则专注于从原始数据中提炼出精炼的数据集。两者结合使用，可以在保持模型性能的同时，实现模型的高效训练和部署。
CLOUD.BAIDU.COM

随着深度学习模型规模的不断扩大，数据蒸馏技术在提高模型训练效率、降低资源消耗方面展现出重要价值，成为当前人工智能研究的热点之一。

kalong · 发表于 2025-2-7 13:43:14

这个李飞飞，还可以看看她爷爷的光辉事迹。

喜乐蒂乐乐 · 发表于 2025-2-7 14:30:33

百家争鸣的时代到来了。
deepseek确实有一鸣惊人的感觉，这次让老美那边有点慌了，希望国产大模型继续再接再厉。
此外硬件方面咱们也得发力，不然咱们大模型做得再好，也还是得用英伟达/amd的芯片，现在国产芯片隐隐有崛起之势，看看能不能这方面也继续突破，再多给老美一点震撼。

		自动登录	找回密码
密码			注册

[【其它】] 成本仅50美元，性能媲美Deepseek-R1

评分