媲美OpenAI和Deepseek AI教母李飞飞只花20美元创建AI模型

立即订阅亚视新闻 YouTube,即时掌握时事发展。
小
中
大
知名华裔美籍科学家李飞飞率领的研究团队,近日发布了一款名为 s1-32B 的AI推理模型,其部分能力可媲美 OpenAI o1 预览版 和 Deepseek-R1,在数学推理任务上的表现甚至更胜一筹。然而,最引人关注的是,这一突破仅用 16张NVIDIA H100 GPU、花费约20美元、训练时间26分钟,再次引发业界热议。
根据论文数据,s1-32B 在数学竞赛类问题上的表现优异,特别是在 MATH 和 AIME24 数据集上的成绩,比OpenAI o1 预览版高出 27%。研究人员指出,这主要得益于 “预算控制策略”,透过wait指令延长推理过程,让模型自我检查并优化推理步骤,从而提升答案质量。
同时,s1-32B 的核心架构基于阿里巴巴的 Qwen2.5-32B-Instruct,并结合谷歌Gemini 2.0 Flash的思考过程进行微调。然而,这种训练方式可能涉及谷歌(Google)模型的逆向工程,或违反其使用条款。目前,谷歌尚未对此作出回应。
低成本的秘密:微调而非从零训练
复旦大学电脑科学学院副教授郑骁庆指出,s1-32B 训练成本极低的关键在于基于现成的预训练模型,而非从零开始训练。他同时质疑,研究论文所提的20美元是否涵盖了数据处理、实验等额外成本,毕竟AI训练通常涉及高昂的计算资源。
相比 DeepSeek 依赖强化学习(RLHF) 和大规模算力,李飞飞团队选择了一种更轻量级但高效的推理优化方法,使得模型在生成答案时能够多次迭代修正,从而实现高质量输出,同时大幅降低计算成本。
尽管争议仍存,s1-32B无疑展现了强大的 样本效率与推理能力,为 AI人工智能领域提供了一种更具性价比的训练路径,或将影响未来大模型的发展方向。