首页 > 3D快报内容详情

李飞飞团队“50美元”训练AI模型真相曝光:基于阿里云Qwen模型的微调之路

3小时前 14 大屏时代

近日,李飞飞团队及华盛顿大学的研究人员成功通过不到50美元的云计算费用,训练出了名为s1的人工智能推理模型,该模型在数学和编码能力测试中的表现与OpenAI的O1和DeepSeek的R1等顶尖推理模型相当。此消息一出,立刻引发了AI界的广泛关注,许多人纷纷为这种“低成本、高性能”的突破欢呼。然而,经过深入调查和业内专家的解读,这一现象的背后藏着更多的细节。

640 (2).png

真相:低成本背后的“强大基座”

根据李飞飞团队的研究论文,s1模型并非从零开始训练,而是基于阿里云通义千问(Qwen)模型进行监督微调。也就是说,s1模型的训练并没有完全依赖于从头开始构建一个全新的模型,而是在已有的强大基础模型的帮助下,利用极少的数据进行精细调校。这一微调过程的成本极为低廉,但其核心价值却依然是建立在Qwen模型强大的能力之上。

1000个样本:微调的“锦上添花”

斯坦福s1的论文明确指出,模型仅使用了1000个样本数据来进行训练。在AI训练中,这一数据量被认为是微乎其微,远不足以从零开始培养一个具有推理能力的模型。谢伟迪副教授(上海交通大学人工智能学院)指出,s1的“低成本”秘诀并非完全依赖这1000个样本,而是在阿里Qwen模型的基座上进行微调。这种训练方式更像是“锦上添花”,而非“从零开始”的独立创新。

国内某知名大模型公司CEO也向记者表示:“所谓的50美元训练新模型,其实只是通过从现有的谷歌模型中提取了1000个样本,并在Qwen模型基础上进行微调。这一过程的成本低,但显然是依托于现有领先的基础模型。”

通义千问:真正的技术“基座”

无论是斯坦福、华盛顿大学,还是其他团队声称的低成本训练,他们的研究成果都不例外地依赖了阿里云的Qwen模型。这一模型的强大性能使得它成为了许多低成本训练方案的基础。谢伟迪进一步解释道:“如果换成其他基座模型,s1模型的能力可能不会有显著提升。因此,真正值得关注的技术突破是Qwen模型,而不是s1本身。”

低成本训练的局限性与挑战

尽管s1模型的低成本训练揭示了AI领域在降本增效方面的潜力,但这种方法并非万能。首先,低成本训练依赖于已有的强大基础模型(如Qwen),如果没有这样的基座,训练效果可能会大打折扣。其次,1000个样本的数据量通常不足以处理复杂任务,因此在一些高要求的AI应用中,这种训练方法的效果可能会受到限制。

此外,随着更多的研究开始依赖已有的开源基础模型进行微调,AI知识产权和伦理问题也随之浮现。一个重要问题是,开发这些基础模型的团队是否应当从使用他们模型的微调研究中获得回报?如何确保AI技术的公平使用,并避免技术壁垒的建立?

未来展望:低成本、高效能模型的研究方向

尽管低成本训练的研究成果引发了争议,它也为AI领域提供了新的思路:如何在保证模型性能的前提下,进一步降低训练成本?武汉人工智能学院的资深研究人员指出,随着技术的进步,未来AI模型的训练成本有望大幅下降,同时保持甚至提升其性能。

这些低成本的训练方式为AI技术的普及提供了新的可能,尤其是在更多小型团队和初创公司也能有机会接触到高效能模型的今天,AI技术的民主化正在加速推进。

李飞飞团队以不到50美元的云计算费用训练出的s1模型,虽然在数据量和训练成本上展示了AI领域的潜力,但其背后的“强大基座”也不容忽视。正是依托于阿里云Qwen模型的强大性能,才使得s1能够在短时间内获得如此高的训练效率。这一现象为AI研究提供了新的启示:未来的AI模型训练可能将更多依赖现有的强大基础模型,并通过低成本微调提升效率。然而,如何平衡技术创新、知识产权与伦理问题,仍将是行业面临的重要挑战。

相关标签: 50 1000 模型 AI 训练 s1 低成本 Qwen 微调 基座