编者注:本文根据美国知名播客主持人 Lex Fridman 与两位重量级嘉宾——半导体分析专家 Dylan Patel、AI 研究科学家 Nathan Lambert 之间的长达五小时访谈整理而成。原对话文字超十万字,我们在保留主要观点和思考深度的基础上进行了凝练和改写,希望给读者带来更流畅、更具可读性的阅读体验。
Lex Fridman率先抛出问题:“DeepSeek 究竟是什么?V3、R1 又分别代表了什么?”
据 AI 研究科学家 Nathan 所述,DeepSeek R1 的做法新颖且颇具争议:一方面,用户能直观了解模型如何拆解问题;另一方面,可能也暴露了模型潜在的漏洞或安全隐患。但就技术突破而言,R1 的意义无疑非常大。
DeepSeek 模型在大语言模型界引起轰动,另一个重要原因是它的权重采用了 MIT 许可证,极为宽松,对商业使用几乎“零阻力”。
Nathan 强调,“开源”并不只在于 “给你下载权重”,还包括数据集、训练代码、训练过程等是否透明。DeepSeek 并未彻底公布所有训练数据和代码,但比大多数对手都更开放,尤其是许可极为宽松。
谈及 DeepSeek 的技术细节,半导体专家 Dylan 重点提到 MoE(Mixture of Experts) 与 MLA(Multi-Head Latent Attention):
正是MoE + MLA + 深层次底层优化,让 DeepSeek 的训练、推理成本都明显降低,带来“用 2000 块 H800 GPU 训练”的神话。尽管真实总成本远不止官方公告那点,但其效率之高仍令业界惊叹。
Dylan 提出一个形象的术语——“YOLO(You Only Live Once)实验”:
OpenAI 当年训练 GPT-4 时就采用了类似“YOLO策略”,背后压力巨大,但若成功,回报也极其丰厚。DeepSeek 一路走来同样如此,他们反复试错之后,突然一把“赌”在 MoE 架构和 MLA 上,一旦损失能承受,就能趁早推出成果并快速迭代。
很多人注意到,DeepSeek R1 的 API 调用价格比 OpenAI o1 便宜 20~30 倍,且对外开放的规则更少。
Dylan 与 Nathan 都同意:DeepSeek 的确展现出顶尖的工程与架构能力,加上他们在量化领域沉淀已久的算法功底,同时短期并未给 API 定价设定高盈利目标,从而呈现出这般“又强又便宜”之姿。
训练大型模型时,研究员最关注的就是损失函数(Loss)。然而,当引入 MoE 或低精度混合时,往往在训练中期会出现**“损失峰值”**:
这些都让大模型训练成为一场高投入、高风险的“神经网络探险”。
AI 科学家 Nathan 引述了 AlphaGo vs. AlphaZero 的对比:
同理,DeepSeek R1 之所以能在推理方面拥有“思维链”,就是因为它采用了以数学、代码为核心的强化学习,让模型在可验证领域里多次试错,并学会了复杂的分步推理。
Andrej Karpathy 也曾指出:“所有令人惊艳的深度学习成果,背后几乎都有 RL(强化学习)的影子。”对大语言模型而言,人类无法注释所有推理过程,只能让模型在可验证环境中自己“摸爬滚打”。这一点也适用于 OpenAI 的 o3、谷歌 Gemini 的 Flash Thinking 等新一代推理模型。
现有的大语言模型,一旦开启多次搜索、多项并行采样或极长的思维链,推理成本立刻飙升。“生成 1 万 token 的复杂推理,成本可达数美元乃至数十美元一次”,对大多数应用而言经济上不可行。
然而,技术曲线正快速下行:GPT-3 推理成本与 ChatGPT-4 turbo 版相比已差了 1200 倍。随着硬件升级、架构优化、MoE/MLA 等创新不断涌现,推理成本必然继续大幅度下降。届时,可以负担更深层次、更复杂的搜索与推理,AI 将真正进军“高水平泛用智能”。
谈及“AGI(通用人工智能)何时问世?”,大家意见分歧。
Dylan 对美国数据中心的扩张感到震撼:
这代表预训练与后训练的资源争夺仍在加速,任何一家想在 AGI 竞赛中抢先,都必须在算力规模上下重注。
在多地数据中心功率需求激增时,电网无法快速扩容,很多科技公司干脆自己建燃气发电站或配备移动发电机。“大家都不再顾虑环保指标,只想着——‘这场竞赛不能输。’” Dylan 解释说,许多原本宣称可再生能源的企业,如 Meta、微软,也开始现实地用天然气发电。“也许未来 AGI 能解决全球变暖。”
一切迹象表明,NVIDIA 依旧牢牢占据 AI 芯片“绝对龙头”。哪怕有低价高效的大语言模型出现,对 GPU 的需求只会更多,这也就是“杰文斯悖论”——效率越高,总体消耗越大。
Lambert 介绍了自家 AI2 “Tülu”项目,试图把后训练代码和数据都尽可能公开。他认为,DeepSeek R1 的 MIT 许可证对开源而言是一大步,真正消除了商业化的桎梏。但要实现类似“Linux 生态”一样的健康 AI 开源生态,还需更多的公共数据、公共训练代码,并建立行之有效的“反馈循环”。
许多“AI 智能体”产品夸下海口,号称能自行在互联网或应用中执行复杂操作,仿佛替代人类。但 Dylan 和 Nathan 都很谨慎:
不过,这并不妨碍“AI 代理”在小范围、可控沙盒里发挥巨大价值,比如跨部门调度企业内部系统、对接 ERP、自动下单等。长远看,AI 自主能力终将扩展,但需要极大的工程投入与场景适配。
不少人担心 ChatGPT 和 DeepSeek 等模型会让编程人员大量失业,但实际上:
Lex Fridman用理查德·费曼的名言收尾:
“对于一项成功的技术,现实必须优先于公关,因为大自然是不可欺骗的。”
“人类智慧”和“人工智能”之战,或许并非你死我活,而是长期协同共舞。深度对话中,多位专家都表达了对未来的审慎乐观:不管是下一代超大规模算力,还是以强化学习为核心的全新推理范式,抑或企业间的激烈竞争,都将汇成一股浪潮,将我们推向未知但令人兴奋的彼岸。