首页 > 3D快报内容详情

深度对话:从 DeepSeek 技术突破到 AI 超级集群的未来

2周前 190 大屏时代


编者注:本文根据美国知名播客主持人 Lex Fridman 与两位重量级嘉宾——半导体分析专家 Dylan Patel、AI 研究科学家 Nathan Lambert 之间的长达五小时访谈整理而成。原对话文字超十万字,我们在保留主要观点和思考深度的基础上进行了凝练和改写,希望给读者带来更流畅、更具可读性的阅读体验。

7d15a4cf9bf458b006f29376df47a681.png

01 | DeepSeek:从“黑马”到热议焦点

1.1 DeepSeek 是什么?

Lex Fridman率先抛出问题:“DeepSeek 究竟是什么?V3、R1 又分别代表了什么?”

  • DeepSeek V3这是由中国团队“深度求索(DeepSeek)”在 Transformer 体系下研发的大型混合专家 (MoE) 大语言模型。V3 有基础版(Base)和指令微调版(Instruction)。前者只能简单地补全文本,后者则通过指令学习变得更像 ChatGPT。
  • DeepSeek R1这是在 V3 基础上进行强化学习推理训练(RL 推理)后形成的新模型,主打“思维链”可视化。R1 生成答案时会分两步:先展示模型的内在推理过程(类似开放的“链式思考”),再给出高度总结的回答。简单来说,它把“怎么想的”都摊开给你看。

据 AI 研究科学家 Nathan 所述,DeepSeek R1 的做法新颖且颇具争议:一方面,用户能直观了解模型如何拆解问题;另一方面,可能也暴露了模型潜在的漏洞或安全隐患。但就技术突破而言,R1 的意义无疑非常大。

1.2 “开放权重”意味着什么?

DeepSeek 模型在大语言模型界引起轰动,另一个重要原因是它的权重采用了 MIT 许可证,极为宽松,对商业使用几乎“零阻力”。

  • OpenAI的 GPT 系列属闭源;
  • Meta 的 Llama 在许可证里有诸多限制;
  • DeepSeek 的公开程度和商业友好度堪称“前所未见”,被视为真正意义上的大模型“开放权重”里程碑。

Nathan 强调,“开源”并不只在于 “给你下载权重”,还包括数据集、训练代码、训练过程等是否透明。DeepSeek 并未彻底公布所有训练数据和代码,但比大多数对手都更开放,尤其是许可极为宽松。

1.3 深入底层:混合专家 MoE 和 MLA

谈及 DeepSeek 的技术细节,半导体专家 Dylan 重点提到 MoE(Mixture of Experts)MLA(Multi-Head Latent Attention)

  1. MoE:传统大模型是“稠密”参数,无论什么输入都要激活全部参数;MoE 结构下,模型可为不同任务分配不同的“专家”,每次只激活一部分,极大降低算力消耗。DeepSeek 的 MoE 架构稀疏度极高,如“8:256”或“16:512”,需要解决负载均衡和路由调度等难题。DeepSeek 通过深入的CUDA/PTX编程和自定义通信库,才能在资源有限的条件下训练出这么大的稀疏模型。
  2. MLA:这是 DeepSeek 对注意力机制做的升级,相比普通多头注意力(Multi-Head Attention),能节省 80%~90% 的内存占用。在长上下文或推理链条特别长的情况下,MLA 对降低计算成本功不可没。

正是MoE + MLA + 深层次底层优化,让 DeepSeek 的训练、推理成本都明显降低,带来“用 2000 块 H800 GPU 训练”的神话。尽管真实总成本远不止官方公告那点,但其效率之高仍令业界惊叹。

02 | 训练大模型到底有多“烧钱”?

2.1 YOLO 实验:押注一次终极训练

Dylan 提出一个形象的术语——“YOLO(You Only Live Once)实验”

  • 在正式大规模训练前,研究员会做无数小规模尝试;
  • 最后,总要有一次真正的大手笔“孤注一掷”的训练,一旦出问题就得回退很久,浪费数百万乃至上亿美元 GPU 费用。

OpenAI 当年训练 GPT-4 时就采用了类似“YOLO策略”,背后压力巨大,但若成功,回报也极其丰厚。DeepSeek 一路走来同样如此,他们反复试错之后,突然一把“赌”在 MoE 架构和 MLA 上,一旦损失能承受,就能趁早推出成果并快速迭代。

2.2 为什么 DeepSeek 服务如此便宜?

很多人注意到,DeepSeek R1 的 API 调用价格比 OpenAI o1 便宜 20~30 倍,且对外开放的规则更少。

  • 有人猜测 DeepSeek 在亏本运营,甚至以量化基金收入进行补贴;
  • 或者靠高效底层优化真的把成本压得极低;
  • 也可能部分功能尚未全面放开,为数不足的 GPU 严重限制了服务规模。

Dylan 与 Nathan 都同意:DeepSeek 的确展现出顶尖的工程与架构能力,加上他们在量化领域沉淀已久的算法功底,同时短期并未给 API 定价设定高盈利目标,从而呈现出这般“又强又便宜”之姿。

2.3 训练损失的“峰值”与意外崩溃

训练大型模型时,研究员最关注的就是损失函数(Loss)。然而,当引入 MoE 或低精度混合时,往往在训练中期会出现**“损失峰值”**:

  • 如果峰值无法回落,模型可能直接炸掉,需要退回更早 checkpoint;
  • 有时损失峰值只是偶尔的奇怪数据造成,跳过这些batch即可继续;
  • 还有“整体学习 (Grokking)”现象,模型损失会长时间停滞,随后突然暴跌。

这些都让大模型训练成为一场高投入、高风险的“神经网络探险”。

03 | AGI 与推理时代的到来

3.1 强化学习:大语言模型的终极催化剂?

AI 科学家 Nathan 引述了 AlphaGo vs. AlphaZero 的对比:

  • AlphaGo 先模仿人类棋谱,再用 RL 微调;
  • AlphaZero 则彻底抛弃人类数据,靠自对弈登上巅峰。

同理,DeepSeek R1 之所以能在推理方面拥有“思维链”,就是因为它采用了以数学、代码为核心的强化学习,让模型在可验证领域里多次试错,并学会了复杂的分步推理。

Andrej Karpathy 也曾指出:“所有令人惊艳的深度学习成果,背后几乎都有 RL(强化学习)的影子。”对大语言模型而言,人类无法注释所有推理过程,只能让模型在可验证环境中自己“摸爬滚打”。这一点也适用于 OpenAI 的 o3、谷歌 Gemini 的 Flash Thinking 等新一代推理模型。

3.2 超长思维链:成本何时能降?

现有的大语言模型,一旦开启多次搜索、多项并行采样或极长的思维链,推理成本立刻飙升。“生成 1 万 token 的复杂推理,成本可达数美元乃至数十美元一次”,对大多数应用而言经济上不可行。

然而,技术曲线正快速下行:GPT-3 推理成本与 ChatGPT-4 turbo 版相比已差了 1200 倍。随着硬件升级、架构优化、MoE/MLA 等创新不断涌现,推理成本必然继续大幅度下降。届时,可以负担更深层次、更复杂的搜索与推理,AI 将真正进军“高水平泛用智能”。

3.3 AGI 时间线:2030年?更早?

谈及“AGI(通用人工智能)何时问世?”,大家意见分歧。

  • Anthropic 创始人 Dario Amodei 声称 2026 年左右就可能迎来超级智能,对安全带来极大威胁;
  • 更多人则认为至少 2030 年或更晚才会出现质变;
  • Dylan 认为 AGI 的“能力”或许快到了,但高昂成本阻碍了大规模应用,“影响不会瞬间席卷,而是渐进渗透。”

04 | 硬件、集群与算力争霸

4.1 Mega Cluster:从传统数据中心到“千兆瓦级”训练营

Dylan 对美国数据中心的扩张感到震撼:

  • OpenAI 在得州阿比林启动“星际之门 (StarGate)”项目,目标 2.2GW 供电需求——这比很多城市都大;
  • Elon Musk 在孟菲斯租下一座废旧电器厂,改造成 xAI 集群,部署 20 万块 GPU 并配套自建发电机;
  • Meta、Anthropic、谷歌、亚马逊都在进行“多中心互联”或大数据中心建设,一家家都规划着 10 万甚至 50 万张 GPU 级别的训练集群。

这代表预训练与后训练的资源争夺仍在加速,任何一家想在 AGI 竞赛中抢先,都必须在算力规模上下重注。

4.2 为什么要自建发电厂?

在多地数据中心功率需求激增时,电网无法快速扩容,很多科技公司干脆自己建燃气发电站或配备移动发电机。“大家都不再顾虑环保指标,只想着——‘这场竞赛不能输。’” Dylan 解释说,许多原本宣称可再生能源的企业,如 Meta、微软,也开始现实地用天然气发电。“也许未来 AGI 能解决全球变暖。”

4.3 NVIDIA 的霸主地位还能被撼动吗?

  • AMD 在硬件上不逊色,却在软件生态与市场支持上远落后;
  • 英特尔状况更糟糕,制程工艺与经营策略多方受挫;
  • 谷歌 TPU 只服务内部产品,不卖给外部,很难威胁到通用 GPU 市场;
  • AWS Trainium、Meta 自研 ASIC 等都只是少量分流。

一切迹象表明,NVIDIA 依旧牢牢占据 AI 芯片“绝对龙头”。哪怕有低价高效的大语言模型出现,对 GPU 的需求只会更多,这也就是“杰文斯悖论”——效率越高,总体消耗越大。

05 | 开源、AI 智能体与未来

5.1 开源的难题与机遇

Lambert 介绍了自家 AI2 “Tülu”项目,试图把后训练代码和数据都尽可能公开。他认为,DeepSeek R1 的 MIT 许可证对开源而言是一大步,真正消除了商业化的桎梏。但要实现类似“Linux 生态”一样的健康 AI 开源生态,还需更多的公共数据、公共训练代码,并建立行之有效的“反馈循环”。

5.2 AI 智能体:真的会“自主工作”吗?

许多“AI 智能体”产品夸下海口,号称能自行在互联网或应用中执行复杂操作,仿佛替代人类。但 Dylan 和 Nathan 都很谨慎:

  • 现阶段跨网站的操作过于多变,极易出现错误;
  • 可靠率难以达到“自动驾驶”级别,每一步都或许失败;
  • 短期内更可能出现**“带人类操作员的 AI 智能体”**,一旦模型失灵,就人工介入。

不过,这并不妨碍“AI 代理”在小范围、可控沙盒里发挥巨大价值,比如跨部门调度企业内部系统、对接 ERP、自动下单等。长远看,AI 自主能力终将扩展,但需要极大的工程投入与场景适配。

5.3 编程领域:涨还是降?

不少人担心 ChatGPT 和 DeepSeek 等模型会让编程人员大量失业,但实际上:

  • 短期内,AI 只是提高生产力,程序员反而能更快实现需求;
  • 很多传统行业需要数字化升级,但缺乏足够软件人才,AI 可以帮助“平民化”编程;
  • 更有价值的是专业工程师 + AI,快速写代码、自动审阅、批量改错,这将重塑软件开发流程和架构思维,而不是一刀切地替代程序员。

06 | 结语:从“高峰对话”看未来图景

Lex Fridman用理查德·费曼的名言收尾:

“对于一项成功的技术,现实必须优先于公关,因为大自然是不可欺骗的。”
  • 在技术层:DeepSeek 让全球看到了在 MoE、MLA、底层 CUDA 优化等多层创新下,大模型训练成本仍有极大下降空间,推理能力也可显著突破。
  • 在产业层:美国出现了一场“GPUs 大集群军备竞赛”,每家科技巨头都在建千兆瓦级的训练基地,疯狂砸钱。
  • 在未来层:AGI 发展时间依然未知,但足以肯定的是,AI 将持续改变人类社会的生产方式、决策方式,乃至生活方式。也许我们还看不清它的终极形态,却都能感受到那股滚滚而来的洪流。

“人类智慧”和“人工智能”之战,或许并非你死我活,而是长期协同共舞。深度对话中,多位专家都表达了对未来的审慎乐观:不管是下一代超大规模算力,还是以强化学习为核心的全新推理范式,抑或企业间的激烈竞争,都将汇成一股浪潮,将我们推向未知但令人兴奋的彼岸。

相关标签: DeepSeek AI 模型 训练 推理 Dylan R1 MoE GPU AGI