随着美国对高端芯片出口的不断收紧,外界普遍担心中国在人工智能(AI)领域的研发能力将遭受重创。然而,初创公司DeepSeek以新一代推理模型R1惊艳登场,不但在核心性能上直逼OpenAI的ChatGPT o1,更将“硬件短缺”化为突破契机。其高效算法与开源文化,引领中国AI企业以“少即是多”的策略走出一条新路,也为全球AI研究呈现全新图景。
DeepSeek的R1采用了与ChatGPT o1相似的“链式思考(chain of thought)”策略,逐步处理问题、分解任务,让模型在编码和数学推理上展现出超越同类产品的精细度。不同的是,R1并不一味追求详尽的推理路径展示,而更注重输出结果的准确性,这在减少计算量的同时,依然维持较高的性能水准。
值得注意的是,DeepSeek还向社区发布了六个“轻量级”版本R1-mini,其中个别版本甚至在部分基准测试上优于OpenAI的o1-mini。微型模型的出现让普通研究人员及开发者能在笔记本电脑上本地运行AI模型,极大地降低了AI实验与应用的门槛,也展现了DeepSeek拥抱开源、开放协作的战略思维。
原本被视为“中国AI杀手锏”的芯片管制,反而成为激发技术变革的助推器。DeepSeek在缺乏最顶尖GPU的条件下,成功整合了已囤积的大批A100芯片与中低功耗芯片,并通过重构训练流程的方式,大幅降低对硬件的依赖度。这种“边缘算力+算法优化”组合,呈现出“少算力、也高效”的新趋势。
DeepSeek创始人梁文峰早在预期管制之前就囤积了大量Nvidia A100,为后续项目提供“底线保障”。但面对功耗与性能“双减半”的GPU版本,DeepSeek针对内存使用、数据加载和模型架构多方创新。团队不仅巧妙运用“硬件受限”这一劣势,还将其转化为优化模型效率、推动研发协作的动力。
DeepSeek的“母体”是创始人梁文峰于2015年创立的对冲基金High-Flyer。该基金在管制生效前大举购入高端芯片资产,意外为DeepSeek提供了相对充裕的算力储备。也正因如此,DeepSeek虽没有公开融资计划,却能在初创阶段就拥有充足的计算资源与实验环境。
DeepSeek前员工、现为西北大学计算机科学博士生的王子涵(Zihan Wang)透露:公司为工程师和研究人员提供了异常丰富的实验条件,鼓励他们在大模型、多模态等领域自由探索。年轻团队的“硬核研发”文化,加之相对扁平的管理模式,促成了R1的快速问世与持续迭代。
阿里云、字节跳动在内的中国头部厂商纷纷开源各类AI模型,Minimax、01.AI等初创公司也敞开技术大门。正如DeepSeek对小型推理模型的开放分享那样,这批企业通过抱团合作和技术互补,试图在算力有限的现实下,构筑面向全球市场的AI生态。
塔夫茨大学技术政策助理教授Thomas Qitong Cao指出,新一代中国AI从业者普遍认同开源文化,这源于他们自身在技术学习和实践中受益于全球开源社区的经验。如今,面对更严苛的硬件和监管环境,开源反而成为凝聚业内资源、提升技术效率的一条可行之路。
人工智能研究员Matt Sheehan(卡内基国际和平基金会)认为,美国芯片管制使中国企业被迫最大化地利用有限的计算资源,预期将产生更多与“高阶算力不足”相关的技术整合。DeepSeek正是这一趋势的实例——在“困境”中练就高效率与可移植性。
与OpenAI的Sam Altman相似,梁文峰对AGI的愿景一直明确。R1仅是起点,未来DeepSeek若能进一步打磨大模型的多模态能力和自主学习能力,将在全球AI浪潮中保持竞争力,并助推中国AI向AGI之路加速迈进。
在高端芯片管制与资源受限的背景下,DeepSeek以R1模型打出了一套“逆势成长”的组合拳。它既映射着中国AI行业转向“降本增效、深度协作”的新趋势,也呼应了全球新一轮AI发展对多元化与开源的需求。面对庞大的国际竞争格局,DeepSeek的故事尚在继续——当制裁走向常态化,或许正是这些被迫“站在窄路上的创新者”,将在下一阶段的AI时代写下浓墨重彩的一笔。