在全球对人工智能(AI)投入 trillions of US dollars(数万亿美元)之际,一家来自中国的AI初创公司“DeepSeek”却以远低于行业平均的成本,在大模型领域取得突破性进展。其新发布的“DeepSeek-R1”据称能在推理性能上与OpenAI等顶尖机构的模型一较高下,却不依赖昂贵的高端芯片和天价预算。外界将其称为“最具颠覆性的AI黑马”。随着DeepSeek创始人梁文峰受邀在北京与中国国务院总理李强会面,这一新兴势力的未来动向愈发引人关注。
DeepSeek自诞生以来,始终对外保持低调,团队规模、资金来源以及芯片资源等信息鲜有披露。然而,迄今为止公开的技术报告显示:该公司不仅成功推出了开源版本“DeepSeek V3”,还在近期亮相的“DeepSeek-R1”模型中实现了高阶推理与语言理解等关键能力,其性能指标可与OpenAI、Meta等巨头的先进模型相媲美。
值得注意的是,DeepSeek在模型训练过程中所消耗的硬件与资金成本显著低于行业主流水平,颠覆了“算力为王”“资本堆砌”的传统AI研发模式。其实验结果显示,即便在缺乏顶级GPU、资金有限的情况下,也能靠算法创新和策略优化,打造出具备高效推理能力的大语言模型(LLM)。
过去两年里,中国科技企业在ChatGPT引爆“百模大战”后,纷纷投入巨额资金和技术力量研发自己的大模型。然而,中国在两大方面面临压力:
DeepSeek的横空出世,让部分人看到了冲破“芯片限制”与“巨额资金困境”的全新通路:依靠“巧思”而非单纯“堆料”,把算法、数据以及算力的组合效率发挥到极致,或许会成为未来中国AI发展的另一条可行路径。
然而,也有声音质疑DeepSeek的底层技术是否完全自主,认为其“有可能站在他人的肩膀上”——例如广泛借鉴开源算法、社区框架等。不过,多家权威实验室与媒体评测已证实,DeepSeek的技术成果确实具备相当创新性,至少在成本与性能之间开辟了一条更具弹性的道路。
就在DeepSeek大放异彩之际,其创始人梁文峰受邀在北京与中国国务院总理李强会面,令外界对这家初创公司更为好奇。此举被视为中国政府对低成本AI方案的高度认可。
目前,DeepSeek仍在持续优化其算法架构,并计划推出更多版本的低成本大模型。是否能真正打破AI发展的“规模法则”,在与海外巨头的正面较量中占据一席之地,仍需时间和更多测试验证。
自ChatGPT面世以来,全球对AI的关注和投入不断攀升。然而,在技术垄断、资本争夺与地缘政治博弈的多重压力下,如何走出一条“不依赖巨额算力”的AI创新之路,成为中国乃至全球共同面临的命题。