首页 > 3D快报内容详情

清华团队突破大模型算力瓶颈,单卡RTX 4090运行满血版DeepSeek引领AI创新

1周前 340 大屏时代

2025年2月15日,清华大学KVCache.AI团队联合趋境科技宣布,在KTransformers开源项目的最新更新中,成功突破了大模型推理算力瓶颈,令英伟达的RTX 4090显卡单枪匹马就能运行DeepSeek-R1和V3的671B满血版模型。这一技术突破标志着AI计算领域的一个重要里程碑,不仅大幅降低了硬件成本,也为中小团队和个人开发者提供了更多的AI开发机会。

s_a702b51212ce45ef9cae3af438aecae8.jpg

此次KTransformers项目的重大更新,采用了异构计算策略和稀疏性利用技术,通过MoE架构(专家混合模型),每次只激活部分专家模块,优化了显存占用。团队将非共享的稀疏矩阵卸载至CPU内存,并结合高速算子处理,将显存占用压缩至仅24GB,这使得原本需要高性能多卡服务器的DeepSeek大模型可以在单张24GB显存的RTX 4090显卡上本地运行。

除了稀疏性利用,KTransformers还通过量化与算子优化进一步提高了计算效率。采用的4bit量化技术,配合Marlin GPU算子,将效率提升了3.87倍。同时,CPU端通过llamafile实现多线程并行,显著提高了预处理速度,达到了每秒286个tokens的处理速度。而CUDA Graph加速技术的引入,则大大减少了CPU与GPU之间的通信开销,单次解码仅需一次完整的CUDA Graph调用,生成速度达到每秒14个tokens。

这项技术突破意味着,传统的大型AI服务器配置,如8卡A100方案,往往需要超百万的成本,每小时按需计费数千元。而现在,单卡RTX 4090就能实现与高端服务器配置相媲美的性能,整机成本仅为2万元,功耗仅为80W,为中小型团队和个人开发者带来了更加实惠且高效的AI计算方案。

这一突破不仅是技术上的奇迹,也证明了开源精神与硬件潜能的结合。在AI领域,创新往往来自对“不可能”的挑战,清华团队的这一成果无疑推动了AI技术的普及和发展,打开了更多可能性的大门。这也为全球的AI研究者和开发者提供了新的动力,证明了AI应用不仅仅局限于大型企业和高成本计算资源,而是可以在更加普及和低成本的环境中获得充分的应用。

在未来,随着更多类似KTransformers的创新项目不断涌现,AI计算的门槛将进一步降低,技术创新将持续推动AI产业的飞速发展,带来更多的商业机会和社会变革。

相关标签: 4090 AI KTransformers 显存 RTX CPU 团队 技术 开发者 算子