在最近一场备受瞩目的对话中,OpenAI首席执行官奥特曼亲自爆料——公司内部尚未公开的一款推理模型,其编程能力已跻身全球前50程序员之列,甚至有望在年底一举登顶,彻底超越人类开发者的表现。这一消息无疑为整个AI领域带来震撼,也为技术爱好者和业内人士开启了一扇窥探未来编程新纪元的窗口。编程实力的惊人跨越据奥特曼透露,除了大家熟知的o1和o3模型,OpenAI的这一内部模型在编程任务上的表现已经接近全...
在AI技术飞速发展的时代,DeepSeek无疑是最具潜力的突破之一。近日,DeepSeek的影响力进一步扩大,成为AI产业内不可忽视的焦点。就在过去的一个周末,几个关键里程碑标志着DeepSeek向前迈出了重要步伐:国家超算互联网平台正式上线DeepSeek-R1,支持最高671B的满血版;达摩院的玄铁芯片成功适配DeepSeek-R1系列蒸馏模型,并在RISC-V架构的CPU和端侧平台上开辟了全...
在2025年2月11日于阿联酋迪拜举行的“世界政府峰会”(WGS)上,百度创始人李彦宏与阿联酋AI部长就DeepSeek展开深入对话。李彦宏指出,创新的背后往往离不开成本的降低,无论是在AI领域,还是在更广泛的IT行业中,成本的降低都是推动创新的重要力量。他进一步阐述道,技术的进步正在以前所未有的速度改变我们的世界。根据摩尔定律,性能每18个月翻倍,成本却大幅下降。在AI领域,尤其是大模型的推理成...
在过去的几周,DeepSeek无疑成为了人工智能领域的焦点。从技术讨论到市场评价,声音四起,但许多观点似乎只是为了赶进度而匆忙拼凑的产品,令人感到乏味。相较之下,有两期播客深刻探讨了DeepSeek的技术突破和行业影响,给我带来了不小的启发,值得每一个AI从业者和爱好者深入聆听。硬核技术与深度剖析:潘家怡与张小珺的精彩对话其中一场播客由张小珺主持,邀请了加州伯克利大学AI实验室的博士潘家怡,进行D...
2025年2月12日,国产GPU制造商景嘉微宣布,其JM系列和景宏系列GPU已成功适配DeepSeek R1系列模型。这一适配不仅加强了DeepSeek在云端和边缘计算等多种应用场景的使用,也为AI技术的规模化落地应用打下了坚实的基础。国产GPU与DeepSeek深度融合,推动AI应用发展景嘉微的JM系列GPU成功适配了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-...
在近日的迪拜世界政府峰会上,马斯克通过视频通话披露,备受期待的Grok 3模型将在一到两周内发布,现已进入最后的准备阶段。这一宣布无疑为全球AI界带来了震动,而xAI的这一突破性进展,也为AI未来的发展注入了新的动力。据透露,Grok 3将引入“思维链”(Chain Of Thought)推理能力,这一创新功能能够模拟人类的认知过程,逐步解决复杂任务。这意味着,Grok 3不仅可以处理更为复杂的查...
2025年2月14日,DeepSeek迎来了又一个历史性时刻,在全球著名的开源平台Hugging Face上,DeepSeek的点赞数成功跃居第一,达到了约8730次点赞,这一数字还在持续增长。这不仅是DeepSeek继ChatGPT和OpenAI之后,又一次在开源领域的突破,也标志着DeepSeek在人工智能大模型产业中的崛起与领导力的不断扩展。一、DeepSeek在开源社区的崛起DeepSee...
早在 12 月,Google 的 Gemini 就推出了一项名为深入研究的新功能,该功能可深入研究复杂的主题并创建包含相关引文的报告。 本月早些时候,OpenAI 在 ChatGPT 中推出了深入研究功能,该功能使用 o3 模型的推理能力来完成复杂的任务。 今天,Perplexity 加入了 Gemini 和 ChatGPT,推出了自己的深度研究功能,可以为用户进行深入研究和分析。Perplexi...
2025年2月18日,马斯克的xAI公司发布了备受瞩目的全新推理模型Grok-3,并宣称这一代AI的智能程度已达前所未有的高度,超越了竞争对手DeepSeek R1。Grok-3的发布不仅引发了行业震动,更因其强大的计算能力和创新性特征吸引了全球的关注。Grok-3的核心亮点之一便是其背后强大的硬件支持——20万张显卡的规模,这一配置使得Grok-3的推理能力达到了一个新的层次。与DeepSeek...
2025年2月18日,人工智能领域又迎来了一项重磅技术突破。DeepSeek宣布推出其全新的技术——NSA(稀疏注意力机制),该技术专为超快速的长上下文训练和推理设计。NSA不仅与现代硬件高度兼容,并且能够在保持高性能的同时显著加速推理过程,同时降低了预训练成本。NSA的核心创新:高效的稀疏注意力机制随着AI模型对计算能力和内存需求的不断增长,长上下文任务的训练和推理一直是人工智能发展的瓶颈之一。...
在2025年亚布力中国企业家论坛第25届年会期间,新浪财经对话了亚布力论坛轮值主席、滴灌通创始人李小加。在对话中,李小加分享了对AI技术的深刻见解,特别是他对Deepseek的影响与认识。李小加表示,Deepseek让他对AI的理解产生了巨大转变。他回忆道:“在使用ChatGPT时,我并没有非常深刻的认知,虽然讨论过它,但总有一个疑问在心里——‘靠谱吗?’”然而,Deepseek的推出改变了这一点...
2025年2月25日,Anthropic发布了其最新的大型语言模型——Claude 3.7 Sonnet,标志着人工智能领域的又一次重要突破。这一版本的Claude带来了革命性的“标准”和“扩展”双思维模式,使得模型的推理能力和透明度大幅提升,尤其在复杂任务和代码分析上表现出色。双思维模式:标准与扩展思维的结合Claude 3.7 Sonnet引入了两种思维模式:标准思维和扩展思维。标准思维能够快...
2025年2月25日,AI领域迎来了一个重磅发布——Claude 3.7 Sonnet正式发布,成为全球首个混合推理模型。这一突破不仅刷新了人工智能的性能标准,也为AI的深度思考能力打开了新局面。Claude 3.7 Sonnet在推理模式上的创新使得AI能够根据任务的复杂性自由选择快速响应或深入推理模式,进一步提升了在数学、物理、编程等领域的表现。1. Claude 3.7 Sonnet:全球首...
2025年2月25日,DeepSeek在开源周第二日宣布,成功开源DeepEP,这是第一个专为Mixture of Experts(MoE)模型训练和推理设计的开源EP通信库。DeepEP旨在提升MoE模型的计算效率,提供高效的节点内和节点间通信,优化GPU资源管理,并为AI开发者提供更灵活、低延迟的解决方案。1. DeepEP通信库:MoE模型的高效支持DeepEP是专门为MoE(Mixture...
AI圈的“诸神之战”正在上演!DeepSeek开源周第二日再投“技术核弹”,阿里通义千问、Anthropic Claude 3.7 Sonnet紧急加入推理模型战场,一场围绕开源生态、算力优化与代码能力的全球AI竞赛彻底白热化。DeepSeek:开源周“五天五连炸”,GPU性能榨到一滴不剩继首日发布FlashMLA(专为英伟达H100/H800显卡设计的极致优化工具)后,DeepSeek今日开源D...
当微软突然宣布退租美国数据中心、带动美股算力板块跳水时,阿里巴巴却宣布未来三年将豪掷3800亿元猛攻AI基建——这场看似矛盾的资本动作,揭示了全球算力争夺战已进入“效率革命”新阶段。微软“断腕”:从抢地到抢卡,OpenAI红利消退据TD Cowen报告,微软近期取消多个数据中心租约(涉及数百兆瓦容量),并将国际支出向美国集中。尽管其CEO纳德拉重申“2025年资本开支800亿美元”目标,但策略已发...