OpenAI的一名员工近日公开指责埃隆·马斯克旗下的xAI公司发布的最新AI模型Grok 3在基准测试中的结果存在误导性。此指责引发了两家公司的激烈争论。
xAI在其官方博客中发布了一张图表,显示Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025(2025年高难度数学考试)上的表现超越了OpenAI的最强可用模型o3-mini-high。然而,这一结果很快引起了质疑,特别是OpenAI的员工指出,xAI的图表没有包括o3-mini-high在“cons@64”条件下的AIME得分。
“cons@64”是指“consensus@64”基准,允许模型在每个问题上进行64次尝试,选择出现频率最高的答案作为最终答案。这种方法通常会大大提高模型的分数,因此在缺少这一数据的情况下,可能会给人错误的印象,认为Grok 3的表现优于OpenAI的模型,尽管实际情况可能并非如此。
在AIME 2025的“@1”条件下,即每个模型首次尝试的得分,Grok 3的表现低于o3-mini-high。Grok 3 Reasoning Beta的得分甚至略低于OpenAI的o1模型在“中等计算”条件下的表现。然而,xAI仍然在宣传Grok 3为“世界上最聪明的AI”,这一宣传引发了更多争议。
xAI的联合创始人伊戈尔·巴布什金(Igor Babushkin)在X平台上回应称,OpenAI过去也曾发布类似的基准测试图表,尽管这些图表主要用于展示其自身模型的表现。
为了更准确地呈现数据,一位中立的第三方重绘了一张基于更真实数据的图表。而AI研究员内森·兰伯特(Nathan Lambert)指出,或许最为重要的指标仍然是每个模型达到最佳得分所需的计算和金钱成本。他表示,这表明当前大多数AI基准测试在展示模型优势与局限性方面仍存在显著不足。
此次事件揭示了AI基准测试在评估模型性能时仍然面临的挑战和复杂性,如何确保数据的透明性和准确性,将是行业继续讨论的焦点。
相关推荐
2025年1月16日,xAI公司再次推出重磅更新:继iOS版Grok AI聊天机器人成功上线之后,网页版Grok AI也正式与用户见面。令人惊喜的是,这次的网页版Grok AI无需访问X平台,也不需要拥有X账户即可体验。这一举措,不仅让更多用户能轻松接触到Grok的强大功能,也彰显了xAI公司在人工智能领域持续创新的决心。一、无需X账号,轻松体验Grok AIGrok AI的网页版推出,给用户提供...
在近日的迪拜世界政府峰会上,马斯克通过视频通话披露,备受期待的Grok 3模型将在一到两周内发布,现已进入最后的准备阶段。这一宣布无疑为全球AI界带来了震动,而xAI的这一突破性进展,也为AI未来的发展注入了新的动力。据透露,Grok 3将引入“思维链”(Chain Of Thought)推理能力,这一创新功能能够模拟人类的认知过程,逐步解决复杂任务。这意味着,Grok 3不仅可以处理更为复杂的查...
随着人工智能技术和区块链技术的不断发展,它们的融合已经成为投资者和技术开发者关注的焦点。马斯克的xAI公司即将发布其下一代聊天机器人Grok 3,标志着AI与加密市场结合的重大跃进。Grok 3的技术突破、市场情绪波动、应用场景的转变、以及激烈的竞争格局,可能将重新定义加密行业的未来格局。本文将从五大维度深入探讨这一变革性产品的潜在影响。一、技术跃迁:AI驱动的加密工具革命Grok 3的发布意味着...
马斯克再次在科技界掀起波澜。继宣布进军AI游戏行业后,他近日正式确认,旗下的xAI公司将成立一个专注于人工智能(AI)驱动的游戏工作室。这一动向预示着马斯克意图通过AI技术为传统游戏行业注入新活力,为玩家带来更纯粹的游戏体验。马斯克亲自下场,重振游戏行业的“纯粹性”此次成立游戏工作室的背景可以追溯到2024年11月,马斯克首次公开表示将进军AI游戏领域。2月17日,他在社交媒体平台上确认了这一计划...
X(前身为Twitter)宣布推出一系列人工智能(AI)驱动的广告工具,旨在帮助广告商自动化广告创建和性能分析。此次新功能的推出是 X 努力重振广告收入的一部分,该平台的广告收入自 2022 年马斯克收购以来一直处于下降状态。X 的新广告工具依赖于其专有的人工智能助手 Grok,可以自动生成广告文案、图像以及提供营销活动的洞察。两项新功能分别为“Prefill with Grok”和“利用 Gro...
2025年2月22日,xAI公司宣布推出其全新人工智能模型——Grok 3,这一模型迅速引起了全球科技界的广泛关注。xAI创始人埃隆·马斯克表示,Grok 3“聪明得让人惊讶”,并预测它将超越目前的人工智能领军者,如OpenAI和DeepSeek等。尽管尚需时间验证这些宣言,早期的表现已显示出Grok 3可能具备改变AI行业格局的潜力。Grok 3在多个高难度领域表现出色,包括科学研究、编程和数学...
月之暗面科技有限公司与清华大学MADSys实验室联合发布了一项名为Mooncake的开源项目,旨在共建以KVCache为中心的大模型推理架构。2024年6月,双方曾联合发布Kimi底层的Mooncake推理系统设计方案,该方案基于PD分离和以存换算架构,显著提升了推理吞吐量,受到业界广泛关注。Mooncake项目从论文延伸而来,以超大规模KVCache缓存池为中心,通过以存换算的创新理念减少算力开...
亚马逊 在人工智能领域的最新突破,推出了其全新的 多模态语言模型 Olympus。这一前沿技术将推动人工智能向更高水平发展,通过融合 文本、图像、视频 等多种数据输入,Olympus 有望在电商、智能助手、内容生成等多个领域带来革命性的改变。Olympus:打破传统语言模型的界限与传统的自然语言处理(NLP)模型不同,Olympus 是一个 多模态语言模型,意味着它不仅能够处理文字,还可以理解和分...
随着 生成式人工智能(AI)技术的飞速发展,AI大模型领域正经历前所未有的 行业洗牌。自 ChatGPT 引发的AI大模型浪潮席卷全球以来,虽然AI技术引发了激烈的商业竞争,但许多企业和技术团队面临着 技术瓶颈 和 商业化难题,导致人才流动频繁,行业格局发生剧变。人才流动:AI大模型行业的风向标近年来,国内外AI大模型行业的竞争愈加激烈,核心技术人员的离职成为行业变动的关键指标。今年下半年,多个A...
11月29日,在2024全球AI创新峰会上,智谱AI的首席执行官张鹏就大模型的未来发展及其在产业中的应用发表了重要讲话。张鹏强调,大模型正逐步成为推动各行业智能化升级的重要引擎,智谱AI致力于打造更加开放、高效的大模型生态,助力企业应对智能化转型中的各种挑战。在讲话中,张鹏指出,大模型的核心价值在于其强大的通用性和适应性。与传统的AI算法相比,大模型通过海量数据的训练,具备更强的理解和生成能力,能...
在数字内容创作的领域,三维AI生成内容(3D AI-generated Content)正在掀起一场前所未有的技术革命。随着人工智能(AI)和深度学习技术的快速发展,AI不仅能够生成二维图像,还能够创造出高度逼真的三维模型和虚拟环境,这一突破正在重新定义数字创作的方式,并为多个行业带来了巨大变革。什么是三维AI生成内容?三维AI生成内容指的是利用人工智能技术自动或半自动地生成三维数字模型、虚拟环境...
随着大模型(Large Language Model, LLM)技术在各行业的广泛讨论和应用,人工智能的快速发展正为全球企业带来颠覆性的变革。然而,在这股技术创新的热潮中,真正理解如何将大模型技术与具体业务需求相结合的企业仍屈指可数。尽管大模型在自然语言处理、数据分析和智能决策等领域展现了巨大的潜力,但要将技术转化为实际的业务价值,仍需克服一系列挑战。大模型的热度与挑战近年来,像OpenAI的GP...
最新文章
在2025年亚布力中国企业家论坛第25届年会期间,新浪财经对话了亚布力论坛轮值主席、滴灌通创始人李小加。在对话中,李小加分享了对AI技术的深刻见解,特别是他对Deepseek的影响与认识。李小加表示,Deepseek让他对AI的理解产生了巨大转变。他回忆道:“在使用ChatGPT时,我并没有非常深刻的认知,虽然讨论过它,但总有一个疑问在心里——‘靠谱吗?’”然而,Deepseek的推出改变了这一点...
英特尔近日宣布,其18A工艺已准备就绪,并将在今年上半年开始流片,这标志着英特尔四年五个节点计划的关键进展。此次突破被视为英特尔IDM 2.0战略的重要里程碑,也为公司代工服务(IFS)的复兴奠定基础。前英特尔CEO Pat Gelsinger曾为这一战略的成功而倍感期待。根据现有信息,英特尔的下一代移动处理器Panther Lake将会部分基于Intel 18A工艺生产,预计这款芯片将在2025...
黑龙江亚布力——在2025年亚布力论坛第二十五届年会上,武汉高德红外股份有限公司董事长黄立透露,公司自五年前便已开展脑机接口的研究,并取得了多个技术突破,尤其是在脑机接口领域的技术上,已超越了马斯克的Neuralink公司。黄立在会议上表示,高德红外已经成功实现了65000个通道的脑机接口,相比之下,Neuralink目前的技术只支持3072个通道,高德红外的技术突破是马斯克公司的20倍。更值得注...
在过去的一年里,董科含和他的团队巡回到北大、清华、复旦和港大等大学,为上千名充满创业热情的年轻人带去了20堂创业课。课程中,参与者提出了许多关于创业的共性问题,涵盖了从选定创业方向、组建团队到融资等方面的多种话题。在这些课堂上,13个高频问题反映了年轻创业者的焦虑和探索。问题包括如何选择创业行业、如何找到合适的联创伙伴、如何识别和满足用户需求、如何进行融资和股权调整,以及如何应对创业过程中的挫折和...
OpenAI的一名员工近日公开指责埃隆·马斯克旗下的xAI公司发布的最新AI模型Grok 3在基准测试中的结果存在误导性。此指责引发了两家公司的激烈争论。xAI在其官方博客中发布了一张图表,显示Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025(2025年高难度数学考试)上的表现超越了OpenAI的最强可用模型o...
电影《哪吒之魔童闹海》(《哪吒2》)近日在香港和澳门全面上映,并创下了前所未有的排片纪录。据媒体报道,首日两地的影院放映场次从超500场迅速增加至超过800场,座无虚席,整体上座率高达80%。这一规模在港澳影史上前所未有,成为了当地电影市场的焦点。根据香港电影资讯平台WMOOV的数据,截至22日19时38分,《哪吒2》在香港的入场人次已突破5.8万,超越了好莱坞大片《美国队长4:新世界秩序》的票房...
在全球科技变革的浪潮中,中国的低空经济正迎来前所未有的快速增长,市场规模已突破1200亿元,而这一行业的潜力远未被完全释放。低空经济涉及的是1000米以下至3000米内的飞行活动,涵盖无人机的广泛应用,包括外卖配送、农业植保、智能清洁等多个领域。根据中国民航局的数据显示,截至2024年6月,全国实名登记的无人机数量已突破187万架,飞手的数量已达到22.5万人。然而,这一增长速度与人才的培养速度严...
2025年2月23日,Moxie,这款革命性的社交和教育机器人,本应为神经发育迟缓儿童带来陪伴与教育,但由于依赖云服务器的设计,最终遭遇了致命的缺陷,成为一个警示故事。近日,Moxie的制造商Embodied宣布公司因融资失败而关闭,导致所有依赖其云服务的机器人功能完全丧失,令众多家长陷入困境。Moxie本身是一款售价800美元的机器人,它并不是一个独立的智能设备,而是依靠云端服务器来运行核心的人...
最新网站