【大屏时代】首页 > 3D快报内容详情

OpenAI陷数学测试作弊风波，AI公信力危机再升级

2025-01-25 20:19:18 228 大屏时代

广告：热门城市核心商圈LED大屏媒体广告投放【价格抄底】

近日，OpenAI因其最新大模型o3在数学基准测试FrontierMath中的“优异表现”而陷入争议。据悉，OpenAI不仅资助了FrontierMath的开发，还在o3发布前要求合作方Epoch AI对此测试进行严格保密。多方质疑其是否利用了“内部优势”进行针对性训练，进而在测试中取得异常领先的成绩。批评者认为，这种行为不仅破坏了AI技术评测的公正性，也为OpenAI的信誉蒙上了阴影。

事件回顾：AI数学测试爆出内幕疑云

FrontierMath是一项由AI研究机构Epoch AI开发的数学能力评测基准，旨在全面测试人工智能在高阶数学推理方面的能力。该测试问题均为全新设计，从未在公开数据库或训练语料中出现，确保其对AI模型推理能力的真实性考验。

然而，在最新的测试中，OpenAI的o3大模型取得了25%以上的正确率，远超其他知名模型，如GPT-4、Gemini系列等，它们的正确率普遍低于2%。这一反常的巨大差距引发了业界的广泛关注，并最终揭开了OpenAI与FrontierMath之间的合作关系。

Epoch AI的副主任塔梅·贝西罗格鲁近日公开承认，OpenAI在测试开发期间，确实获得了大部分测试题目及答案的访问权限，但强调：“我们与OpenAI有口头协议，承诺这些题目不会用于大模型的训练。”然而，这一说法并未平息外界的质疑。

各方质疑：公平性与透明度存疑

AI行业知名批评人士、认知科学家**加里·马库斯（Gary Marcus）**对此事件发表评论称：“从科学角度来看，这次所谓的‘突破性’结果极具误导性，OpenAI应该对此给出透明交代。”

他进一步指出，OpenAI的o3模型演示刻意将测试环境包装成比实际更接近**通用人工智能（AGI）**的状态，混淆了受众对其真实能力的认知。

外界对此提出的主要质疑包括：

是否存在“内部信息”泄露？OpenAI是否利用其资金支持获得了测试的“先发优势”，从而在训练过程中进行有针对性的调整？
是否进行了数据增强？是否在模型训练阶段对FrontierMath提供的题目及答案进行了数据扩充，以提高其在特定测试中的表现？
AI评估公正性受损？作为行业领军企业，OpenAI是否破坏了基准测试的公正性，为其他AI公司带来了不公平的竞争环境？

OpenAI的沉默：回应仍未释疑

面对质疑，OpenAI目前尚未做出正式回应，公司的CEO**山姆·奥特曼（Sam Altman）**在社交媒体上对外界的批评保持沉默。

不过，值得注意的是，奥特曼此前曾多次在公开场合强调，OpenAI致力于“透明、负责任的AI开发”，并对“数据操纵”采取零容忍态度。然而，在此事件爆出后，其团队未对外界的质疑作出直接澄清，进一步加深了公众的不信任。

在科技媒体Axios近日发布的一篇文章中，有报道称OpenAI即将推出一款“博士级”AI智能体，并向美国政府进行闭门汇报。该消息引发了更广泛的关注，业内人士担心，OpenAI可能正在通过刻意制造“人工智能奇点”炒作，试图在商业化落地前获取更多政府和投资界的支持。

行业影响：AI评测体系面临信任危机

此次事件不仅让OpenAI面临信誉危机，也暴露了当前AI评测体系的漏洞。行业专家普遍认为，如果企业可以通过“参与基准测试制定”来影响自身表现，那么整个AI研究的公正性将受到严重威胁。

在AI领域，诸如MMLU、BIG-bench等评测基准一直被视为衡量AI能力的重要指标。然而，随着模型复杂度的提升，企业或许更容易利用**“数据泄露”或“策略性训练”**来优化特定指标，最终对外界形成误导。

AI伦理学家托马斯·格雷（Thomas Gray）对此表示：“我们需要建立第三方独立的基准测试机构，避免让开发公司直接或间接地接触测试数据，否则，AI发展将陷入‘假突破、真炒作’的恶性循环。”

未来展望：加强监管和行业自律

面对日益激烈的AI竞争，业界呼吁加强监管与透明度，包括：

制定AI基准测试的标准化流程，避免利益冲突
强制要求AI企业公开测试训练数据的完整记录
建立独立的第三方审核机构，监督测试的公平性

与此同时，竞争对手如谷歌DeepMind、Anthropic等公司也纷纷呼吁，人工智能的评估应当基于“真正的零样本学习能力”，而非刻意的针对性训练。

尽管OpenAI目前尚未作出回应，但事件的发酵已经引起了美国政府的关注，业界普遍预期，未来将有更多AI合规性和透明度的讨论进入立法和监管议程。

AI发展需透明，企业责任不容忽视

OpenAI的“作弊”疑云，折射出了当前人工智能行业内技术竞争与道德规范的博弈。在巨大的商业利益驱动下，AI企业必须以更高的道德标准要求自己，避免短期利益导致行业信任崩塌。

未来，AI的进步不仅要看技术指标，更要看其对公平性和透明度的坚守。面对社会的广泛关注，OpenAI应尽快对外公开其数据使用详情，接受独立审查，并对行业标准化建设作出表率。

AI发展，诚信为本，未来才更可期。

相关文章

广州影院“不提供3D眼镜”引发投诉市监部门：涉嫌违法行为

DeepSeek坐拥五万枚英伟达AI芯片，开源模式挑战中美AI竞争格局

阿里巴巴否认10亿美元投资DeepSeek传闻：官方回应“假消息”

马斯克发声：拒绝收购TikTok，坚持从零起步的创业哲学

比亚迪智驾战略：王传福回应误解，未来将以安全为核心推动智能驾驶

软银回击马斯克：星际之门项目资金问题并非障碍，财务负担可控

上一篇： OpenAI发布新智能体，AI不再只是聊天，而是行动派！

下一篇： Meta在AI时代的独特优势：社交数据与AI货币化的强力引擎

本文地址：https://www.dapingtime.com/article/1086.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

相关标签： AI OpenAI 测试 FrontierMath 模型基准训练 o3 人工智能质疑