首页 > 3D快报内容详情

OpenAI陷数学测试作弊风波,AI公信力危机再升级

1周前 85 大屏时代

近日,OpenAI因其最新大模型o3在数学基准测试FrontierMath中的“优异表现”而陷入争议。据悉,OpenAI不仅资助了FrontierMath的开发,还在o3发布前要求合作方Epoch AI对此测试进行严格保密。多方质疑其是否利用了“内部优势”进行针对性训练,进而在测试中取得异常领先的成绩。批评者认为,这种行为不仅破坏了AI技术评测的公正性,也为OpenAI的信誉蒙上了阴影。

080027dbedf828fa89c40c.jpg

事件回顾:AI数学测试爆出内幕疑云

FrontierMath是一项由AI研究机构Epoch AI开发的数学能力评测基准,旨在全面测试人工智能在高阶数学推理方面的能力。该测试问题均为全新设计,从未在公开数据库或训练语料中出现,确保其对AI模型推理能力的真实性考验。

然而,在最新的测试中,OpenAI的o3大模型取得了25%以上的正确率,远超其他知名模型,如GPT-4、Gemini系列等,它们的正确率普遍低于2%。这一反常的巨大差距引发了业界的广泛关注,并最终揭开了OpenAI与FrontierMath之间的合作关系。

Epoch AI的副主任塔梅·贝西罗格鲁近日公开承认,OpenAI在测试开发期间,确实获得了大部分测试题目及答案的访问权限,但强调:“我们与OpenAI有口头协议,承诺这些题目不会用于大模型的训练。”然而,这一说法并未平息外界的质疑。

各方质疑:公平性与透明度存疑

AI行业知名批评人士、认知科学家**加里·马库斯(Gary Marcus)**对此事件发表评论称:“从科学角度来看,这次所谓的‘突破性’结果极具误导性,OpenAI应该对此给出透明交代。”

他进一步指出,OpenAI的o3模型演示刻意将测试环境包装成比实际更接近**通用人工智能(AGI)**的状态,混淆了受众对其真实能力的认知。

外界对此提出的主要质疑包括:

  1. 是否存在“内部信息”泄露?OpenAI是否利用其资金支持获得了测试的“先发优势”,从而在训练过程中进行有针对性的调整?
  2. 是否进行了数据增强?是否在模型训练阶段对FrontierMath提供的题目及答案进行了数据扩充,以提高其在特定测试中的表现?
  3. AI评估公正性受损?作为行业领军企业,OpenAI是否破坏了基准测试的公正性,为其他AI公司带来了不公平的竞争环境?

OpenAI的沉默:回应仍未释疑

面对质疑,OpenAI目前尚未做出正式回应,公司的CEO**山姆·奥特曼(Sam Altman)**在社交媒体上对外界的批评保持沉默。

不过,值得注意的是,奥特曼此前曾多次在公开场合强调,OpenAI致力于“透明、负责任的AI开发”,并对“数据操纵”采取零容忍态度。然而,在此事件爆出后,其团队未对外界的质疑作出直接澄清,进一步加深了公众的不信任。

在科技媒体Axios近日发布的一篇文章中,有报道称OpenAI即将推出一款“博士级”AI智能体,并向美国政府进行闭门汇报。该消息引发了更广泛的关注,业内人士担心,OpenAI可能正在通过刻意制造“人工智能奇点”炒作,试图在商业化落地前获取更多政府和投资界的支持。

行业影响:AI评测体系面临信任危机

此次事件不仅让OpenAI面临信誉危机,也暴露了当前AI评测体系的漏洞。行业专家普遍认为,如果企业可以通过“参与基准测试制定”来影响自身表现,那么整个AI研究的公正性将受到严重威胁。

在AI领域,诸如MMLU、BIG-bench等评测基准一直被视为衡量AI能力的重要指标。然而,随着模型复杂度的提升,企业或许更容易利用**“数据泄露”“策略性训练”**来优化特定指标,最终对外界形成误导。

AI伦理学家托马斯·格雷(Thomas Gray)对此表示:“我们需要建立第三方独立的基准测试机构,避免让开发公司直接或间接地接触测试数据,否则,AI发展将陷入‘假突破、真炒作’的恶性循环。”

未来展望:加强监管和行业自律

面对日益激烈的AI竞争,业界呼吁加强监管与透明度,包括:

  • 制定AI基准测试的标准化流程,避免利益冲突
  • 强制要求AI企业公开测试训练数据的完整记录
  • 建立独立的第三方审核机构,监督测试的公平性

与此同时,竞争对手如谷歌DeepMind、Anthropic等公司也纷纷呼吁,人工智能的评估应当基于“真正的零样本学习能力”,而非刻意的针对性训练。

尽管OpenAI目前尚未作出回应,但事件的发酵已经引起了美国政府的关注,业界普遍预期,未来将有更多AI合规性和透明度的讨论进入立法和监管议程。

AI发展需透明,企业责任不容忽视

OpenAI的“作弊”疑云,折射出了当前人工智能行业内技术竞争与道德规范的博弈。在巨大的商业利益驱动下,AI企业必须以更高的道德标准要求自己,避免短期利益导致行业信任崩塌。

未来,AI的进步不仅要看技术指标,更要看其对公平性和透明度的坚守。面对社会的广泛关注,OpenAI应尽快对外公开其数据使用详情,接受独立审查,并对行业标准化建设作出表率。

AI发展,诚信为本,未来才更可期。

相关标签: AI OpenAI 测试 FrontierMath 模型 基准 训练 o3 人工智能 质疑