近日,OpenAI因其最新大模型o3在数学基准测试FrontierMath中的“优异表现”而陷入争议。据悉,OpenAI不仅资助了FrontierMath的开发,还在o3发布前要求合作方Epoch AI对此测试进行严格保密。多方质疑其是否利用了“内部优势”进行针对性训练,进而在测试中取得异常领先的成绩。批评者认为,这种行为不仅破坏了AI技术评测的公正性,也为OpenAI的信誉蒙上了阴影。
FrontierMath是一项由AI研究机构Epoch AI开发的数学能力评测基准,旨在全面测试人工智能在高阶数学推理方面的能力。该测试问题均为全新设计,从未在公开数据库或训练语料中出现,确保其对AI模型推理能力的真实性考验。
然而,在最新的测试中,OpenAI的o3大模型取得了25%以上的正确率,远超其他知名模型,如GPT-4、Gemini系列等,它们的正确率普遍低于2%。这一反常的巨大差距引发了业界的广泛关注,并最终揭开了OpenAI与FrontierMath之间的合作关系。
Epoch AI的副主任塔梅·贝西罗格鲁近日公开承认,OpenAI在测试开发期间,确实获得了大部分测试题目及答案的访问权限,但强调:“我们与OpenAI有口头协议,承诺这些题目不会用于大模型的训练。”然而,这一说法并未平息外界的质疑。
AI行业知名批评人士、认知科学家**加里·马库斯(Gary Marcus)**对此事件发表评论称:“从科学角度来看,这次所谓的‘突破性’结果极具误导性,OpenAI应该对此给出透明交代。”
他进一步指出,OpenAI的o3模型演示刻意将测试环境包装成比实际更接近**通用人工智能(AGI)**的状态,混淆了受众对其真实能力的认知。
外界对此提出的主要质疑包括:
面对质疑,OpenAI目前尚未做出正式回应,公司的CEO**山姆·奥特曼(Sam Altman)**在社交媒体上对外界的批评保持沉默。
不过,值得注意的是,奥特曼此前曾多次在公开场合强调,OpenAI致力于“透明、负责任的AI开发”,并对“数据操纵”采取零容忍态度。然而,在此事件爆出后,其团队未对外界的质疑作出直接澄清,进一步加深了公众的不信任。
在科技媒体Axios近日发布的一篇文章中,有报道称OpenAI即将推出一款“博士级”AI智能体,并向美国政府进行闭门汇报。该消息引发了更广泛的关注,业内人士担心,OpenAI可能正在通过刻意制造“人工智能奇点”炒作,试图在商业化落地前获取更多政府和投资界的支持。
此次事件不仅让OpenAI面临信誉危机,也暴露了当前AI评测体系的漏洞。行业专家普遍认为,如果企业可以通过“参与基准测试制定”来影响自身表现,那么整个AI研究的公正性将受到严重威胁。
在AI领域,诸如MMLU、BIG-bench等评测基准一直被视为衡量AI能力的重要指标。然而,随着模型复杂度的提升,企业或许更容易利用**“数据泄露”或“策略性训练”**来优化特定指标,最终对外界形成误导。
AI伦理学家托马斯·格雷(Thomas Gray)对此表示:“我们需要建立第三方独立的基准测试机构,避免让开发公司直接或间接地接触测试数据,否则,AI发展将陷入‘假突破、真炒作’的恶性循环。”
面对日益激烈的AI竞争,业界呼吁加强监管与透明度,包括:
与此同时,竞争对手如谷歌DeepMind、Anthropic等公司也纷纷呼吁,人工智能的评估应当基于“真正的零样本学习能力”,而非刻意的针对性训练。
尽管OpenAI目前尚未作出回应,但事件的发酵已经引起了美国政府的关注,业界普遍预期,未来将有更多AI合规性和透明度的讨论进入立法和监管议程。
OpenAI的“作弊”疑云,折射出了当前人工智能行业内技术竞争与道德规范的博弈。在巨大的商业利益驱动下,AI企业必须以更高的道德标准要求自己,避免短期利益导致行业信任崩塌。
未来,AI的进步不仅要看技术指标,更要看其对公平性和透明度的坚守。面对社会的广泛关注,OpenAI应尽快对外公开其数据使用详情,接受独立审查,并对行业标准化建设作出表率。
AI发展,诚信为本,未来才更可期。