近期,Epoch AI推出的数学基准测试——FrontierMath,因OpenAI的o3模型在该测试中取得压倒性胜利而引发了广泛争议。虽然OpenAI在该测试中以高达25%的准确率碾压其他模型,而其他模型的成绩则维持在2%左右,但测试的公正性和透明度问题却成为了舆论的焦点。问题的根源在于OpenAI未在测试开始前公开披露其资助了Epoch AI,且OpenAI的团队也能够访问测试题目和答案,这引发了“既当选手又是裁判”的质疑。更有评论者将此事件与Theranos丑闻进行类比,认为这可能是科技界的又一场重大欺诈丑闻。
Epoch AI是一个由Open Philanthropy资助的非营利组织,致力于开发和维护针对AI模型的基准测试工具。其推出的FrontierMath测试旨在测量AI在数学推理和问题解决方面的能力,并整合了来自多个领域的专家级数学问题。然而,测试结果引发的争议主要来源于OpenAI在该项目中的隐秘参与。
根据Epoch AI的一位承包商“Meemi”在LessWrong论坛上的发帖披露,Epoch AI在进行FrontierMath测试时并未及时向贡献者披露OpenAI的资助关系。Meemi表示:“沟通完全不透明。Epoch AI应该提前告知所有参与者,OpenAI的资助和参与可能会对测试的客观性产生影响。”此外,测试的贡献者中有数学家表示,如果他们事先知道OpenAI的参与,他们可能会选择不参与该项目。
OpenAI的o3模型凭借着显著的成绩差距,在FrontierMath测试中拔得头筹,但问题在于,OpenAI不仅资助了Epoch AI,还能够接触到测试题目和答案。这一信息直到12月20日OpenAI发布o3模型之前才被公开,而这份测试的贡献者大多数直到该消息公开才知情。这让外界怀疑,OpenAI是否在这个过程中有意或无意地通过提前了解题目内容来提高其模型的表现。
AI专家Gary Marcus对此表示强烈质疑,甚至将这一事件与曾经震动科技界的Theranos丑闻做了对比。Theranos曾声称其血液检测技术能够在几滴血液中检测出上百种疾病,但最终证明其技术根本无法实现这些功能,最终以公司倒闭和创始人被判犯有欺诈罪告终。Marcus认为,OpenAI此举类似于“既当选手又当裁判”,破坏了测试的公正性。
面对外界的质疑,Epoch AI的副主任兼联合创始人Tamay Besiroglu在回应中表示,FrontierMath的完整性并未受到影响,但承认在透明度方面确实存在问题。Besiroglu解释称,虽然OpenAI能够接触到测试的大部分题目和答案,但仍然存在一个“未供OpenAI查看的保留数据集”,用于验证模型的能力。然而,这一解释并未能平息外界的质疑。
Besiroglu还表示,Epoch AI在与OpenAI的合作过程中,确实受到了某些合同约束,导致在o3发布之前无法公开其资助关系。但他坦言:“事后看来,我们应该更加努力争取尽早对基准测试的贡献者保持透明。”他还补充道,未来无论合同如何限制,Epoch AI都会在与资助方合作时确保透明度,以便所有贡献者能够知道谁能够接触到他们的工作成果。
OpenAI事件暴露出AI行业在基准测试和学术透明度方面的潜在问题。这不仅仅是一次关于数学测试的争议,更涉及到AI开发过程中的伦理和信任问题。在AI技术快速发展的今天,如何确保各方的公平竞争和透明合作,成为了整个行业亟待解决的难题。
AI领域的基准测试,尤其是涉及大型语言模型和深度学习技术的测试,一方面需要依赖专家的设计和评估,另一方面也必须保持独立性与公正性。如果测试的设计者和受资助方存在利益冲突,或者测试数据和题目在未公开之前被资助方提前接触,这将极大地削弱基准测试的可信度。如何在保证创新和效率的同时,确保AI技术在发展过程中能够公平、透明,成为未来技术伦理探讨的重要话题。
此次争议再次引发了人们对AI技术行业透明度的深刻反思。OpenAI的o3模型虽在数学能力上表现出色,但其背后的资助与参与关系却使得这一成绩的公正性受到了质疑。尽管Epoch AI承认了透明度问题,并表示将在未来加强对贡献者的告知,但这一事件依然让公众对AI基准测试的公正性产生了深刻的疑问。如何在AI技术迅速发展的同时,保障公平竞争与行业诚信,依旧是这个行业面临的重大挑战。