近期,Epoch AI推出的数学基准测试——FrontierMath,因OpenAI的o3模型在该测试中取得压倒性胜利而引发了广泛争议。虽然OpenAI在该测试中以高达25%的准确率碾压其他模型,而其他模型的成绩则维持在2%左右,但测试的公正性和透明度问题却成为了舆论的焦点。问题的根源在于OpenAI未在测试开始前公开披露其资助了Epoch AI,且OpenAI的团队也能够访问测试题目和答案,这引...