近日,由Scale AI和Center for AI Safety(CAIS) 联合发起的全球AI挑战——「人类最后一次考试」(Humanity’s Last Exam,简称 HLE)公布了最新测试结果。令人震惊的是,即便是当前最强的AI大模型,正确率也未能突破10%。曾被寄予厚望的GPT-4.0、Claude 3.5、Gemini等行业领先模型,均未能展现出预期的智能表现,而中国的DeepSeek-R1却在这场挑战中意外脱颖而出,成为表现最为优异的模型之一。
随着AI模型在各类标准化基准测试中不断取得突破,诸如MMLU等传统测试已经难以区分顶尖大模型的实际能力。为此,HLE测试应运而生,旨在探索AI在高度专业化、人类知识推理上的极限。
HLE测试集由数百位行业专家开发,共收集了70,000多道试题,经过层层筛选后,最终精选3,000道问题,覆盖数学、物理、化学、计算机科学、语言学等100多个专业领域。
测试形式包括:
此外,HLE测试为多模态考试,其中**10%**的题目涉及图像及文本混合理解,极大考验了模型在多模态信息处理上的能力。
测试结果显示,当前AI模型在HLE考试中的整体表现令人堪忧,准确率均在10%以下。令人惊讶的是,尽管模型回答错误率极高,却普遍呈现出**过度自信(Overconfidence)**的倾向,在自我评估中往往高估自身的正确率。
AI模型 | 正确率(%) | 校准误差(RMS) |
---|---|---|
GPT-4.0 | 9.2% | 0.74 |
Claude 3.5 Sonnect | 8.7% | 0.72 |
Gemini 1.5 Pro | 8.5% | 0.75 |
Grok 2 | 8.1% | 0.77 |
DeepSeek-R1 | 9.8% | 0.68 |
在这场严苛的考试中,DeepSeek-R1 以9.8%的正确率成为表现最好的模型,其相对较低的校准误差表明该模型在信心管理上更为精准。
研究发现,为了在HLE测试中获得更好的表现,一些AI模型需要生成更多的token来支撑推理,尤其是像Gemini 2.0 Flash Thinking等推理强化模型,处理一个问题的平均token数远超常规模型。
下图展示了各模型在测试中的token消耗情况,可以看到推理模型往往需要显著更多的计算资源,但并未带来显著的准确率提升:
尽管大语言模型(LLMs)在处理海量数据上表现出色,但HLE测试专门设计了超越常规语料库的高难度问题,涉及跨学科推理和复杂逻辑链条,这正是当前AI的短板所在。
当前的AI模型在处理低质量数据时仍然存在问题,特别是HLE测试强调的问题精准度,使得模型在面对高质量复杂数据时,暴露出其推理能力不足、泛化性较差的短板。
HLE测试进一步揭示了AI在自信心管理上的问题——在错误答案上表现出过度的信心,使得AI的误导性与不可靠性成为重大挑战,尤其在医疗、法律等关键领域,这种问题可能带来严重后果。
尽管当前测试结果不尽如人意,但随着AI技术的不断发展,专家预测,到2025年底,顶级模型在HLE考试中的准确率有望突破50%,这将标志着AI在跨领域推理上的重要进展。
HLE项目负责人表示:
"AI当前的能力仍在增长初期,我们预计未来数年内,模型在推理、推断及多模态融合能力上将实现显著突破。"
同时,HLE团队也计划进一步扩展测试范围,确保其在未来能够持续评估AI的进步,助力推动人工智能的稳步发展。
在本次测试中,中国的DeepSeek-R1表现突出,成为HLE考试中最接近「人类智慧」的模型之一。这不仅彰显了中国在AI领域的研发实力,也表明国产AI技术正在逐步缩小与国际领先水平的差距,甚至在某些方面超越。
DeepSeek团队表示,未来将继续专注于大模型的推理能力优化,并在多模态能力和数据质量控制方面投入更多研发资源,以期在未来的AI挑战中占据领先地位。
HLE测试的结果表明,尽管AI取得了惊人的进展,但要真正匹敌人类在复杂推理、创造性思维等方面的能力,依然任重道远。未来,AI的发展仍需在推理、理解、创造力等方面不断突破,而人类智慧的独特性,也在这次考试中得到了坚实的捍卫。