首页 > 3D快报内容详情

AI惨败!「人类最后一次考试」揭示LLM能力极限,DeepSeek力挽狂澜

1周前 167 大屏时代

近日,由Scale AICenter for AI Safety(CAIS) 联合发起的全球AI挑战——「人类最后一次考试」(Humanity’s Last Exam,简称 HLE)公布了最新测试结果。令人震惊的是,即便是当前最强的AI大模型,正确率也未能突破10%。曾被寄予厚望的GPT-4.0、Claude 3.5、Gemini等行业领先模型,均未能展现出预期的智能表现,而中国的DeepSeek-R1却在这场挑战中意外脱颖而出,成为表现最为优异的模型之一。

Gh--WJFa8AAJww6.jpg

挑战背景:终极基准,AI的智慧极限

随着AI模型在各类标准化基准测试中不断取得突破,诸如MMLU等传统测试已经难以区分顶尖大模型的实际能力。为此,HLE测试应运而生,旨在探索AI在高度专业化、人类知识推理上的极限。

测试概览:3000道高难度试题,覆盖100+专业学科

HLE测试集由数百位行业专家开发,共收集了70,000多道试题,经过层层筛选后,最终精选3,000道问题,覆盖数学、物理、化学、计算机科学、语言学等100多个专业领域。

测试形式包括:

  • 精确匹配题(Exact-Match Questions): 需要AI给出完全匹配的人类标准答案。
  • 选择题(Multiple-Choice Questions): 从多个选项中选出最优答案。

此外,HLE测试为多模态考试,其中**10%**的题目涉及图像及文本混合理解,极大考验了模型在多模态信息处理上的能力。

Gh--ggOacAAX03o.jpg

惨烈结果:AI模型准确率不足10%,且过度自信

测试结果显示,当前AI模型在HLE考试中的整体表现令人堪忧,准确率均在10%以下。令人惊讶的是,尽管模型回答错误率极高,却普遍呈现出**过度自信(Overconfidence)**的倾向,在自我评估中往往高估自身的正确率。

主要模型表现:

AI模型正确率(%)校准误差(RMS)
GPT-4.09.2%0.74
Claude 3.5 Sonnect8.7%0.72
Gemini 1.5 Pro8.5%0.75
Grok 28.1%0.77
DeepSeek-R19.8%0.68

在这场严苛的考试中,DeepSeek-R1 以9.8%的正确率成为表现最好的模型,其相对较低的校准误差表明该模型在信心管理上更为精准。

推理能力与Token生成分析

研究发现,为了在HLE测试中获得更好的表现,一些AI模型需要生成更多的token来支撑推理,尤其是像Gemini 2.0 Flash Thinking等推理强化模型,处理一个问题的平均token数远超常规模型。

下图展示了各模型在测试中的token消耗情况,可以看到推理模型往往需要显著更多的计算资源,但并未带来显著的准确率提升:

Gh--a7lbcAA_KC5.jpg

为何AI在HLE考试中表现不佳?

1. 过度依赖已有数据,缺乏真正推理能力

尽管大语言模型(LLMs)在处理海量数据上表现出色,但HLE测试专门设计了超越常规语料库的高难度问题,涉及跨学科推理和复杂逻辑链条,这正是当前AI的短板所在。

2. 数据质量与推理能力的鸿沟

当前的AI模型在处理低质量数据时仍然存在问题,特别是HLE测试强调的问题精准度,使得模型在面对高质量复杂数据时,暴露出其推理能力不足、泛化性较差的短板。

3. AI的过度自信问题

HLE测试进一步揭示了AI在自信心管理上的问题——在错误答案上表现出过度的信心,使得AI的误导性与不可靠性成为重大挑战,尤其在医疗、法律等关键领域,这种问题可能带来严重后果。

未来展望:突破10%,AI的下一个里程碑?

尽管当前测试结果不尽如人意,但随着AI技术的不断发展,专家预测,到2025年底,顶级模型在HLE考试中的准确率有望突破50%,这将标志着AI在跨领域推理上的重要进展。

HLE项目负责人表示:
"AI当前的能力仍在增长初期,我们预计未来数年内,模型在推理、推断及多模态融合能力上将实现显著突破。"

同时,HLE团队也计划进一步扩展测试范围,确保其在未来能够持续评估AI的进步,助力推动人工智能的稳步发展。

DeepSeek-R1的崛起:国产AI迈向全球舞台

在本次测试中,中国的DeepSeek-R1表现突出,成为HLE考试中最接近「人类智慧」的模型之一。这不仅彰显了中国在AI领域的研发实力,也表明国产AI技术正在逐步缩小与国际领先水平的差距,甚至在某些方面超越。

DeepSeek团队表示,未来将继续专注于大模型的推理能力优化,并在多模态能力和数据质量控制方面投入更多研发资源,以期在未来的AI挑战中占据领先地位。

AI的进步仍在继续,人类智慧依然独特

HLE测试的结果表明,尽管AI取得了惊人的进展,但要真正匹敌人类在复杂推理、创造性思维等方面的能力,依然任重道远。未来,AI的发展仍需在推理、理解、创造力等方面不断突破,而人类智慧的独特性,也在这次考试中得到了坚实的捍卫。

相关标签: 10 AI HLE 模型 测试 推理 考试 能力 正确率 DeepSeekR1