【大屏时代】首页 > 3D快报内容详情

AI惨败！「人类最后一次考试」揭示LLM能力极限，DeepSeek力挽狂澜

2025-01-25 19:22:38 592 大屏时代

广告：热门城市核心商圈LED大屏媒体广告投放【价格抄底】

近日，由Scale AI和Center for AI Safety（CAIS） 联合发起的全球AI挑战——「人类最后一次考试」（Humanity’s Last Exam，简称 HLE）公布了最新测试结果。令人震惊的是，即便是当前最强的AI大模型，正确率也未能突破10%。曾被寄予厚望的GPT-4.0、Claude 3.5、Gemini等行业领先模型，均未能展现出预期的智能表现，而中国的DeepSeek-R1却在这场挑战中意外脱颖而出，成为表现最为优异的模型之一。

挑战背景：终极基准，AI的智慧极限

随着AI模型在各类标准化基准测试中不断取得突破，诸如MMLU等传统测试已经难以区分顶尖大模型的实际能力。为此，HLE测试应运而生，旨在探索AI在高度专业化、人类知识推理上的极限。

测试概览：3000道高难度试题，覆盖100+专业学科

HLE测试集由数百位行业专家开发，共收集了70,000多道试题，经过层层筛选后，最终精选3,000道问题，覆盖数学、物理、化学、计算机科学、语言学等100多个专业领域。

测试形式包括：

精确匹配题（Exact-Match Questions）： 需要AI给出完全匹配的人类标准答案。
选择题（Multiple-Choice Questions）： 从多个选项中选出最优答案。

此外，HLE测试为多模态考试，其中**10%**的题目涉及图像及文本混合理解，极大考验了模型在多模态信息处理上的能力。

惨烈结果：AI模型准确率不足10%，且过度自信

测试结果显示，当前AI模型在HLE考试中的整体表现令人堪忧，准确率均在10%以下。令人惊讶的是，尽管模型回答错误率极高，却普遍呈现出**过度自信（Overconfidence）**的倾向，在自我评估中往往高估自身的正确率。

主要模型表现：

AI模型	正确率（%）	校准误差（RMS）
GPT-4.0	9.2%	0.74
Claude 3.5 Sonnect	8.7%	0.72
Gemini 1.5 Pro	8.5%	0.75
Grok 2	8.1%	0.77
DeepSeek-R1	9.8%	0.68

在这场严苛的考试中，DeepSeek-R1 以9.8%的正确率成为表现最好的模型，其相对较低的校准误差表明该模型在信心管理上更为精准。

推理能力与Token生成分析

研究发现，为了在HLE测试中获得更好的表现，一些AI模型需要生成更多的token来支撑推理，尤其是像Gemini 2.0 Flash Thinking等推理强化模型，处理一个问题的平均token数远超常规模型。

下图展示了各模型在测试中的token消耗情况，可以看到推理模型往往需要显著更多的计算资源，但并未带来显著的准确率提升：

为何AI在HLE考试中表现不佳？

1. 过度依赖已有数据，缺乏真正推理能力

尽管大语言模型（LLMs）在处理海量数据上表现出色，但HLE测试专门设计了超越常规语料库的高难度问题，涉及跨学科推理和复杂逻辑链条，这正是当前AI的短板所在。

2. 数据质量与推理能力的鸿沟

当前的AI模型在处理低质量数据时仍然存在问题，特别是HLE测试强调的问题精准度，使得模型在面对高质量复杂数据时，暴露出其推理能力不足、泛化性较差的短板。

3. AI的过度自信问题

HLE测试进一步揭示了AI在自信心管理上的问题——在错误答案上表现出过度的信心，使得AI的误导性与不可靠性成为重大挑战，尤其在医疗、法律等关键领域，这种问题可能带来严重后果。

未来展望：突破10%，AI的下一个里程碑？

尽管当前测试结果不尽如人意，但随着AI技术的不断发展，专家预测，到2025年底，顶级模型在HLE考试中的准确率有望突破50%，这将标志着AI在跨领域推理上的重要进展。

HLE项目负责人表示：
"AI当前的能力仍在增长初期，我们预计未来数年内，模型在推理、推断及多模态融合能力上将实现显著突破。"

同时，HLE团队也计划进一步扩展测试范围，确保其在未来能够持续评估AI的进步，助力推动人工智能的稳步发展。

DeepSeek-R1的崛起：国产AI迈向全球舞台

在本次测试中，中国的DeepSeek-R1表现突出，成为HLE考试中最接近「人类智慧」的模型之一。这不仅彰显了中国在AI领域的研发实力，也表明国产AI技术正在逐步缩小与国际领先水平的差距，甚至在某些方面超越。

DeepSeek团队表示，未来将继续专注于大模型的推理能力优化，并在多模态能力和数据质量控制方面投入更多研发资源，以期在未来的AI挑战中占据领先地位。

AI的进步仍在继续，人类智慧依然独特

HLE测试的结果表明，尽管AI取得了惊人的进展，但要真正匹敌人类在复杂推理、创造性思维等方面的能力，依然任重道远。未来，AI的发展仍需在推理、理解、创造力等方面不断突破，而人类智慧的独特性，也在这次考试中得到了坚实的捍卫。

相关文章

DeepSeek-R1震撼登场，AI推理能力和性价比全面超越OpenAI！

DeepSeek发布突破性推理模型K1.5：开源与性能革命，AI领域迎来新纪元

DeepSeek推理模型引领技术革新，百度文库用户突破9000万，Genius智能体开启未来科技之门

DeepSeek以开源之姿攀登AI巅峰：中美榜单齐夺冠，英伟达股价夜盘突挫5%

DeepSeek横空出世：低成本打破AI“算力枷锁”，中国初创引领新赛道？

激战中国AI之巅：阿里云Qwen2.5硬刚DeepSeek-V3，AGI竞赛进入白热化

上一篇： AI影像处理利器！Winxvideo AI V.3.0正式发布，限时免费抢先体验

下一篇： OpenAI发布新智能体，AI不再只是聊天，而是行动派！

本文地址：https://www.dapingtime.com/article/1084.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

相关标签： 10 AI HLE 模型测试推理考试能力正确率 DeepSeekR1