近日,由Scale AI和Center for AI Safety(CAIS) 联合发起的全球AI挑战——「人类最后一次考试」(Humanity’s Last Exam,简称 HLE)公布了最新测试结果。令人震惊的是,即便是当前最强的AI大模型,正确率也未能突破10%。曾被寄予厚望的GPT-4.0、Claude 3.5、Gemini等行业领先模型,均未能展现出预期的智能表现,而中国的DeepSee...