基准_3D标签 - 大屏时代

OpenAI发布最强推理模型o3及其精简版o3-mini：推理能力提升至接近人类水平

2024年12月21日，OpenAI在其为期12天的发布活动中，推出了新一代推理系列模型——o3及其精简版o3-mini。作为o1系列的继任者，这两款模型专为增强推理能力而设计，旨在提升模型在回答问题前的思考深度，最终提高回答的准确性。o3：接近人类水平的推理能力o3模型的发布标志着OpenAI在人工智能推理能力上的重大突破。通过在ARC-AGI基准测试中的优异表现，o3成为了首个突破该基准的AI...

2024年AI界的奇怪基准挑战：从威尔·史密斯吃意大利面到Minecraft建筑设计

在2024年，AI技术的不断进步促使了许多传统的技术基准测试逐渐让位于一系列更具娱乐性和创意的“非官方”挑战。这些奇怪的基准测试，尽管缺乏严格的学术性，却迅速吸引了公众的眼球，并成为衡量AI进步的全新标尺。其中最为人知的挑战之一便是威尔·史密斯吃意大利面的测试——一种看似荒诞但又充满趣味的“基准”测试。每当新的AI视频生成器发布时，总有人不禁尝试生成威尔·史密斯吃意大利面的画面。这个奇怪的测试甚至...

OpenAI O3碾压式AI数学成绩遭质疑：既当选手又是裁判，翻版Theranos世纪骗局？

近期，Epoch AI推出的数学基准测试——FrontierMath，因OpenAI的o3模型在该测试中取得压倒性胜利而引发了广泛争议。虽然OpenAI在该测试中以高达25%的准确率碾压其他模型，而其他模型的成绩则维持在2%左右，但测试的公正性和透明度问题却成为了舆论的焦点。问题的根源在于OpenAI未在测试开始前公开披露其资助了Epoch AI，且OpenAI的团队也能够访问测试题目和答案，这引...

OpenAI陷数学测试作弊风波，AI公信力危机再升级

近日，OpenAI因其最新大模型o3在数学基准测试FrontierMath中的“优异表现”而陷入争议。据悉，OpenAI不仅资助了FrontierMath的开发，还在o3发布前要求合作方Epoch AI对此测试进行严格保密。多方质疑其是否利用了“内部优势”进行针对性训练，进而在测试中取得异常领先的成绩。批评者认为，这种行为不仅破坏了AI技术评测的公正性，也为OpenAI的信誉蒙上了阴影。事件回顾：...

OpenAI员工批评xAI Grok 3基准测试误导性：测试结果引发激烈争议

OpenAI的一名员工近日公开指责埃隆·马斯克旗下的xAI公司发布的最新AI模型Grok 3在基准测试中的结果存在误导性。此指责引发了两家公司的激烈争论。xAI在其官方博客中发布了一张图表，显示Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025（2025年高难度数学考试）上的表现超越了OpenAI的最强可用模型o...

智谱开源重磅出击：首个生成汉字的文生图模型CogView4问鼎DPG-Bench榜首

2025年3月4日，北京——大模型独角兽智谱近日宣布发布2025开源年的首款创新产品——CogView4，这款开源文生图模型首次实现生成汉字功能，引发业内广泛关注。据《科创板日报》独家报道，CogView4在DPG-Bench基准测试中综合评分排名第一，正式达到当前开源文生图模型的SOTA水平，成为市场上最先进的代表之一。技术突破与应用前景CogView4作为首个支持生成汉字的文生图模型，充分展示...

Manus横空出世：又一款中国AI新星，引爆通用AI竞争新热潮

在“DeepSeek”引发行业瞩目后，一个名为“Manus”的通用AI Agent产品近来再度刷屏科技圈。短短一个多月时间内，两款现象级大模型产品先后走红，并均出自中国团队，让全球再次聚焦中国AI的创新实力与速度。业内人士认为，这场围绕大模型及Agent的竞速，正在不断改变行业生态版图。AI Agent时代：从“DeepSeek时刻”到“Manus时刻”Manus与DeepSeek同属国产AI大模...

首页 1 尾页