首页 > 3D快报内容详情

OpenAI发布新智能体,AI不再只是聊天,而是行动派!

1周前 85 大屏时代

备受瞩目的OpenAI在全球AI技术前沿再次取得突破,首个智能体产品「Operator」正式发布! 这一智能体具备类似人类的计算机操作能力,可在数字世界中自主执行各类任务,如在线订购、信息查询、文档填写等,为通往**通用人工智能(AGI)**的目标迈出关键一步。

4b4497d6b86588b1b2f0d1d59f980eca1737804602006.jpg

在OpenAI CEO山姆·奥特曼(Sam Altman)的带领下,团队于北京时间今日凌晨进行了「Operator」的首次直播演示,展示了该智能体如何自主执行网页操作、管理个人任务以及智能交互,给全球观众带来了震撼的科技体验。

「Operator」来了!AI首次具备独立电脑操作能力

「Operator」的推出标志着AI在智能体领域的重大进展,其核心基于Computer-Using Agent(CUA)技术,使AI能够像人类一样,通过屏幕交互来操作计算机。

在演示中,「Operator」展现了诸多前所未有的能力,例如:

  • 在线自动订餐:输入要求后,「Operator」能自主选择餐厅、预订座位,并完成订单确认;
  • 智能购物助手:从购物清单中识别商品、筛选偏好商店,最终完成购买流程;
  • 自动化日常任务:如填写复杂的在线表格,登录各类网站,甚至创建表情包等。

OpenAI团队表示:「‘Operator’的最大亮点在于,它不需要特定API支持,可以像人类一样操作任何网页、软件。

这一突破意味着,未来AI智能体可以广泛应用于自动化办公、电商购物、客户服务、数据处理等领域,显著提高工作效率并解放人类生产力。

「Operator」功能解析:打破传统交互模式

「Operator」的核心亮点在于其对图形用户界面(GUI)的全面适应性,即使面对没有开放API的网站或软件,它也能像人类一样,进行鼠标点击、键盘输入、滚动页面等操作, 彻底改变了AI的交互方式。

OpenAI官方称之为:「AI与数字世界的‘通用界面’。

关键功能亮点:

  1. 智能任务执行:订票、订餐、购物等任务操作处理网页表单填写自动化数据输入、修改、整理
  2. 网页交互能力:通过视觉感知浏览网页自主识别网页元素,如按钮、文本框根据反馈实时调整操作
  3. 多步任务规划:具备计划和拆解任务的能力结合视觉和语言理解,执行复杂操作出错时可进行自我调整、纠错
  4. 隐私与安全保护:具有防欺诈机制,识别钓鱼网站用户可随时接管操作,保障数据安全任务执行日志,方便用户复查

「Operator」能否挑战人类?测试成绩出炉

在多项独立测试环境下,「Operator」的表现可谓喜忧参半:

  • OSWORLD测试: 成功率达到38.1%,相较此前业界最佳模型提升16%;
  • WebArena测试: 在网页浏览任务上成功率达58.1%,提升22%;
  • WebVoyager测试: 在复杂任务环境中达到了**87%**的成功率,表现亮眼。

然而,与人类在同一测试环境下的表现相比,AI智能体仍存在较大差距。例如,在WebArena任务中,人类的平均成功率高达78.2%,远超「Operator」。

专家分析认为:「AI虽能执行高度重复的任务,但在多变量问题上仍存在短板,尤其是在需要高度灵活的场景下。

全球用户何时能用上「Operator」?

据OpenAI官方披露,「Operator」目前仅对Pro会员(200美元/月)开放,且仅限美国用户体验。未来,普通ChatGPT Plus用户将逐步获得试用权限,同时OpenAI计划在未来几个月内开放API,使企业开发者能够基于「Operator」构建个性化智能体。

OpenAI总裁Greg Brockman强调:「2025年将是‘智能体之年’,我们将不断推出更多强大的AI助手。

此外,OpenAI还在探索将「Operator」集成到办公软件、企业管理系统、医疗诊断工具等场景,助力不同行业实现数字化智能升级。

竞品对比:国产「Operator」能否迎头赶上?

「Operator」的发布无疑会在全球范围内引发AI智能体领域的激烈竞争。目前,中国科技公司也在布局AI智能体赛道,已有数家企业展示了类似的AI交互能力:

  • 字节跳动:其AI助手已实现自动文档管理与电商智能运营;
  • 阿里云:「通义听悟」专注于会议纪要、智能文档生成;
  • 百度:「文心一言」正逐步扩展AI Agent功能,具备一定的自动化执行能力。

业内专家表示,尽管「Operator」领先,但国内AI产品在本地化及定制化上具备优势,未来或将与之抗衡。

展望未来:「Operator」的下一步是什么?

OpenAI官方表示,未来几周至几个月内,团队将持续扩展「Operator」的能力,包括:

  • 动作空间扩大: 增加对更多应用程序的适应能力,处理多种格式的输入数据;
  • 学习能力升级: 让AI智能体更智能地学习用户习惯,提供更精准的个性化服务;
  • 企业级应用开放: 开放API,让企业客户在不同场景中集成智能体。

此外,OpenAI还在研发多智能体协作,未来将推出多个智能体协作完成复杂任务,进一步接近AGI的目标。

AI智能体新时代的正式开启

「Operator」的发布,标志着AI与人类交互方式的重大转变。它不仅让AI从「被动回答」升级到「主动执行」,更在数字化工作流中找到了新的落地方式。

未来,随着更多智能体的涌现,人类的日常生活、办公方式将迎来一场深刻的变革,从繁琐的手动操作到全自动化的AI助理,工作效率和生活便捷度都将迎来指数级提升。

AI智能体时代,已经到来!

相关标签: AI Operator 智能 OpenAI 任务 网页 人类 操作 API 交互