ChatGPT 版的「贾维斯」真的要来了。
去年 12 月,OpenAI CEO Sam Altman 公布了一份有趣的调查,网友们最期待 OpenAI 在 2025 年实现的技术突破中, AGI 高居榜首,紧随其后的是智能体。
如今,这个期待似乎即将部分成真。
据外媒 The Information 援引知情人士消息,OpenAI 正准备在本周推出一项名为 Operator 的新 ChatGPT 功能, 能够自动通过网络浏览器完成预订餐厅或规划旅行等复杂任务。
![]()
Operator 的功能设计颇具人性化,具体来说,它为用户提供了餐饮与活动、送货、购物和旅行等多种任务类别,每个类别都配有相应的建议提示。
当用户输入需求后,聊天界面会弹出一个小型浏览器窗口,实时展示 Operator 的操作过程。在执行任务时,它会根据需要询问细节信息,比如餐厅预订的具体时间和人数。
值得一提的是,用户不仅可以手动控制这个界面,还能保存任务并与他人分享。虽然目前 Operator 还不支持 Gmail 操作,但用户可以登录其他网站,且登录状态会在多次会话间保持。
不过,此前有消息称,Operator 在执行任务时使用的截图内容可能被恶意利用,导致「提示注入攻击」,存在严重的安全隐患。
![]()
因此,即便本周官宣,也未必会立即上线,但愿这不会又是一个「期货」。针对相关置评请求,OpenAI 尚未作出回应。
事实上,这类能够控制用户设备、协助完成复杂操作的 AI 功能正成为国内外 AI 企业竞相追逐的下一个风口。
去年 10 月,Anthropic 就发布了一项名为「Computer Use」的计算机操作功能。
该功能允许开发者通过 API 指导 Claude 像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。 它标志着 AI 在模拟人类与计算机交互方面迈出了重要一步。
![]()
短短两个月后,Google 也推出了名为 Project Mariner 的项目,由 Google DeepMind 开发,基于 Gemini 2.0 模型,它可以在 Google Chrome 浏览器上为用户执行任务。
将视野转入国内,智谱也发布了名为 AutoGLM-Web 的网页版自动驾驶功能。
通过智谱清言插件,用户可以让 AI 在百度、微博、知乎、Github 等多个平台上自动检索、生成内容和互动,甚至支持跨网站操作,为用户带来「全自动」上网体验。
![]()
在 OpenAI 的五级 AGI 路线图中,智能体正是处于 L3 级别,其特点是不仅能思考,还能代表用户采取行动,执行复杂任务。
业内人士认为,智能体是通往通用人工智能(AGI)的必经之路,通过构建能够自主决策和执行任务的智能体,可以逐步实现更接近人类水平的通用智能。
而在这场通往 AGI 的竞赛中,中国科技公司也正在加速布局。
1 月 23 日,APPSO 获悉,字节豆包大模型团队已在内部组建 AGI 长期研究团队, 代号「Seed Edge」,鼓励项目成员探索更长周期、不确定的和大胆的 AGI 研究课题。
有接近字节的知情人士透露,Seed Edge 的目标是探索 AGI 的新方法,代号名中的 Seed 是豆包大模型团队名称,而 Edge 代表最前沿的 AGI 探索。
![]()
目前,Seed Edge 初步确定了五大研究方向,包括:
探索推理能力的边界
探索感知能力的边界
探索软硬一体的下一代模型设计
探索下一代 AI 学习范式
探索下一个 scaling 方向
另外据晚点从字节内部获取的信息,字节创始人张一鸣非常重视和强调加强 AI 研究投入,不仅亲自研读论文、关注技术细节,还与顶尖 AI 研究者密切交流, 并鼓励字节 AI 研究团队探索、研究基础课题。
在新加坡,他甚至组建了专门的研究团队,其中包括新加坡国立大学原教授、现任字节研究员的冯佳时,自 2023 年起担任其技术顾问。
在中国科技巨头中,字节应该是拥有大量资源且行动最为迅速的,大有 All in AI之势。 这场通往 AGI 的竞赛中,赢家或许还未可知,但改变已悄然开启。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.