OpenAI推出了ChatGPT助手,这是其旗舰人工智能(AI)模型的升级版,配备了虚拟计算机和集成工具包。
这些新工具使助手能够执行复杂的多步骤任务,而之前的ChatGPT版本无法做到这一点——即控制您的计算机并为您完成任务。
这个更强大的版本仍然高度依赖人类输入和监督,在马克·扎克伯格宣布Meta研究人员观察到他们的AI模型显示出独立自我改进的迹象之前不久推出。它也在OpenAI推出最新版本的聊天机器人GPT-5之前不久推出。
OpenAI的代表在一份声明中表示,使用ChatGPT助手,用户现在不仅可以要求大型语言模型(LLM)执行分析或收集数据,还可以让它对这些数据采取行动。
例如,您可以让助手评估您的日历,并简要介绍即将到来的事件和提醒,或者研究一组数据并将其总结为简洁的概要或幻灯片。虽然传统的LLM可以搜索并提供日本风格早餐的食谱,但ChatGPT助手可以为特定数量的客人全面规划并购买所需的食材。
然而,尽管新模型能力强大,但仍面临许多限制。像所有人工智能模型一样,它的空间推理能力较差,因此在规划物理路线等任务上表现不佳。它也缺乏真正的持久记忆,处理信息时只能依赖当下的情况,无法可靠地回忆或参考之前的互动。
然而,ChatGPT代理在OpenAI的基准测试中显示出显著的改进。在人类的最后考试这个人工智能基准测试中,该测试评估模型在多个学科中对专家级问题的响应能力,其准确率从OpenAI o3(未配备工具)时的20.3%提升到41.6%。
它的表现也远超其他OpenAI工具,以及没有浏览器和虚拟计算机等工具的版本。在全球已知最难的数学基准测试FrontierMath中,ChatGPT代理和它的工具组合再次以很大优势超越了之前的模型。
这个代理是基于之前OpenAI产品的三个支柱构建的。其中一个支柱是‘操作员’,它会使用自己的虚拟浏览器为用户在网上搜索。第二个支柱是‘深度研究’,它的目的是梳理和综合大量数据。最后一个支柱是之前版本的ChatGPT本身,它在对话流畅性和表现力方面表现优异。
摩根州立大学的教授、数据工程与预测分析(DEPA)研究实验室主任Kofi Nyarko说:“简单来说,它可以在人工监督下自主浏览网络、生成代码、创建文件等等。”
不过,Nyarko很快强调,这个新代理仍然不是完全自主的。“幻觉、用户界面的脆弱性或误解可能导致错误。内置的安全措施,比如权限提示和可中断性,虽然非常重要,但仍不足以完全消除风险。”
人工智能发展的危险
OpenAI也承认了这个新代理的危险以及它增强的自主性。公司代表表示,ChatGPT代理具备‘高生物和化学能力’,他们声称这可能使其能够协助制造化学或生物武器。
与现有资源相比,如化学实验室和教科书,AI代理代表了生物安全专家所称的“能力升级通道”。AI可以即时调用无数资源并合成其中的数据,提供类似专家导师的迭代故障排除服务,浏览供应商网站,填写订单表格,甚至帮助绕过基本的验证检查。
通过其虚拟计算机,代理还可以自主与文件、网站和在线工具互动,这意味着如果被滥用,它可能造成更大的潜在危害。数据泄露或数据操纵的机会,以及像金融欺诈这样的不当行为,在发生提示注入攻击或劫持时,这种风险会被放大。
正如Nyarko所指出的,这些风险是传统AI模型和大型语言模型隐含风险的进一步补充。
他说:“对于AI代理整体,还有更广泛的担忧,比如自主运行的代理如何放大错误、引入公共数据中的偏见、复杂化责任框架,以及无意中助长心理依赖。”
针对更具自主性的模型所带来的新威胁,OpenAI的工程师们也加强了一些安全防护措施,公司代表在声明中表示。
这些措施包括威胁建模、双重用途拒绝训练——在此过程中,模型学习拒绝与可能有益或恶意用途的数据相关的有害请求——漏洞奖励计划,以及专家红队——通过模拟攻击系统来分析其弱点——专注于生物防御。然而,专注于安全的非营利组织SaferAI在2025年7月进行的一项风险管理评估称OpenAI的风险管理政策薄弱,评分仅为33%(满分100%)。OpenAI在未来生活研究院(Future of Life Institute)编制的人工智能安全指数中也仅获得了C级评分,这是一家知名的人工智能安全公司。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.