网易首页 > 网易号 > 正文 申请入驻

AI智能体何时可胜任自主商业运营?

0
分享至


智能体技术正在快速发展,其自主性也在不断增强。从网络导航到递归改进自身编程技能,智能体AI有望重新整合在线经济并重新定义互联网。

然而,对于企业环境而言,AI智能体带来了巨大的风险。从辅助转向自动化可能是一个危险的举措,特别是当这些实体被赋予执行关键操作的完全权限时——从完成简单的金融交易到协调复杂的供应链。

为了降低这种风险,卡内基梅隆大学和富士通的研究人员开发了三个基准测试,用于衡量AI智能体何时足够安全或有效,能够在没有人工监督的情况下运行业务操作。这些基准测试在1月26日举行的2026年新加坡人工智能AAAI会议的研讨会上发布。

FieldWorkArena基准测试

第一个基准测试名为FieldWorkArena,用于评估部署在现场的AI智能体,特别是物流和制造环境,如工厂和仓库。FieldWorkArena计算智能体在检测安全规则违规和工作程序偏差,以及生成事故报告方面的准确率。例如,一个检查高风险区域个人防护设备(PPE)合规性的AI智能体需要理解PPE标准,识别区域内的工人,分析他们所穿戴的设备是否符合标准,并报告合规人员数量。

该基准测试不使用模拟,而是采用真实世界的数据源,包括工作手册、安全法规以及现场拍摄的图像和视频。日本庆应义塾大学教授、研讨会组织者之一的Hideo Saito强调了在为智能体AI基准测试收集输入数据集时数据隐私的重要性,"特别是当你想将此类数据集用于商业、非学术用途时"。例如,FieldWorkArena的数据是在视频录像中出现的人员同意下获得的,同时对面部和敏感工作区域进行了模糊处理以防止身份识别。

研究人员评估了三个能够处理图像和文本数据的多模态大语言模型:Anthropic的Claude Sonnet 3.7、Google的Gemini 2.0 Flash和OpenAI的GPT-4o。结果令人担忧,三个模型都获得了较低的准确率分数。尽管它们在信息提取和图像识别方面表现出色,但这些大语言模型有时会出现幻觉,并且在精确计数对象和测量特定距离方面存在困难。

这些发现表明,企业需要基于企业环境和现实任务的智能体AI基准测试。这就是富士通主导FieldWorkArena开发的原因,该公司注意到客户对评估为现场工作优化的AI智能体效率的需求不断增长,富士通研究院AI实验室高级项目总监Hiro Kobashi说:"客户对大语言模型感到不确定和担忧,所以我们想为他们提供良好、充分的基准测试。"

ECHO和企业RAG基准测试

虽然FieldWorkArena可以通过其GitHub存储库访问,但Kobashi指出,在研讨会上展示的其他两个基准测试——ECHO(基于证据的幻觉观察)和企业检索增强生成(RAG)基准测试,将在一个月内向公众开放。ECHO评估视觉语言模型(VLMs)幻觉缓解策略的有效性,这些模型被设计用于回答关于图像的问题或从视觉输入生成文本。结果表明,裁剪图像使模型将注意力集中在相关区域,以及应用强化学习进行推理等技术,可以最大限度地减少VLMs中的幻觉。

同时,企业RAG基准测试评估AI智能体从权威知识库中检索数据并使用该数据来增强其生成回应的能力。测量的指标包括检索与查询相关的正确区域以及从检索到的信息中正确推理。

未来发展方向

未来,Kobashi和他的团队计划扩展他们创建的基准测试的功能,以适应其他行业和用例。"客户需求非常多样化。我们不能仅通过使用一个基准测试来涵盖所有需求,所以我们需要拥有多种基准测试,"他说。

持续更新基准测试是团队计划采取的另一个关键步骤。随着AI智能体的发展,它们的基准测试分数也可能上升,达到进步微小的程度。这将表明需要更新、更全面的基准测试来指导更好的企业AI智能体的开发。

Q&A

Q1:FieldWorkArena基准测试是用来做什么的?

A:FieldWorkArena是用于评估部署在现场的AI智能体的基准测试,特别针对物流和制造环境如工厂和仓库。它计算智能体在检测安全规则违规、工作程序偏差以及生成事故报告方面的准确率,比如检查高风险区域个人防护设备的合规性。

Q2:目前的大语言模型在FieldWorkArena测试中表现如何?

A:测试结果令人担忧,包括Claude Sonnet 3.7、Gemini 2.0 Flash和GPT-4o在内的三个多模态大语言模型都获得了较低的准确率分数。尽管它们在信息提取和图像识别方面表现出色,但经常出现幻觉,并且在精确计数对象和测量特定距离方面存在困难。

Q3:ECHO基准测试主要解决什么问题?

A:ECHO(基于证据的幻觉观察)主要评估视觉语言模型幻觉缓解策略的有效性。研究结果表明,通过裁剪图像使模型将注意力集中在相关区域,以及应用强化学习进行推理等技术,可以最大限度地减少视觉语言模型中的幻觉现象。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

趣文说娱
2026-01-30 15:01:14
烂尾的货,香饽饽

烂尾的货,香饽饽

中国新闻周刊
2026-01-30 20:37:22
黄金史诗级巨震,5500-5100-5450,2倍做空白银15%收益归零

黄金史诗级巨震,5500-5100-5450,2倍做空白银15%收益归零

金石随笔
2026-01-30 08:34:11
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
不等春节?美航母或1天内开战,中方不许3事发生,俄英法已选边站

不等春节?美航母或1天内开战,中方不许3事发生,俄英法已选边站

阿伧说事
2026-01-28 15:22:57
泪目!38岁德约跪地仰天长啸 决胜盘救8个破发点+鏖战4小时进决赛

泪目!38岁德约跪地仰天长啸 决胜盘救8个破发点+鏖战4小时进决赛

我爱英超
2026-01-30 22:56:32
戴笠随意处置国军高官?别被电视剧骗了!他连为何应钦站岗都不配

戴笠随意处置国军高官?别被电视剧骗了!他连为何应钦站岗都不配

鹤羽说个事
2026-01-30 10:46:27
2架美军机在南海坠毁,最新进展!

2架美军机在南海坠毁,最新进展!

环球时报国际
2026-01-30 00:10:58
"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

派大星纪录片
2026-01-30 18:07:40
CBA大冲突!双方球员最后1秒引发推搡,3人被驱逐出场

CBA大冲突!双方球员最后1秒引发推搡,3人被驱逐出场

体育哲人
2026-01-31 00:40:08
“正常爹看女儿,就不可能是这种眼神”,女儿被爸爸压腿视频火了

“正常爹看女儿,就不可能是这种眼神”,女儿被爸爸压腿视频火了

妍妍教育日记
2026-01-30 21:56:10
俄罗斯石油收入大幅下降,向印度出售的石油价格下调至每桶25美元

俄罗斯石油收入大幅下降,向印度出售的石油价格下调至每桶25美元

山河路口
2026-01-30 11:54:38
斯塔默吃完饭,法国就致电北京,提了不情之请,我外长回应很高明

斯塔默吃完饭,法国就致电北京,提了不情之请,我外长回应很高明

军机Talk
2026-01-30 10:34:40
苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

云霄纪史观
2026-01-30 01:47:42
俄罗斯重新将14名日本人列为战犯

俄罗斯重新将14名日本人列为战犯

界面新闻
2026-01-31 07:18:15
家委会负责人要求成员帮收每生263.3元费用,还称交自己再换成现金给班主任,使用明细不能公示,有家长报警

家委会负责人要求成员帮收每生263.3元费用,还称交自己再换成现金给班主任,使用明细不能公示,有家长报警

大风新闻
2026-01-30 23:33:14
金晨的背后,有三四层楼那么高的高人

金晨的背后,有三四层楼那么高的高人

邹谈
2026-01-30 19:49:09
原来李莉就是“春晚钉子户”孙涛的老婆,难怪孙涛每年都能上春晚

原来李莉就是“春晚钉子户”孙涛的老婆,难怪孙涛每年都能上春晚

以茶带书
2026-01-29 19:19:17
辛纳:输掉比赛确实很难受,本有很多机会取胜但都没能把握住

辛纳:输掉比赛确实很难受,本有很多机会取胜但都没能把握住

懂球帝
2026-01-31 00:14:40
欧冠淘汰赛附加赛对阵:皇马再战本菲卡,大巴黎摩纳哥内战

欧冠淘汰赛附加赛对阵:皇马再战本菲卡,大巴黎摩纳哥内战

懂球帝
2026-01-30 19:54:03
2026-01-31 08:19:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15806文章数 49687关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

数码
健康
手机
本地
军事航空

数码要闻

美国洛杉矶拟禁止一次性打印机墨盒,厂商商业模式或受冲击

耳石症分类型,症状大不同

手机要闻

OPPO不藏了!Find X9s Pro/Ultra参数全泄露:双长焦微距+2亿像素

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版