网易首页 > 网易号 > 正文 申请入驻

微软为Copilot研究智能体增加多模型AI功能,提升准确性

0
分享至


微软正在为其Microsoft 365 Copilot"研究"智能体扩展新的多模型功能,旨在提高AI生成研究输出的准确性和深度。

此次更新引入了"批评"系统,该系统为生成和评估分配单独的角色,同时还有一个"委员会"功能,可以比较多个模型的输出,并突出显示一致性、分歧点和独特见解。

使用DRACO基准测试的内部测试显示,配备批评系统的研究智能体在综合评分上超越了之前报告的系统13.8%(7.0分)。

委员会功能并行运行多个模型以生成独立报告,通过判断系统综合关键差异和见解,帮助IT团队比较不同的解读。

"简单来说,这就像拥有一个聪明的专业人员加上一个严格的审查员,"Pareekh咨询公司CEO Pareekh Jain说道。"但这仍然是渐进式的,不是魔法。它减少了错误但不能完全消除错误。"

其他专家指出,仅仅模型协调可能不足以推动有意义的企业成果。

"多模型系统在与CRM和HRM系统等内部企业数据集成时才能发挥其全部潜力,"Counterpoint Research研究副总裁Neil Shah说道。"这确保了AI驱动的洞察在上下文中具有细致入微的特点,反映公司独特的市场地位、客户特征和决策者的具体要求。"

基准测试的局限性与现实考量

微软的DRACO基准测试结果看起来很强,但企业应该谨慎对待它们。

"将其视为最佳情况测试;它显示AI模型可以相互检查并发现错误,但真实的公司数据要复杂得多,包含冲突信息和过时文档,"Jain说道。"还存在判断偏见的风险;如果两个AI相似,审查员可能会错过相同的错误。虽然基准测试衡量逻辑,但它们无法捕捉真正的商业价值。"

向多模型系统的转变为企业IT团队引入了新的操作复杂性层面。系统更强大,但也更难管理。

组织现在必须跟踪包括初始草稿、批评和最终输出的交互链,而不是单一的输入输出流。

"这创建了更大的审计跟踪,安全和合规团队必须审查以了解决策是如何制定的,"Jain补充道。"它还增加了成本和延迟,因为一个问题可以触发许多模型调用。另一个挑战是责任归属。如果出现问题,很难知道哪个部分失败了,比如生成器、审查员还是管理它们的系统。"

分析师表示,这将要求企业重新思考围绕AI部署的治理框架。

"企业必须优先考虑对模型到输出选择过程的治理,以及如何混合或选择多个响应的细化,"Shah说道。"这种持续监控和校准将成为流程质量管理的基本组成部分。"Shah补充说,企业还需要结构化机制来评估输出及其现实影响,确保整个决策过程的可追溯性,并改善多模型系统随时间的管理方式。

Q&A

Q1:微软Copilot研究智能体的多模型功能是什么?

A:这是微软为Microsoft 365 Copilot"研究"智能体新增的功能,包括"批评"系统和"委员会"功能。批评系统为生成和评估分配单独角色,委员会功能则比较多个模型输出,突出一致性、分歧和独特见解,旨在提高AI研究输出的准确性和深度。

Q2:多模型AI系统会给企业带来哪些挑战?

A:主要挑战包括操作复杂性增加、成本和延迟提升、责任归属困难等。企业需要跟踪更复杂的交互链,审计跟踪更大,当出现问题时很难确定是生成器、审查员还是管理系统的问题。还可能存在判断偏见风险。

Q3:企业如何更好地部署多模型AI系统?

A:专家建议企业应与CRM、HRM等内部数据系统集成,确保AI洞察反映公司独特情况。需要重新思考治理框架,建立结构化评估机制,确保决策过程可追溯,并将持续监控和校准作为流程质量管理的基本组成部分。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆男子梦到亡儿喊脚疼,赶去坟前一看,墓碑上的景象让人泪崩

重庆男子梦到亡儿喊脚疼,赶去坟前一看,墓碑上的景象让人泪崩

辉哥说动漫
2026-04-05 21:15:02
扭脚死活不碰男消防员,硬要5个人抬下山?这叫保守还是折腾人!

扭脚死活不碰男消防员,硬要5个人抬下山?这叫保守还是折腾人!

小李子体育
2026-04-06 01:41:05
烧掉4亿美元、炸毁自家运输机:只为救一人,营救中为何没有殉国

烧掉4亿美元、炸毁自家运输机:只为救一人,营救中为何没有殉国

环球格局观
2026-04-05 22:55:10
看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
笑发财了!如何不吹牛的形容新疆有多大,网友:搁国外都算是混血

笑发财了!如何不吹牛的形容新疆有多大,网友:搁国外都算是混血

另子维爱读史
2026-04-05 22:53:09
拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

观察者海风
2026-04-04 12:59:45
黄一鸣凌晨带闪闪赚50万,从万达摸黑回家,王思聪态度变了

黄一鸣凌晨带闪闪赚50万,从万达摸黑回家,王思聪态度变了

观察鉴娱
2026-04-05 09:10:03
41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

林雁飞
2026-03-13 12:53:50
台海还没开战,另一场恶仗已逼近中国,美撕下伪装,基辛格说对了

台海还没开战,另一场恶仗已逼近中国,美撕下伪装,基辛格说对了

杰丝聊古今
2026-04-01 14:21:46
宁愿将石油远销欧美,也不愿就近卖给中国,哈萨克斯坦图什么?

宁愿将石油远销欧美,也不愿就近卖给中国,哈萨克斯坦图什么?

通文知史
2026-04-06 08:20:09
国乒特殊教练!自己无世界冠军,却带出一群名将,妻子更厉害!

国乒特殊教练!自己无世界冠军,却带出一群名将,妻子更厉害!

可乐谈情感
2026-04-05 08:31:48
日本球迷看好松岛辉空:把王楚钦逼到绝境瘫倒,不用多久就能超越

日本球迷看好松岛辉空:把王楚钦逼到绝境瘫倒,不用多久就能超越

杨华评论
2026-04-06 00:25:53
释永信“开光”真相大白,过程不堪入目,易中天也被牵连

释永信“开光”真相大白,过程不堪入目,易中天也被牵连

往史过眼云烟
2026-03-24 17:05:24
天啊!看到陈红1996年新婚的闺房照,才懂陈凯歌为啥说一见钟情

天啊!看到陈红1996年新婚的闺房照,才懂陈凯歌为啥说一见钟情

好贤观史记
2026-03-02 16:47:20
1-2后!阿森纳噩梦来了:13天2连败丢2冠,英超+欧冠也有麻烦了

1-2后!阿森纳噩梦来了:13天2连败丢2冠,英超+欧冠也有麻烦了

体育知多少
2026-04-05 07:32:23
俄罗斯突然昭告全球,50个月拿下卢甘斯克全境,最后5%打了三年半

俄罗斯突然昭告全球,50个月拿下卢甘斯克全境,最后5%打了三年半

共工之锚
2026-04-03 19:11:13
日本日经平均股指涨幅扩大,最新上涨0.8%

日本日经平均股指涨幅扩大,最新上涨0.8%

每日经济新闻
2026-04-06 08:15:04
轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

垚垚分享健康
2026-04-05 08:40:19
猪肉,彻底跌疯了

猪肉,彻底跌疯了

首席品牌评论
2026-04-05 23:07:52
超级巨大失误!薛庆浩黄油手送礼,基莱斯门线补射,马镇机会来了

超级巨大失误!薛庆浩黄油手送礼,基莱斯门线补射,马镇机会来了

奥拜尔
2026-04-05 21:02:55
2026-04-06 08:52:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17425文章数 49697关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

媒体:美军营救行动耍了伊朗 中情局发假消息迷惑对方

头条要闻

媒体:美军营救行动耍了伊朗 中情局发假消息迷惑对方

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

时尚
旅游
本地
数码
军事航空

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

旅游要闻

春和景明、踏青旅行——清明假期文旅市场观察

本地新闻

跟着歌声游安徽,听古村回响

数码要闻

大胆复古美学,海盗船推出原子紫配色K65 PLUS WIRELESS机械键盘

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版