网易首页 > 网易号 > 正文 申请入驻

做打车 Agent 半年,我终于搞懂了置信度这个东西

0
分享至

AI打车Agent的「自作主张」正在引发用户投诉风暴。当系统自信满满地将用户送往错误机场时,背后暴露的是置信度机制的致命缺陷。本文揭秘如何通过四档分级策略,将投诉率从2.1%直降至0.4%,并深入解析3秒弱确认、历史偏好衰减等关键设计细节,展现AI产品在「自信」与「保守」间寻找平衡的艺术。

———— / BEGIN / ————

上个月,我朋友公司的打车 Agent 出了一个事故。

用户说了一句「帮我叫个车去机场」,Agent 很自信地叫了一辆去浦东机场的车。

结果用户要去的是虹桥机场。

用户投诉了。还发了微博。

这不是个例。我们统计了一下,类似的「AI 自作主张」投诉,每天有二三十起。

占比不高,但每一起都很伤用户体验。而且,这种事一旦上了社交媒体,传播起来比好评快多了。

我们花了三个月时间,重新设计了 Agent 的「置信度分级」机制。投诉率从 2.1% 降到了 0.4%。

这篇文章记录一下我们踩过的坑,以及最后是怎么解决这个问题的。

01

先把问题说清楚。

用户说「帮我叫个车去机场」这句话,对人来说很简单,但对 AI 来说,信息是不完整的。

去哪个机场?上海有两个,浦东和虹桥。

从哪里出发?当前位置还是另一个地址?

要什么车型?快车还是专车?

现在叫还是预约?

这些问题,用户没说,AI 怎么办?

我们最初的方案很朴素,AI 自己猜。

根据用户历史数据,这个用户之前 80% 的时候去的是浦东机场,那就默认浦东。车型默认快车,时间默认现在。

听起来很合理对吧。

但实际跑下来,问题大了。

02

我们最初的方案是「二元判断」。

意图识别出来了,就执行。识别不出来,就问用户。

非常简单粗暴。

效果怎么样?

很差。

第一个问题是,太多「确定」其实是错的。

AI 觉得自己识别出来了,置信度很高,直接执行。结果执行错了。

比如用户说「去机场」,AI 根据历史数据默认了浦东机场,因为历史数据里浦东更多。但用户这次实际要去虹桥。

高置信度不代表高准确率。

这个道理我们是交了学费才懂的。

第二个问题是,太多「不确定」影响体验。

另一个极端是,AI 太保守,动不动就问用户。

  • 你要去哪个机场?你从哪里出发?

  • 你要什么车型?

  • 你要现在叫还是预约?


用户会崩溃的,我就说了一句话,你问我四个问题?

反复确认会严重影响用户体验。

所以我们陷入了一个两难,执行太多会出错,问太多会烦人。

03

后来我们引入了「置信度分级」。

核心思路是,根据置信度高低,采取不同的处理策略。

我们把置信度分成四档。

第一档,90% 以上,直接执行。用户感知是秒响应,无确认。

第二档,70% 到 90%,弱确认。显示选项,3 秒无异议默认通过。

第三档,50% 到 70%,强确认。必须用户选择才能继续。

第四档,50% 以下,主动询问。让用户提供更多信息。

04

具体怎么操作呢。

第一档,直接执行。

条件是意图明确,关键信息完整,没有歧义。

比如用户说「帮我叫个快车从公司到浦东机场 T2」,这句话信息量很完整,意图很明确。AI 直接呼叫快车,从用户设置的公司地址到浦东机场 T2。

这种情况不需要任何确认,直接执行就行。

第二档,弱确认。

条件是意图明确,但有一定默认值需要确认。

比如用户说「去机场」。

AI 会说,好的,为您呼叫快车从当前位置到浦东机场 T2,3 秒后自动确认,点击可修改目的地。

如果用户 3 秒内没有操作,默认确认。如果用户点击了修改,展示其他选项,虹桥机场、其他航站楼。

这种方式既给了用户反悔的机会,又不会让用户觉得太啰嗦。

第三档,强确认。

条件是存在明显歧义,需要用户选择。

比如用户说「去机场」,但历史数据显示用户去过浦东和虹桥的次数差不多。

这种情况 AI 就不能自己猜了,必须让用户选。

AI 会说,请选择您要去的机场,然后给出选项,浦东国际机场,虹桥国际机场。

必须等用户选择才能继续。

第四档,主动询问。

条件是关键信息缺失,无法合理默认。

比如用户说「我要赶飞机」。

这句话表达了一个意图,但关键信息完全缺失。去哪个机场,什么时候走,都不知道。

AI 会说,好的,请告诉我您的航班信息或目的地机场,我来帮您叫车。

05

说到这里可能有人会问,置信度怎么算?

这个问题我们也纠结了很久。

最开始我们直接用大模型输出的 confidence 值,发现不靠谱。大模型的 confidence 跟实际准确率对不上。

后来我们改成了综合计算,考虑四个因素。

第一是意图识别的置信度,模型对意图分类的把握程度。

第二是槽位完整度,必填信息是否都有了。

第三是歧义程度,关键词是否有多个可能的解释。

第四是用户历史,这个用户以前的偏好是否明确。

举个例子。

用户说「去机场」。

意图识别置信度 95%,明确是叫车。槽位完整度 70%,缺少具体机场。歧义程度高,有两个机场可选。用户历史 90%,大部分时候去浦东。

综合置信度大概是 71%,落入弱确认档位。

这个计算方式不一定是最优的,但至少比单纯用模型的 confidence 靠谱多了。

06

还有几个细节问题需要处理。

第一个是弱确认的 3 秒怎么定的。

这个时间是测试出来的。

太短,1 秒,用户来不及反应。太长,5 秒,用户等得不耐烦。

我们做了 A/B 测试,发现 3 秒是最优的。用户有足够时间看到信息,如果要修改来得及点击,如果没问题不会觉得等太久。

第二个是用户历史怎么用。

我们会记录用户的偏好。常用地址,公司、家、机场。车型偏好,快车多还是专车多。时间偏好,通常什么时间叫车。

这些偏好会影响默认值的选择。

但有个坑,偏好会过时。

用户换工作了,公司地址变了。用户搬家了,家的位置变了。

我们的处理方式是,偏好有时效性,超过 3 个月不用的偏好权重下降。偏好出现变化的时候,比如连续两次选了不同的地址,主动询问是否更新。

第三个是兜底策略。

不管置信度多高,有些情况必须做兜底。

金额超过阈值,预估费用超过 200 元,必须确认。距离超过阈值,目的地超过 50 公里,必须确认。异常时间,凌晨 2 点到 5 点叫车,必须确认。

这些是高风险场景,错了代价很高,宁可多问一句。

07

说说效果。

上线一个月后的数据。

首次成功率,优化前 65%,优化后 72%。最终完成率,优化前 82%,优化后 91%。平均交互轮次,优化前 3.2 轮,优化后 2.1 轮。用户投诉率,优化前 2.1%,优化后 0.8%。

后来又迭代了几个版本,投诉率降到了 0.4%。

几个关键变化。

首次成功率提升,更多用户一次就成功,因为弱确认减少了不必要的询问。

最终完成率提升,更少用户中途放弃,因为体验更流畅。

交互轮次减少,从 3.2 轮降到 2.1 轮,效率提升明显。

投诉率下降,错误执行的情况大幅减少。

08

聊聊我们踩过的坑。

第一个坑是置信度阈值拍脑袋定的。

我们最初的阈值是直接拍脑袋,90%、70%、50%。

后来根据用户反馈不断调整。

有用户说「明明我说得很清楚,怎么还要确认」,说明直接执行的阈值可以调高一点。

有用户说「我没说去浦东,怎么默认浦东」,说明机场选择的确认需要加强。

收集反馈,分析原因,调整阈值,观察效果。这个循环要持续做。

第二个坑是不同业务场景阈值不一样。

打车场景,错了可以取消重新叫,代价不算太高,可以适当激进。

支付场景,错了可能造成资金损失,必须非常保守。

没有通用的阈值,要根据业务特点调整。

第三个坑是忽略了极端情况。

大部分用户的请求是正常的,但总有一些极端情况。

用户输入了一个不存在的地址。用户要求去一个 500 公里外的地方。用户的请求自相矛盾,帮我叫个车但我不要坐车。

这些极端情况要单独处理,不能让系统崩溃或者给出荒谬的响应。

09

做完这个项目,我有一个很深的感触。

AI 的智能,不在于它多聪明,而在于它知道自己多不聪明。

什么意思呢。

好的 AI 产品,是知道什么时候该直接执行,什么时候该问一句,什么时候该多问几句的。

这种分寸感,才是好产品的核心。

太自信的 AI 会出错,太谦虚的 AI 会烦人。找到那个平衡点,需要大量的数据、测试和迭代。

我们做了三个月,还只是刚刚摸到一点门道。

如果你也在做 Agent 类的产品,希望这些经验对你有帮助。

置信度分级不是什么高深的技术,核心就是一个原则,根据把握程度决定行动方式。但要把这个原则落地,需要很多细节的打磨。

本文来自公众号:鸣老师 作者:鸣老师

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

映射生活的身影
2026-05-03 02:46:28
张敬轩风波后续!开唱一场就因病退出,英皇不再死保争议艺人?

张敬轩风波后续!开唱一场就因病退出,英皇不再死保争议艺人?

林大师热点
2026-05-04 13:22:44
2026年藏10层也白搭!大数据1秒穿透全家资产,百姓:早该这样查

2026年藏10层也白搭!大数据1秒穿透全家资产,百姓:早该这样查

音乐时光的娱乐
2026-05-05 11:37:50
CCTV5+直播!广东男篮客战北京,胡明轩对位赵睿,三大劣势明显!

CCTV5+直播!广东男篮客战北京,胡明轩对位赵睿,三大劣势明显!

中国篮坛快讯
2026-05-05 10:15:22
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
“五一”期间上海反诈中心劝阻5000余人,避免损失超4200万元

“五一”期间上海反诈中心劝阻5000余人,避免损失超4200万元

澎湃新闻
2026-05-05 12:46:27
艺人严浩翔生父连续两天发难,先宣布断绝父子关系,又晒聊天记录

艺人严浩翔生父连续两天发难,先宣布断绝父子关系,又晒聊天记录

露珠聊影视
2026-05-03 00:17:34
西方国家为什么都不喜欢中国?英国专家:中国有一个“老问题”

西方国家为什么都不喜欢中国?英国专家:中国有一个“老问题”

宋诉搞笑配音
2026-04-13 17:16:15
比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

小兰聊历史
2026-04-18 14:25:14
断了海路改走陆路?伊朗根本运不起也活不旺!

断了海路改走陆路?伊朗根本运不起也活不旺!

寰球经纬所
2026-05-02 15:21:14
59岁单身阿姨感慨:恢复自由后,我才发现没有男人的日子就没麻烦

59岁单身阿姨感慨:恢复自由后,我才发现没有男人的日子就没麻烦

惟来
2026-05-04 10:24:20
特斯拉FSD在欧遭遇监管质疑

特斯拉FSD在欧遭遇监管质疑

财闻
2026-05-05 13:16:10
有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

浩渺青史
2026-04-27 17:06:59
海航推66666元“顺心卡”:可379元飞全国,余额要求严苛被指“变相无息融资”

海航推66666元“顺心卡”:可379元飞全国,余额要求严苛被指“变相无息融资”

红星资本局
2026-05-04 19:39:14
悲情 43岁墨菲5进决赛仅夺1冠+遭4连败 紧抱吴宜泽:我已弹尽粮绝

悲情 43岁墨菲5进决赛仅夺1冠+遭4连败 紧抱吴宜泽:我已弹尽粮绝

风过乡
2026-05-05 07:06:34
毫无征兆!茅台突降“5.5重磅王炸”,代售会所一夜席卷催生新富

毫无征兆!茅台突降“5.5重磅王炸”,代售会所一夜席卷催生新富

奇思妙想生活家
2026-05-05 11:43:16
英皇演唱会风波不断!张敬轩成弃将,家族演出敷衍,全场大喊退票

英皇演唱会风波不断!张敬轩成弃将,家族演出敷衍,全场大喊退票

萌神木木
2026-05-05 13:02:25
官方回应刘晓庆风波!王婆说话阴阳怪气,网友:庆奶75了还想怎样

官方回应刘晓庆风波!王婆说话阴阳怪气,网友:庆奶75了还想怎样

天天热点见闻
2026-05-02 17:15:14
巴基斯坦宇航员穿中国航天服照片流出,神舟二十三号5月出征太空

巴基斯坦宇航员穿中国航天服照片流出,神舟二十三号5月出征太空

风云圈天气
2026-05-03 11:31:03
离婚后只字不提李琳!输给了经超后才发现,原来他们不是同类人

离婚后只字不提李琳!输给了经超后才发现,原来他们不是同类人

小兰聊历史
2026-04-27 15:10:56
2026-05-05 13:55:00
运营派
运营派
互联网运营学习交流平台
1896文章数 28关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
教育
本地
健康
公开课

艺术要闻

有多少人知道,它曾是亚洲第一高楼?

教育要闻

听课猛如虎,做题二百五

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版