网易首页 > 网易号 > 正文 申请入驻

香港科技大学和澳门大学:AI"法官"破解金融问答中的躲避艺术

0
分享至


这项由香港科技大学和澳门大学联合完成的研究发表于2026年1月,论文编号为arXiv:2601.09142v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

当你打电话询问银行理财产品收益时,客服总是给你绕来绕去的回答,让你听了半天还是不知道具体能赚多少钱。这种"答非所问"的现象在企业财报电话会议中更是司空见惯。分析师提出尖锐问题,企业高管却经常用模糊不清的话语来回应,这种躲避行为可能暗示着企业隐藏了什么重要信息。

研究团队发现了一个有趣的现象:那些在回答问题时经常躲躲闪闪的企业,在接下来的180天内股价表现不佳的概率高达63%。更惊人的是,如果企业回答的语无伦次程度增加40个百分点,其股价在一天内就可能下跌0.74%。这就像是企业管理层用"打太极"的方式泄露了公司的真实状况。

然而,要准确识别这种躲避行为并不容易。就像判断一个人是否在撒谎一样,有时候边界很模糊。企业可能真的无法透露某些机密信息,也可能是故意回避问题。传统的做法是让专家逐一分析每个回答,但这种方法不仅成本高昂,而且在面对大量数据时效率极低。

研究团队想出了一个巧妙的解决方案:让多个AI模型充当"陪审团",当它们对同一个回答产生分歧时,再由一个更强大的AI"法官"来做最终裁决。这种方法的核心洞察是:如果连最先进的AI模型都对某个回答产生分歧,那么这个回答很可能处于"模糊地带",正是训练AI系统最需要关注的困难样本。

研究团队构建了一个名为EvasionBench的大型数据集,包含30000个训练样本和1000个人工标注的测试样本。他们将企业的回答分为三个等级:直接回答、模糊回答和完全躲避。这就像是给企业的诚实度打分,从"有问必答"到"顾左右而言他"。

在具体实施过程中,研究团队让Claude Opus 4.5和Gemini-3-Flash这两个先进的AI模型分别对每个问答对进行标注。当两个模型意见一致时,说明这个样本比较容易判断。但当它们产生分歧时(约占17%的样本),就说明遇到了真正困难的边界案例。这时,Claude Opus 4.5会以"法官"身份重新评估双方的判断和理由,做出最终裁决。

这种方法的妙处在于,那些引起AI模型分歧的样本往往是最具学习价值的。就像学生在做练习题时,那些让不同学霸都产生争议的题目,往往是最能提高解题能力的难题。通过专门关注这些"争议样本",训练出的AI系统在面对新的躲避行为时表现更加出色。

为了验证这种方法的有效性,研究团队还构建了一个对照组,使用传统的单一AI模型标注方法。结果显示,使用多模型加法官方法训练的AI系统准确率达到81.3%,比单一模型方法高出2.4个百分点。更有趣的是,尽管这种方法在训练过程中的损失值更高(0.421 vs 0.393),但在实际测试中表现更好,这证明了"分歧挖掘"确实起到了防止过拟合的作用。

最终训练出的Eva-4B模型只有40亿个参数,却能在准确识别企业躲避行为方面达到与大型商业AI模型相近的水平。这就像是用一台家用电脑实现了超级计算机的部分功能,在保证性能的同时大大降低了使用成本。

研究团队还进行了详细的错误分析,发现AI系统在识别"模糊回答"时难度最大,这与人类专家的判断困难点完全吻合。在人工标注的可靠性测试中,即使是经验丰富的专家,在"模糊回答"类别上的一致性也只有74.3%,而在"直接回答"和"完全躲避"类别上的一致性分别达到95.5%和91.2%。

这项研究的意义远不止于技术创新。在当今信息爆炸的时代,投资者需要从海量的企业信息中提取真正有价值的内容。传统的分析方法往往依赖于专家的主观判断,不仅效率低下,还可能因为个人偏见而产生误判。这个AI系统提供了一种客观、高效的工具,能够帮助投资者更准确地评估企业的透明度。

更重要的是,这种方法还可能促进企业治理的改善。当企业知道他们的回答会被AI系统精确分析时,可能会更倾向于提供直接、诚实的回答,从而提高整个资本市场的信息透明度。

当然,这项研究也有其局限性。目前的数据集主要来源于英语财报电话会议,对其他语言和文化背景的适用性还需要进一步验证。此外,企业可能会学会如何"欺骗"AI系统,开发出更加巧妙的躲避策略。

说到底,这项研究为我们提供了一个全新的视角来理解企业沟通中的微妙之处。就像是给了投资者一副"透视眼镜",能够看穿企业回答背后的真实意图。虽然AI系统不能完全替代人类的判断,但它确实为我们提供了一个强有力的辅助工具。

对于普通投资者来说,这意味着未来可能会有更多智能化的投资分析工具,帮助他们做出更明智的投资决策。而对于企业管理层来说,这也提醒他们在与投资者沟通时应该更加坦诚直接,因为任何躲避行为都可能被精确识别出来。

归根结底,这项研究推动了金融市场向更加透明、公平的方向发展,让信息不对称的问题得到了技术层面的缓解。

Q&A

Q1:EvasionBench数据集包含什么内容?

A:EvasionBench是一个专门用于检测企业财报问答中躲避行为的数据集,包含30000个训练样本和1000个人工标注测试样本。这些样本都来自企业财报电话会议,按照回答的直接程度分为三类:直接回答、模糊回答和完全躲避。

Q2:多模型加法官的标注方法是如何工作的?

A:这种方法让Claude Opus 4.5和Gemini-3-Flash两个AI模型分别对同一个问答进行标注。当两个模型意见一致时直接采用,当产生分歧时(约17%的样本),由Claude Opus 4.5担任法官角色,评估双方判断和理由后做出最终裁决。

Q3:Eva-4B模型的性能如何?

A:Eva-4B是一个40亿参数的模型,在躲避行为检测任务上达到81.3%的准确率,比传统单一模型方法高出2.4个百分点。它在开源模型中排名第二,整体排名第四,性能接近大型商业AI模型但成本更低。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒重磅判断:中国将成全球首个武器不用进口的大国

日媒重磅判断:中国将成全球首个武器不用进口的大国

杨风
2026-03-24 22:16:20
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

风风顺
2026-03-26 15:03:26
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
家居
手机
健康
军事航空

教育要闻

2026湖北高职单招工作启动

家居要闻

傍海而居 静观蝴蝶海

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

转头就晕的耳石症,能开车上班吗?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版