网易首页 > 网易号 > 正文 申请入驻

上海财经大学发布Fin-Eval 6.0:为金融领域大模型设立全新评估基准

0
分享至

近日,上海财经大学前沿人工智能实验室宣布,正式推出Fin-Eval 6.0评估基准。这是一个为全面评估大型语言模型(LLMs)在金融领域的专业能力与安全性而构建的开创性基准数据集。该基准基于广受认可的FinEval评估集进行升级,创新性地加入了金融严谨性和金融多模态两大维度,总题量超过16,000道,旨在满足金融行业对高标准、专业化AI评估工具日益增长的迫切需求。

Fin-Eval 6.0的核心亮点包括:

  • 全面的领域覆盖:基准测试包含六大核心模块:金融学术知识、金融行业理解、金融安全认知、金融智能体应用、金融多模态能力与金融严谨性测试。

  • 海量高质量试题:超过16,000道题目深度模拟了真实的金融工作场景与决策过程,旨在全方位检验大模型在金融领域的综合应用能力。

  • 聚焦前沿:创新性地引入“金融多模态能力”“金融严谨性测试”评估维度,直面当前金融AI发展的热点与难点。

六维评估矩阵:覆盖金融领域全场景

Fin-Eval 6.0通过六大核心领域确保了评估的广度与深度,实现了从理论到实践、从单一能力到复杂任务的立体考察:

推动中国金融AI迈向新高度

大型语言模型虽在通用领域表现卓越,但在高度专业化和风险敏感的金融行业,其安全与复杂任务处理能力仍是未知数。Fin-Eval 6.0的推出,为解决这一挑战提供了坚实的基础。

该基准不仅为金融AI的学术研究和技术发展设立了新标杆,也为希望在中国市场部署AI应用的金融机构提供了更可靠的风险评估和模型选型依据。通过对模型优势与潜在风险的严谨评估,Fin-Eval 6.0揭示了当前大模型能力的边界与短板,从而引导科研方向,促进模型在关键金融能力上的突破。

更重要的是,Fin-Eval 6.0的推广有望催生一个围绕金融AI评估与优化的研究社区及产业生态。通过公开排行榜和持续更新的数据集,将激励研究者与开发者之间的良性竞争与合作,共同提升大模型在金融领域的整体水平,最终推动更安全、可靠、公平的AI技术在金融领域落地,为金融行业的数字化转型与社会经济的高质量发展注入新动力。

上海财经大学校长、党委副书记、滴水湖高级金融学院院长刘元春表示,当前发布的金融领域大模型评测体系具有双重价值:一方面为金融监管部门制定技术治理框架提供依据,另一方面为商业机构优化模型开发指明方向。他指出,此类研究具有显著的前瞻性和跨学科价值,体现了顶尖金融院校在推动金融科技发展的重要责任。

测评团队负责人、上海财经大学统计与数据科学学院与滴水湖高级金融学院联聘教授张立文指出,随着人工智能技术日益深入地融入金融服务的核心流程,Fin-Eval 6.0的发布标志着金融AI评估领域迈出了关键一步。它旨在为构建更加安全、高效且可靠的金融AI系统提供重要的洞察和发展方向指导。一方面,新增的“金融严谨性测试”模块进一步聚焦模型在金融场景中的安全性与可靠性;而“金融多模态能力评测”的引入,则填补了当前评估体系在该领域的部分空白,并紧密贴合实际业务需求,具有重要意义。另一方面,Fin-Eval 6.0对以往版本的基准测试进行了整合与拓展,使得整个评估体系更加全面、准确,能够更好地反映金融AI系统的综合能力。

未来,上海财经大学会更加关注金融领域的安全合规、能力建设与智能体评测等维度。在安全层面,将会建设更加体系化的评测框架,抓住模型“底线”。在能力建设层面,依托上财在金融学科建设中的优势,研究团队将持续构建具有行业代表性和复杂度的金融基准测试集,动态监测和量化分析大模型在金融领域的能力与知识边界。同时,在“智能体元年”的背景下,有关金融智能体的评测标准也在筹备建设中,敬请期待!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿尔特塔赛后被堵1小时,球迷喊"我们再来"打烂键盘侠的脸

阿尔特塔赛后被堵1小时,球迷喊"我们再来"打烂键盘侠的脸

体育硬核说
2026-04-09 17:50:43
南京招2名小学老师,江西暴跌90%!教师“铁饭碗”已被砸碎?

南京招2名小学老师,江西暴跌90%!教师“铁饭碗”已被砸碎?

领悟看世界
2026-04-10 01:57:58
武磊没油了?替补登场错失单刀+空门,球迷却直言错怪他了

武磊没油了?替补登场错失单刀+空门,球迷却直言错怪他了

懂个球
2026-04-09 23:58:20
比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

细说职场
2026-04-07 11:32:47
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
何润东被考古,曾参加《非诚勿扰》被嫌嘴唇厚,介绍完灭了7盏灯

何润东被考古,曾参加《非诚勿扰》被嫌嘴唇厚,介绍完灭了7盏灯

非常先生看娱乐
2026-04-04 16:57:06
钱去哪了?解析全民消费低迷下的资金流向迷局

钱去哪了?解析全民消费低迷下的资金流向迷局

流苏晚晴
2026-03-24 19:19:33
假作真时真亦假:伊朗战事陷入AI信息迷雾

假作真时真亦假:伊朗战事陷入AI信息迷雾

澎湃新闻
2026-04-09 07:24:41
深夜!天津二人在坟地做这事被抓!

深夜!天津二人在坟地做这事被抓!

天津族
2026-04-09 17:45:50
图片是清代正一品凉州将军府衙门的一个门。

图片是清代正一品凉州将军府衙门的一个门。

慕容洞唐
2026-04-07 20:12:29
幸福!孙杨张豆豆自曝结婚3年育有一娃,女儿2岁身高近1米基因强大

幸福!孙杨张豆豆自曝结婚3年育有一娃,女儿2岁身高近1米基因强大

818体育
2026-04-09 19:51:12
5次受伤!杰伦格林赛季回顾,刚打好又受伤了!

5次受伤!杰伦格林赛季回顾,刚打好又受伤了!

篮球实录
2026-04-10 00:30:38
陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

阿库财经
2026-04-10 01:10:59
第99波!伊朗导弹精准斩首,以军官被一锅端,大批美军官被抬走

第99波!伊朗导弹精准斩首,以军官被一锅端,大批美军官被抬走

浪子阿邴聊体育
2026-04-10 05:33:53
王志文连斜眼都不敢?昔日大佬被打碎,太揪心!

王志文连斜眼都不敢?昔日大佬被打碎,太揪心!

喜欢历史的阿繁
2026-04-10 01:32:21
此人屠杀百万民众,却被专家吹捧为千古完人、民族英雄,实在可笑

此人屠杀百万民众,却被专家吹捧为千古完人、民族英雄,实在可笑

长风文史
2026-04-07 20:53:07
工信部等5部门:支持中小企业通过实施股权激励、期权激励、技术入股、成果奖励等方式 提高中小企业对从事科技创新及成果转化关键人才的薪酬竞争力

工信部等5部门:支持中小企业通过实施股权激励、期权激励、技术入股、成果奖励等方式 提高中小企业对从事科技创新及成果转化关键人才的薪酬竞争力

每日经济新闻
2026-04-09 16:04:13
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
杭州女生留学归来,15次相亲全败,被吐槽:连繁殖能力都没有!

杭州女生留学归来,15次相亲全败,被吐槽:连繁殖能力都没有!

川渝视觉
2026-04-09 16:15:26
世锦赛战报:白雨露4-10出局!中国3胜1负,18岁新星将战世界冠军

世锦赛战报:白雨露4-10出局!中国3胜1负,18岁新星将战世界冠军

球场没跑道
2026-04-10 00:30:27
2026-04-10 08:16:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
242149文章数 744025关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

教育
本地
游戏
数码
健康

教育要闻

中考体育将与语数外同分,国家正式定调,家长必看!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

Xbox手柄重大失误!微软补偿方案出炉堪称豪华

数码要闻

华为多款新品在路上:Pura 90、阔折叠、AI眼镜、平板耳机全都有

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版