网易首页 > 网易号 > 正文 申请入驻

大模型谁最“可靠”?SuperCLUE-CPIF测评出炉,文心X1.1国内第一

0
分享至

10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大模型第一,在任务类型、指令数量两类划分中均为国内榜首,文心X1.1在实际生产环境中应用具有显著优势。

本次测评涵盖GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro等共10个国内外模型参与。基于实际生产环境特点,SuperCLUE-CPIF重点评估大型语言模型(LLM)在中文环境下的精确遵循复杂、多约束指令能力,重点评估模型将自然语言指令转化为符合所有要求的具体输出的能力。测评结果显示,国产主流大模型中,文心X1.1以75.51分位居国产大模型第一,DeepSeek-V3.2-Exp-Thinking和Hunyuan-T1-20250822分别以73.98分和65.82分位居国内二、三。



SuperCLUE-CPIF中文精确指令遵循测评总榜,文心X1.1位居国内第一

文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。

据了解,文心大模型X1.1在处理复杂写作任务时,既能运用模型内化的知识、调用联网搜索工具等准确查找用户需要的知识,又能深度思考用户希望创意写作的立意和要求,最后输出事实准确,结构化、逻辑性强,并且文辞优美的内容。例如在更复杂的长程任务场景,文心大模型 X1.1在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,能够严格遵循业务流程先后规划、再自主调用工具,并结合用户情绪,短时内解决了问题,服务过程完整主动。

作为国内最早投入大模型产研的企业,百度依托“芯片-框架-模型-应用”的全栈自研体系,持续推动文心大模型能力进化。得益于飞桨文心的联合优化,文心大模型的能力拓展和效率提升。据早前公开报道,相比文心大模型X1,文心X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跳水界再现黑马!王伟莹夺单人冠军,采访意外披露全红婵真实情况

跳水界再现黑马!王伟莹夺单人冠军,采访意外披露全红婵真实情况

手工制作阿歼
2025-11-07 00:17:55
长沙市委常委、常务副市长彭华松任湖南省市场监管局党组书记

长沙市委常委、常务副市长彭华松任湖南省市场监管局党组书记

澎湃新闻
2025-11-08 14:00:30
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
看完湖南女医生17分钟不雅视频:她占据主动,给婚姻撕了一道裂口

看完湖南女医生17分钟不雅视频:她占据主动,给婚姻撕了一道裂口

娜乌和西卡
2025-11-07 10:38:41
9-2!希金斯淘汰马奎尔,与吴宜泽会师决赛!国锦赛冠军基本出炉

9-2!希金斯淘汰马奎尔,与吴宜泽会师决赛!国锦赛冠军基本出炉

球场没跑道
2025-11-08 20:34:14
李连杰脱光上衣自证清白后,有网红提出质疑,吃的什么神丹妙药?

李连杰脱光上衣自证清白后,有网红提出质疑,吃的什么神丹妙药?

心静物娱
2025-11-08 11:24:51
两少年骑摩托失联后续:邻居爆料,找到了已去世,这一决定成永憾

两少年骑摩托失联后续:邻居爆料,找到了已去世,这一决定成永憾

通鉴史智
2025-11-08 07:35:50
一眼万年。分手7年后,欧豪还是没抵过白月光的魅力

一眼万年。分手7年后,欧豪还是没抵过白月光的魅力

陈意小可爱
2025-11-07 04:43:09
联盟第一!亚历山大30分雷霆双杀国王 威少恶犯24+6+9哈滕33+19

联盟第一!亚历山大30分雷霆双杀国王 威少恶犯24+6+9哈滕33+19

醉卧浮生
2025-11-08 13:23:23
iPhone 17大卖: 第一批京东自营用户已经在维权了

iPhone 17大卖: 第一批京东自营用户已经在维权了

好看商业
2025-11-07 15:52:03
杭州市监部门:对淘宝“霸屏广告”展开调查

杭州市监部门:对淘宝“霸屏广告”展开调查

潇湘晨报
2025-11-08 10:19:14
10.7挟持以色列婴儿拍炫耀视频的哈马斯被击毙

10.7挟持以色列婴儿拍炫耀视频的哈马斯被击毙

桂系007
2025-11-08 14:12:39
3-1,40岁C罗腾空转体180度怒吼庆祝:制造2球,率队8连胜领跑

3-1,40岁C罗腾空转体180度怒吼庆祝:制造2球,率队8连胜领跑

侧身凌空斩
2025-11-08 23:44:04
“胸部造型”机器人惹争议,小鹏天塌了!

“胸部造型”机器人惹争议,小鹏天塌了!

广告创意
2025-11-07 18:07:23
全运会爆大冷,夺冠大热门江苏队1-3输球,石宇奇输得没脾气

全运会爆大冷,夺冠大热门江苏队1-3输球,石宇奇输得没脾气

真理是我亲戚
2025-11-08 20:00:22
一年蒸发了10亿元,从网红白酒到狗都不喝,究竟发生了什么?

一年蒸发了10亿元,从网红白酒到狗都不喝,究竟发生了什么?

法老不说教
2025-11-06 20:45:28
顶级潜伏者:吴石仅排第5,钱壮飞排第2,第1名老蒋到死都没明白

顶级潜伏者:吴石仅排第5,钱壮飞排第2,第1名老蒋到死都没明白

白面书誏
2025-10-31 09:20:02
正式决定!交易克莱!再见了,独行侠

正式决定!交易克莱!再见了,独行侠

篮球教学论坛
2025-11-08 09:58:51
江苏有线高管全辞职,新任女总经理79年生

江苏有线高管全辞职,新任女总经理79年生

华美商业
2025-11-08 16:29:32
吴京深夜发文生无可恋,遭网友抵制并嘲讽,咋回事?

吴京深夜发文生无可恋,遭网友抵制并嘲讽,咋回事?

眼光很亮
2025-11-06 10:15:22
2025-11-09 00:32:49
科技Nice incentive-icons
科技Nice
以客观、专业、及时的态度,呈现手机数码、互联网、新能源汽车、电商、智能家居等行业精彩内容。
1035文章数 90关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

艺术
旅游
本地
手机
公开课

艺术要闻

1008米!世界新第一高楼项目,迎来第三家中国公司加入

旅游要闻

请到湾区看全运!“十五运会观赛游”正值出行火热季

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

iPhone 18全系标配2400万前摄:苹果史上最强

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版