网易首页 > 网易号 > 正文 申请入驻

SuperCLUE最新评测:文心X1.1精确指令遵循国内第一

0
分享至

10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大模型第一,在任务类型、指令数量两类划分中均为国内榜首,文心X1.1在实际生产环境中应用具有显著优势。

本次测评涵盖GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro等共10个国内外模型参与。基于实际生产环境特点,SuperCLUE-CPIF重点评估大型语言模型(LLM)在中文环境下的精确遵循复杂、多约束指令能力,重点评估模型将自然语言指令转化为符合所有要求的具体输出的能力。测评结果显示,国产主流大模型中,文心X1.1以75.51分位居国产大模型第一,DeepSeek-V3.2-Exp-Thinking和Hunyuan-T1-20250822分别以73.98分和65.82分位居国内二、三。


SuperCLUE-CPIF中文精确指令遵循测评总榜,文心X1.1位居国内第一

文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。

据了解,文心大模型X1.1在处理复杂写作任务时,既能运用模型内化的知识、调用联网搜索工具等准确查找用户需要的知识,又能深度思考用户希望创意写作的立意和要求,最后输出事实准确,结构化、逻辑性强,并且文辞优美的内容。例如在更复杂的长程任务场景,文心大模型 X1.1在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,能够严格遵循业务流程先后规划、再自主调用工具,并结合用户情绪,短时内解决了问题,服务过程完整主动。

作为国内最早投入大模型产研的企业,百度依托“芯片-框架-模型-应用”的全栈自研体系,持续推动文心大模型能力进化。得益于飞桨文心的联合优化,文心大模型的能力拓展和效率提升。据早前公开报道,相比文心大模型X1,文心X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。

本文来自和讯财经,更多精彩资讯请下载“和讯财经”APP

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东方卫视引进《成长的烦恼》,大年初一开播

东方卫视引进《成长的烦恼》,大年初一开播

北青网-北京青年报
2026-02-14 12:18:03
好有元气的感觉啊!!喜欢!!

好有元气的感觉啊!!喜欢!!

贵圈真乱
2026-02-14 11:17:48
女子假肢断裂被商家要价12000元,修鞋大爷一出手10分钟免费修好,女子买鱼感谢,大爷坚决不肯收:“不收你钱,拿去吧,听我的!”

女子假肢断裂被商家要价12000元,修鞋大爷一出手10分钟免费修好,女子买鱼感谢,大爷坚决不肯收:“不收你钱,拿去吧,听我的!”

观威海
2026-02-13 09:30:08
一年9.9元租地种菜?厦门一网友称被租地后的隐形账单“劝退”

一年9.9元租地种菜?厦门一网友称被租地后的隐形账单“劝退”

扬子晚报
2026-02-14 07:18:25
重磅深度!我为什么清仓了软件和券商股?AI的镰刀已经挥向持仓…

重磅深度!我为什么清仓了软件和券商股?AI的镰刀已经挥向持仓…

风风顺
2026-02-14 10:53:40
重磅宣布!再见了,保罗!正式结束NBA生涯

重磅宣布!再见了,保罗!正式结束NBA生涯

篮球实战宝典
2026-02-14 02:45:23
特朗普称以总统应为不赦免内塔尼亚胡“感到羞愧”,赫尔佐格回击:我才是以色列总统

特朗普称以总统应为不赦免内塔尼亚胡“感到羞愧”,赫尔佐格回击:我才是以色列总统

环球网资讯
2026-02-14 00:19:07
国际贵金属价格大幅下跌

国际贵金属价格大幅下跌

中国能源网
2026-02-14 10:44:03
当电车渗透率再度跌穿四成,证实日本车没有反思是对的

当电车渗透率再度跌穿四成,证实日本车没有反思是对的

柏铭锐谈
2026-02-13 17:29:03
毛主席宴请一位老人,对方问候他,他却大惊:您怎么忘记我名字了

毛主席宴请一位老人,对方问候他,他却大惊:您怎么忘记我名字了

大运河时空
2026-02-13 14:05:03
00后整顿家庭纠纷有多毒?网友:动不动就断绝亲戚关系,发疯精髓

00后整顿家庭纠纷有多毒?网友:动不动就断绝亲戚关系,发疯精髓

解读热点事件
2026-02-14 00:05:07
东北男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

品读时刻
2026-02-14 09:03:05
太突然!资本大佬李兆廷,被公安拘留!他是石家庄前首富,身家曾超200亿元,此前因欺诈发行等被罚5.9亿元并终身市场禁入

太突然!资本大佬李兆廷,被公安拘留!他是石家庄前首富,身家曾超200亿元,此前因欺诈发行等被罚5.9亿元并终身市场禁入

扬子晚报
2026-02-14 07:33:59
成功了!首款升级12000mAh电池的iPhone诞生:原来苹果是故意用小电池

成功了!首款升级12000mAh电池的iPhone诞生:原来苹果是故意用小电池

快科技
2026-02-14 07:37:20
杨瀚森闪耀全明星赛,突破克林根得分成为经典,斯普利特看到了吗

杨瀚森闪耀全明星赛,突破克林根得分成为经典,斯普利特看到了吗

姜大叔侃球
2026-02-14 11:10:47
令人厌恶的汽车“自动启停”功能终于被废除!还有多少荒唐的“环保”政策

令人厌恶的汽车“自动启停”功能终于被废除!还有多少荒唐的“环保”政策

大洛杉矶LA
2026-02-14 05:39:30
钱再多有啥用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有啥用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

青途历史
2026-02-02 18:31:15
外交部驻港公署就有关国家和组织干预黎智英案量刑裁决向其驻港机构提出严正交涉

外交部驻港公署就有关国家和组织干预黎智英案量刑裁决向其驻港机构提出严正交涉

环球网资讯
2026-02-14 14:22:40
曹操出行:跨越商业化迷雾, Robotaxi 不只是给车装上 “脑子”

曹操出行:跨越商业化迷雾, Robotaxi 不只是给车装上 “脑子”

晚点LatePost
2026-02-10 21:46:15
刚从台湾回来,说点不中听的:台湾的真实面目,可能让你很意外

刚从台湾回来,说点不中听的:台湾的真实面目,可能让你很意外

复转这些年
2026-02-13 23:13:35
2026-02-14 15:24:49
和讯网 incentive-icons
和讯网
和讯专注财经29年!更多实时行情与深度分析,可通过【和讯财经】体验
443150文章数 967035关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

百果园一根甘蔗87元被吐槽贵 店员:黄金手撕甘蔗按斤卖

头条要闻

百果园一根甘蔗87元被吐槽贵 店员:黄金手撕甘蔗按斤卖

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

教育
家居
数码
健康
军事航空

教育要闻

教育部定调2026年高考,6大变化恐深度影响考生命运

家居要闻

中古雅韵 乐韵伴日常

数码要闻

英特尔发布32.0.101.8509版WHQL显卡驱动:拓展XeSS3多帧生成支持

转头就晕的耳石症,能开车上班吗?

军事要闻

外媒:特朗普一旦下令攻击伊朗 行动或持续数周

无障碍浏览 进入关怀版