网易首页 > 网易科技 > 网易科技 > 正文

零一万物Yi-34B-Chat 跻身全球权威榜单前列

0
分享至

继11月初零一万物发布性能优异的 Yi-34B 基座模型后,Yi-34B-Chat 微调模型在11月24日开源上线 ,再度获得全球开发者广泛关注,短时间在全球多个英文、中文大模型权威榜单名列前茅。

其中,斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 备受瞩目。在实打实的“秀肌肉”比拼中,Yi-34B-Chat以94.08%的胜率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT,在 Alpaca 经认证的模型类别中,成为世界范围内仅次于GPT-4英语能力的大语言模型,并且是经由Alpaca官方认证为数不多的开源模型。

AlpacaEval Leaderboard排行榜(发布于2023年12月7日)

同一周,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。在开源模型中,Yi-34B-Chat成为当之无愧的“最强王者” 之一(英语能力),LMSYS ORG 在12月8日官宣11月份总排行时评价:“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5”。

LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。根据11月底发布的《SuperCLUE中文大模型基准评测报告2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

中文SuperCLUE排行榜(发布于2023年11月28日)

对广大开发社区来说特别值得一提的是,Yi-34B-Chat 微调模型还为开发者提供了4bit/8bit 量化版模型。Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用,训练成本友好。

Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:

【知识与生成】:Transformer 模型结构能不能走向 AGI ?

【创意文案】:给我生成一个小红书文案,给大家安利一只豆沙色的口红。

【中文理解】:小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导:“小王,你这人真有意思。”小王:“也没什么别的意思。”领导:“那我多不好意思。”小王:“是我不好意思。”这个意思到底是什么意思?

据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。

其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。

在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。

生态与开发者始终是大语言模型的核心。零一万物宣布,邀请全球开发者共同测试使用 Yi-34B-Chat 模型能力,一起搭建 Yi 开源模型的应用生态系!

模型地址

https://huggingface.co/01-ai/

https://www.modelscope.cn/organization/01ai


本文系网易科技《数字星球》原创报道,更多数字经济资讯和深度解析,关注我们。

相关推荐
热点推荐
克雷桑社交平台上久违发声,直接看懵鲁能球迷,却赢得崔康熙支持

克雷桑社交平台上久违发声,直接看懵鲁能球迷,却赢得崔康熙支持

评球论事
2024-04-29 21:11:50
解放军在南海发起行动,美航母全速撤退,才3天就跑到1600公里外

解放军在南海发起行动,美航母全速撤退,才3天就跑到1600公里外

老高风云
2024-04-29 11:31:12
河北人肉煎饼案谷宝成被执行死刑,行刑前哭着抽完2根烟

河北人肉煎饼案谷宝成被执行死刑,行刑前哭着抽完2根烟

青丝人生
2024-04-07 19:08:37
法国人想生产200万个奥运吉祥物,找了一圈还是选择中国义乌!

法国人想生产200万个奥运吉祥物,找了一圈还是选择中国义乌!

宝哥精彩赛事
2024-04-29 20:23:45
谢金燕拍陆综「双腿受伤严重变形」大哭!大片瘀青疑血栓 半夜急送医

谢金燕拍陆综「双腿受伤严重变形」大哭!大片瘀青疑血栓 半夜急送医

ETtoday星光云
2024-04-29 12:16:13
刚刚A股大事件,高层三箭齐发,今天或将有大变局

刚刚A股大事件,高层三箭齐发,今天或将有大变局

静守时光落日
2024-04-30 00:28:24
美国开始慌了!俄有意入中国这一武器,200公里外可击落F35

美国开始慌了!俄有意入中国这一武器,200公里外可击落F35

星辰故事屋
2024-04-29 18:10:58
报复真快!保加利亚放弃中国动车,西班牙无法交付,连累项目取消

报复真快!保加利亚放弃中国动车,西班牙无法交付,连累项目取消

户外小阿隋
2024-04-29 09:24:02
在啪啪前,怎样快速判断对方有没有性病?(成年人必读)

在啪啪前,怎样快速判断对方有没有性病?(成年人必读)

许超医生
2024-04-30 10:03:49
湖人暂停被偷,3次判罚不利!詹皇三节21+8,坐地摊手抗议被逆转

湖人暂停被偷,3次判罚不利!詹皇三节21+8,坐地摊手抗议被逆转

嘴炮体坛
2024-04-30 11:56:12
追梦回击:努尔基奇大软蛋出局咯 当你没那么成功时就少哔哔

追梦回击:努尔基奇大软蛋出局咯 当你没那么成功时就少哔哔

直播吧
2024-04-30 07:51:35
湖南恶警被执行死刑,画面曝光,临刑前戴镣铐含泪与妻子告别

湖南恶警被执行死刑,画面曝光,临刑前戴镣铐含泪与妻子告别

纪实录
2024-02-19 21:56:55
国产GPU重大利好!“中国英伟达”千卡集群已就位

国产GPU重大利好!“中国英伟达”千卡集群已就位

量子位
2024-04-28 18:51:40
“你就不会杀一批吗?”他这句暴论把以军官都吓一跳…

“你就不会杀一批吗?”他这句暴论把以军官都吓一跳…

观察者网
2024-04-28 11:08:13
没人敢动的军中巨贪,背后有两大保护伞,刘源:丢乌纱帽也拿下他

没人敢动的军中巨贪,背后有两大保护伞,刘源:丢乌纱帽也拿下他

旧时楼台月
2024-04-22 14:42:41
曝何超莲对婚姻付出少,过年没去公婆家,不想生娃,不带窦骁转行

曝何超莲对婚姻付出少,过年没去公婆家,不想生娃,不带窦骁转行

欢乐大意
2024-04-26 23:18:24
小奥斯卡:曾以为全中国都像广州那么热 到延边感觉血液都凝固了

小奥斯卡:曾以为全中国都像广州那么热 到延边感觉血液都凝固了

直播吧
2024-04-29 16:15:13
贡品||童颜水蛇腰大长腿!10年前她在互联网杀疯了

贡品||童颜水蛇腰大长腿!10年前她在互联网杀疯了

懂球娘娘
2024-03-19 11:45:50
2-0!国羽一姐首秀,陈雨菲霸气横扫,小组头名之战先拔头筹!

2-0!国羽一姐首秀,陈雨菲霸气横扫,小组头名之战先拔头筹!

钉钉陌上花开
2024-04-30 10:16:30
越来越不明白,14亿人口的大国,为啥容不下一个敢说真话的卢麒元

越来越不明白,14亿人口的大国,为啥容不下一个敢说真话的卢麒元

校长侃财
2024-04-30 12:09:30
2024-04-30 12:56:49

科技要闻

特斯拉和百度独家深度定制车道级高辅地图

头条要闻

内蒙古开鲁县回应承包人身份传言:确实曾任县政协常委

头条要闻

内蒙古开鲁县回应承包人身份传言:确实曾任县政协常委

体育要闻

上海男篮:年轻人,学费总是要交的

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

房产
游戏
时尚
艺术
手机

房产要闻

拆迁致富成过去式?广州旧改探索新出路

玩家之选!《剑星》成今年M站用户分最高游戏

40、50岁女人想要变优雅?衣穿简单不穿花,谁见了都会夸美

艺术要闻

共度北京108小时 北京当代2024“凝聚”全球36座城市100余家艺术机构

手机要闻

一加Nord 4 Geekbench跑分曝光 单核1875 多核4934

无障碍浏览 进入关怀版
×