网易首页 > 网易号 > 正文 申请入驻

Llama-2首个全方位评测,国内外开源模型大比拼

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

进入2023年7月,大语言模型(LLM)的发展进入了新阶段,开源成为一个火热的主题

  • 7月6日,上海人工智能实验室与商汤科技等联合发布了书生·浦语开源体系(https://github.com/InternLM),不仅开源了书生·浦语的轻量版本(InternLM-7B),还率先开源了从数据、训练到评测的全链条工具体系,并提供完全免费的商用许可;
  • 7月14日,智谱科技开放ChatGLM2-6B免费商用;
  • 7月19日,Meta开源了性能更强的Llama-2,也提供了更加宽松的商用许可。

面对语言模型的新一波开源浪潮,图灵奖得主Yann Lecun在推特上评价:

This is going to change the landscape of the LLM market.

可是,开源模型的表现是否可以当得起业界的热切期待?

我们在拿到Llama-2的系列开源模型后,通过OpenCompass对它进行了全方位的评测(https://opencompass.org.cn)。

Llama-2有多强

Llama-2相比Llama-1有不少技术层面的改进,从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言,重要的改进有以下几点:

  • 模型架构上使用Group-Query-Attention(GQA)来提高模型推理效率,语境长度从2K增加一倍到4K。
  • 预训练语料从1.4T tokens增加到2T tokens。
  • 在监督微调(SFT)阶段更加注重数据集质量,使用更少但质量更高的SFT数据相比使用百万量级的公开SFT数据,效果显著提升。
  • 引入了三项安全训练技术Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增,仍难媲美ChatGPT

那么,Llama-2的整体能力究竟如何呢?

虽然在官方技术报告中已经展示了在20个左右数据集上的测试结果,但评价能力维度仍然有限,对比的模型也还不够全面。

这里我们借助开源评测工具OpenCompass,对Llama-2发布的各个模型在40多个评测集上进行了全方位的评测,从学科、语言、知识、理解、推理五大维度综合衡量大模型的能力。

结果可以总结为以下的雷达图:

下表列出Llama、Llama-2、以及ChatGPT在几个有代表性评测集上的表现:

更全面和详细的评测结果数字请参看https://opencompass.org.cn。

相比上代模型全面提升:

从综合能力角度,Llama-2-70B(绿色)相比于Llama-1-65B(紫色)更胜一筹,在语言、知识、推理、理解、学科等各个能力维度相比Llama-1都有明显提升。比如综合考试集MMLU上从63.71提升到69.75,GSM8K 上从54.51提升到63.46。

对话和基座模型基本持平:

经过微调和对齐的模型Llama-2-70B-Chat(黄色)相比基座模型Llama-2-70B(绿色),综合能力基本持平,在语言、推理和理解上相比基座有性能提升,在学科综合能力和知识能力上略有下降。比如翻译评测集Flores和代码评测集HumanEval上,Chat模型分别有超过40%和20%的相对提升,而在MMLU和TrivialQA上则有大约10%的相对降低。

离ChatGPT仍有较大差距:

相比ChatGPT-0613(蓝色),Llama-2-70B-Chat(黄色)仍需继续追赶,尤其在推理能力、理解能力、和学科综合能力上差距还比较明显。其中数学评测集MATH和代码评测集HumanEval的差距都超过了一倍。

中文能力短板明显

在Llama的训练语料中,中文占比较小,微调阶段也没有针对中文进行调优,所以当前Llama-2-Chat在中文问题上仍显不足。

一个典型的表现就是给定中文问题时,模型还是会以英文回答。

为了对Llama-2的中英文能力有更深入的理解,我们选取了OpenCompass中的中英文数据集进行分别分析。

结果显示:

  • Llama-2在英语语言能力、知识水平和理解能力上已经较为接近ChatGPT。
  • Llama-2在中文能力上全方位逊色于ChatGPT。这一结果表明,Llama-2本身作为基座模型直接支持中文应用并不是一个特别优秀的选择
  • 推理能力上,不管中英文,Llama-2距离ChatGPT仍然存在较大差距。由此可见,对于大模型来说,推理能力提升的难度比基础语言能力提升的难度要高得多。

安全对齐让模型过度谨慎

Llama-2的一大特色是它在训练过程中采用了比较完善的安全对齐方案,在价值对齐和安全性上有较大提升。

但在测试中我们也发现,Llama-2的安全性和模型能力的平衡没有做得特别好,模型非常谨小慎微,对于很多常见问题都拒绝回复

国内模型不落下风

近几个月,国内大模型发展迅速,多个企业和科研机构都发布了各自的大模型,其中不乏千亿参数的大模型。

那么国内大模型和Llama-2相比,究竟表现如何呢?很多朋友都关心这个问题。

重量级模型的对比

国内机构发布的70B或者更高量级的模型普遍尚未开源,很多模型只通过内测API提供有限服务,因此我们还很难获得对很多国产模型的全量评测数据。

在OpenCompass上,由上海人工智能实验室和商汤科技联合多所高校发布的千亿参数书生·浦语模型(InternLM-104B)已经有了全面的评测结果。

基于这个结果,我们比较了书生·浦语ChatGPTLlama-2的性能:

在重量级模型的对比中,书生·浦语表现优秀,在大部分主流评测集上领先于Llama-2以及ChatGPT。具体而言,在43个评测集中,InternLM-104B在34个评测集中超越ChatGPT,在41个评测集上超越Llama-2-70B。

中文考试大幅领先:

在中文考试评测集CEval和高考评测集GAOKAO-Bench上,InternLM-104B都大幅超过Llama2-70B。

语言能力略有优势:

在中英文的基础语言任务上,包括字词理解,成语习语,翻译等评测集上,InternLM-104B都有优势,其中中文评测集上差距更大。

阅读理解“书生”名副其实:

在中英文的各类阅读理解评测集上,InternLM-104B均表现出明显的优势,从文本段中总结和理解关键信息的能力更胜一筹。

推理能力技高一筹:

在常识推理、数学推理、综合推理的各种数据集上,InternLM-104B都有比较稳定的发挥,相比Llama2-70B有一定优势。

知识问答平分秋色:
在BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion等知识问答评测集上,两个模型表现相当,可见知识水平没有明显差异。

代码能力互有胜负:

InternLM-104B和Llama2-70B的代码能力不相上下,HumanEval和 MBPP两个数据集上互有胜负。

轻量级模型的对比

重量级赛道上你追我赶,在7B量级的轻量级赛道上,开源模型的竞争也十分活跃。

在众多国内开源模型之中,百川智能发布的Baichuan-7B、清华大学和智谱AI发布的ChatGLM2-6B、上海人工智能实验室发布的InternLM-7B等优秀模型广受业界关注。

我们把这些国内模型和Llama-2-7B进行了全方位评测对比:

下表列出了这几个7B量级模型在几个有代表性评测集上的表现:

结果显示:Llama-2在知识能力上有明显优势。

但在学科、语言、推理和理解能力上,InternLM和ChatGLM2都已经超越了Llama-2,而且InternLM的领先优势十分明显。

免费商用形成星火之势

几个月前Llama的开源引爆了社区,让众多开发者和研究者受益匪浅,衍生出整个羊驼家族,但遗憾的是其协议限制商用,将企业拒之门外。

7月6日,世界人工智能大会上,书生浦语开源体系正式发布,开源了InternLM-7B并提供免费商用许可。

之后,ChatGLM2-6B和Llama2等开源模型相继推进免费商用,顺应了发展潮流和社区呼声。

相信开源社区的星星之火将对产业形成燎原之势,进一步降低大模型落地应用的门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我在非洲干废品回收,娶了一对姐妹,年赚三百万,如今感觉快疯了

我在非洲干废品回收,娶了一对姐妹,年赚三百万,如今感觉快疯了

千秋文化
2026-05-01 19:00:05
66岁安帅暴怒 感觉被耍得团团转 警告内马尔:14天后还有伤就走人

66岁安帅暴怒 感觉被耍得团团转 警告内马尔:14天后还有伤就走人

风过乡
2026-05-30 08:33:24
美专家曾一语惊人:一旦美军把核弹扔向京沪,中国其实并不会还手

美专家曾一语惊人:一旦美军把核弹扔向京沪,中国其实并不会还手

泛舟碧波湖水
2026-05-30 12:43:13
18岁翻墙离家从军,父亲:我就当你死了!23年后一封急信让他泪崩

18岁翻墙离家从军,父亲:我就当你死了!23年后一封急信让他泪崩

磊子讲史
2026-05-26 11:55:22
面值250美元!印制肖像美钞已设计完成 特朗普签名版钞票要来了?|国际观察

面值250美元!印制肖像美钞已设计完成 特朗普签名版钞票要来了?|国际观察

封面新闻
2026-05-29 13:42:04
难以置信!长沙一销售哭诉月薪9760元太低了,网友:已超98%的人

难以置信!长沙一销售哭诉月薪9760元太低了,网友:已超98%的人

火山詩话
2026-05-30 08:05:24
神舟二十二号安全返航,着陆瞬间浓烟滚滚,美国飞船为什么不会

神舟二十二号安全返航,着陆瞬间浓烟滚滚,美国飞船为什么不会

粤语音乐喷泉
2026-05-30 01:45:29
64岁莫少聪放飞自我,一代男神变“金发大姨”,网友直呼认不出

64岁莫少聪放飞自我,一代男神变“金发大姨”,网友直呼认不出

娱乐E君
2026-05-29 11:45:16
网传26岁教师赛课时猝死:“表演式”赛课该停停了

网传26岁教师赛课时猝死:“表演式”赛课该停停了

教师吧
2026-05-30 09:20:39
老板娘问我她屁股翘不翘?我该怎么回答?

老板娘问我她屁股翘不翘?我该怎么回答?

太急张三疯
2026-05-30 14:20:11
怀念湖人,浓眉有意回归,湖媒爆出四换一方案

怀念湖人,浓眉有意回归,湖媒爆出四换一方案

体育新角度
2026-05-30 14:34:13
5月30日,多家上市公司发布重大利好利空消息

5月30日,多家上市公司发布重大利好利空消息

A股数据表
2026-05-30 06:00:06
事实证明杨幂没说错,刘恺威又爆恋情,十指紧扣新欢胸挺屁股也翘

事实证明杨幂没说错,刘恺威又爆恋情,十指紧扣新欢胸挺屁股也翘

阿策聊实事
2026-05-30 09:21:32
高考708分,我骗女友只考了388分,她提了分手跟学霸去了哈佛,谁料,开学那天,我们在校长办公室见了面

高考708分,我骗女友只考了388分,她提了分手跟学霸去了哈佛,谁料,开学那天,我们在校长办公室见了面

LULU生活家
2026-05-30 14:41:58
为什么古代的死士肯为主人卖命,网友:换我我也无法拒绝

为什么古代的死士肯为主人卖命,网友:换我我也无法拒绝

夜深爱杂谈
2026-05-18 22:01:13
新加坡香会取消了中国专场!李显龙没料到:这次中方不陪他们玩了

新加坡香会取消了中国专场!李显龙没料到:这次中方不陪他们玩了

小嵩
2026-05-30 02:26:27
《歌手》第2期排名:窦靖童第二,结石姐袭榜成功,魏如萱被淘汰

《歌手》第2期排名:窦靖童第二,结石姐袭榜成功,魏如萱被淘汰

水中烧烤的娱
2026-05-29 22:54:50
DeepSeek狂吞17万亿Tokens?国产AI算力,最关键一战来了!

DeepSeek狂吞17万亿Tokens?国产AI算力,最关键一战来了!

新智元
2026-05-29 13:17:47
著名歌唱家刘维维病逝!追梦路上有坎坷,将悲痛留给了妻子和儿子

著名歌唱家刘维维病逝!追梦路上有坎坷,将悲痛留给了妻子和儿子

小蔑谈事
2026-05-30 09:31:08
特朗普说即将开会就伊朗战事作出最终决定

特朗普说即将开会就伊朗战事作出最终决定

新华社
2026-05-29 23:03:15
2026-05-30 15:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12710文章数 176472关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

媒体:马科斯刚就台湾问题表态 转头就与高市联合发声

头条要闻

媒体:马科斯刚就台湾问题表态 转头就与高市联合发声

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
亲子
本地
时尚
公开课

旅游要闻

夏遇彩虹 邂逅美好

亲子要闻

四年级上册必读课外书快乐读书吧人教版全套书推荐山海经中国神话

本地新闻

用剪纸的方式,打开江苏扬州

2026夏天最新5款发型合集,每一款都超心动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版