网易首页 > 网易号 > 正文 申请入驻

iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?

0
分享至

机器之心报道

编辑:张倩

虽然性能仍不及ChatGPT 3.5,但开源的力量是无法估量的。

昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」

对于开源社区来说,这个大模型就是「全村的希望」。它的出现将进一步缩小开源大模型与闭源大模型的差距,让所有人都有机会基于它构建自己的大模型应用。

因此,在过去的 24 个小时,Llama 2 成了所有社区成员关注的焦点。大家都在谈论它的性能、部署方法以及可能带来的影响。为了让大家在第一时间了解这些信息,我们在这篇文章中进行了总结。

Llama 2 性能究竟如何?

在展示评测结果之前,我们先来梳理一下 Llama 2 的基本信息:

  • 包含 70 亿、130 亿和 700 亿三种参数变体,此外还训练了 340 亿参数变体,但并没有发布,只在技术报告中提到了。
  • 在 2 万亿的 token 上进行训练,相比于 Llama 1,训练数据多了 40%,精调 Chat 模型是在 100 万人类标记数据上训练的。
  • 支持的上下文 token 长度翻倍,由原来的 2048 升级到 4096。
  • 免费可商用,但日活大于 7 亿的产品需要单独申请商用权限。

在 Llama 2 发布后,整个 Llama 项目的 Github star 量正在逼近 30k。

在 Meta 发布的论文中,我们还可以看到 Llama 2 的一些性能情况:

  • Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5,但在编码基准上存在显著差距。
  • 在几乎所有基准上,Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好,不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。

也就是说,即使是参数量最大的 Llama 2 70B,性能目前也没有超过 GPT-3.5,距离 GPT-4 差距更大。

为了测试一下 Llama 2 的实力,各路网友都在想办法对其展开测试,比如让他根据一些「荒唐」的信息写一封公司邮件。

还有人已经开始直播 Llama 2 和其他类 ChatGPT 产品的 PK:

在测试过程中,大家发现了一些问题,比如 Llama 2 受到的 RLHF 训练似乎太多了点,这导致它非常守规矩:

在一位开发者制作的免费应用程序中,机器之心也上手体验了一把。

首先,我们问一下 Llama 2 能做什么?Llama 2 回答道:「我可以帮助你处理各种任务,比如回答问题、提供信息,甚至帮助你完成日常任务。我只是一个人工智能,无法在现实中执行任务,但我可以为你提供你需要的信息或帮助……」。从语言上来看,Llama 2 支持中文输入,但回答基本都用英文,中文理解、生成能力有限。

接着问它数据截止到什么时候?从 Llama 2 的回答中,我们可以得知,它掌握的数据截止日期是 2022 年 12 月。

接着,我们向 Llama 2 询问了一个不那么贴切的问题。Llama 2 指出了标题的不合理性,并给出了一些建议:

但是,Llama 2 对鸡兔同笼问题还是不擅长。

测试地址:https://llama-2.replit.app/

在推特上,Vicuna(小羊驼)项目创建者公布了他们的系统测试结果,结论如下:

  • Llama-2 表现出更强的指令遵循能力,但在信息提取、编码和数学方面仍明显落后于 GPT-3.5/Claude;
  • 对于安全性的过度敏感可能导致对用户查询的错误解读;
  • 在聊天性能上与基于 Llama-1 的领先模型(如 Vicuna、WizardLM)相当;
  • 非英语语言技能有限。

以下是一些测试数据和结果:

哪些设备能在本地跑这些模型?

由于 Llama 2 开源了不同大小的版本,这些模型在本地部署方面非常灵活。如果你不想把自己的数据传上网,那么本地部署就是最好的选择。这一想法可以通过陈天奇等人打造的 MLC-LLM 项目来实现:

项目地址:https://github.com/mlc-ai/mlc-llm

在之前的报道中,我们提到过这个项目。它的目标是让你「在任何设备上都能编译运行大语言模型」,包括移动端、消费级电脑端和 Web 浏览器。它支持的平台包括:

在 Llama 2 发布后,陈天奇等项目成员表示,MLC-LLM 现在支持在本地部署 Llama-2-70B-chat(需要一个带有 50GB VRAM 的 Apple Silicon Mac 来运行)。在 M2 Ultra 上,解码速度可以达到~10.0token / 秒。

当然,借助 MLC-LLM,运行其他版本的 Llama 2 模型更是不在话下:7B 模型在 Apple M2 Max 上的运行速度约为 46 tok/s,在 RTX 4090 上约为 156 tok/s。

此外,借助陈天奇等人发布的「MLC Chat」APP(苹果应用商店可以搜到),我们还可以尝试在手机、iPad 上使用 Llama 2(无需联网)。

Llama 2 将带来哪些影响?

如果 Meta 没有在今年 2 月份开源 Llama,你可能不知道「羊驼」原来有那么多种写法:基于这一开源模型的「二创」项目几乎占用了生物学羊驼属的所有英文单词。在 Meta 将模型迭代到 2.0 版本后,这些项目自然也被拉到了新的起点。

在 Llama 2 发布不到一天的时间里,能够像 GPT-4 一样处理图像信息的大型多模态模型「熔岩羊驼 LLaVA」的开发者就宣布,他们基于 Llama 2 对 LLaVA 进行了更新。新版本增加了对 LLaMA-2 的支持,同时还支持使用学术界 GPU 进行 LoRA 训练,以及更高的分辨率(336x336)和 4-/8- 推理等功能。

此外,他们还发布了新的 LLaVA 变体的预览版本,该版本基于最新的经过 RLHF 微调的 LLaMA-2-Chat 检查点,提供更长的上下文窗口。这些新发布的版本支持并验证了在 RTX 3090 和 RTX A6000 上进行的训练,从而使大型多模态模型的训练更加便捷、更加适用于广大社区用户。

当然,这只是一个开始。假以时日,那些基于 Llama 2 的模型会陆陆续续上线或更新,「千模大战」一触即发。

对于 Llama 的未来发展及影响,英伟达高级 AI 科学家 Jim Fan 也给出了自己的预测:

  • Llama-2 的训练成本可能超过 2000 万美元。之前,一些大公司的人工智能研究人员因为商业许可问题对 Llama-1 持谨慎态度,但 Llama-2 的商业限制大大松绑,未来很多人可能会加入 Llama 阵营,并贡献他们的实力。
  • 虽然 Llama-2 目前还没有达到 GPT-3.5 的水平,在编程等问题上存在明显短板,但由于它的权重是开放的,这些问题早晚会得到改进;
  • Llama-2 将极大地推动多模态人工智能和机器人技术的研究。这些领域需要的不仅仅是对 API 的黑盒访问。目前,我们必须将复杂的感官信号(视频、音频、3D 感知)转换为文本描述,然后再输入到 LLM(语言与视觉融合模型)中,这样做非常笨拙,导致信息损失非常严重。直接将感知模块嫁接到强大的 LLM 骨干上将更加高效。

对于研发闭源大模型的企业来说,Llama 2 的发布也是意义重大。如果他们研发的模型本身不够强大,或者和开源 Llama 2 及其衍生模型的差距不大,那么其商业价值将很难变现。

如果你对 Llama 2 的未来影响也有一些看法,欢迎在评论区留言。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度第一季度GDP同比增长7.8%,预估增长7.0%

印度第一季度GDP同比增长7.8%,预估增长7.0%

每日经济新闻
2024-05-31 20:09:05
被胡塞武装导弹“击中”后,美航母舰长发照片暗示“一切正常”

被胡塞武装导弹“击中”后,美航母舰长发照片暗示“一切正常”

三叔的装备空间
2024-06-01 09:29:55
技不如人?外国卫星拍到福建舰转弯半径达3.4公里,里根号仅500米

技不如人?外国卫星拍到福建舰转弯半径达3.4公里,里根号仅500米

慎独赢
2024-05-31 20:25:03
李湘:我那“风流成性”的前夫王岳伦,离婚后,对我越来越贴心了

李湘:我那“风流成性”的前夫王岳伦,离婚后,对我越来越贴心了

咖啡店的老板娘
2024-05-31 23:37:42
中国正式官宣!大幅提高美欧进口车关税,美国欧洲反应激烈

中国正式官宣!大幅提高美欧进口车关税,美国欧洲反应激烈

星辰故事屋
2024-05-31 20:31:20
女单大爆冷!乒坛头号种子2:3被淘汰,无缘女单8强,日本选手3:2

女单大爆冷!乒坛头号种子2:3被淘汰,无缘女单8强,日本选手3:2

国乒二三事
2024-06-01 10:16:48
为他人提供手淫,构成卖淫吗

为他人提供手淫,构成卖淫吗

刑事黎律
2024-05-30 07:00:08
两性疑问:为什么男生更喜欢从后面来

两性疑问:为什么男生更喜欢从后面来

坟头长草
2024-05-30 16:33:38
李湘带王诗龄探班《歌手》,洪涛亲自接待,王诗龄和何炅合影

李湘带王诗龄探班《歌手》,洪涛亲自接待,王诗龄和何炅合影

素素娱乐
2024-06-01 09:49:33
新娘全裸海报迎宾!网红千惠刷流无底线!网友直言:这老公真大方

新娘全裸海报迎宾!网红千惠刷流无底线!网友直言:这老公真大方

鑫鑫说说
2024-06-01 09:37:29
国乒首位女单被淘汰!0:3出局,垂头丧气输球,王艺迪3:0晋级八强

国乒首位女单被淘汰!0:3出局,垂头丧气输球,王艺迪3:0晋级八强

国乒二三事
2024-06-01 14:26:55
中国军事科学院原副院长何雷中将:请菲方先回答四个问题!

中国军事科学院原副院长何雷中将:请菲方先回答四个问题!

新京报政事儿
2024-06-01 13:27:50
运动抗癌“实锤”!肿瘤专家推荐:最好的抗癌运动,不是走路跑步

运动抗癌“实锤”!肿瘤专家推荐:最好的抗癌运动,不是走路跑步

肿瘤的真相与误区
2024-05-29 19:35:38
哈以最新:加沙只剩下最后一个悬念

哈以最新:加沙只剩下最后一个悬念

西楼饮月
2024-06-01 12:30:02
字节跳动被曝滥用AI,为了给自家引流,生成2000多万条中文垃圾内容

字节跳动被曝滥用AI,为了给自家引流,生成2000多万条中文垃圾内容

西游日记
2024-05-31 21:28:41
台媒曝大S汪小菲和解细节!大S主动提和解,汪小菲需付2亿和解金

台媒曝大S汪小菲和解细节!大S主动提和解,汪小菲需付2亿和解金

小徐讲八卦
2024-06-01 07:41:17
CBA最新消息!郭士强离开广州,山西确定主帅,布鲁克斯确定签约

CBA最新消息!郭士强离开广州,山西确定主帅,布鲁克斯确定签约

体坛瞎白话
2024-06-01 09:07:32
娃哈哈:八宝粥内可能含有没有清理干净的桂圆壳、桂圆核、薏米壳

娃哈哈:八宝粥内可能含有没有清理干净的桂圆壳、桂圆核、薏米壳

映射生活的身影
2024-05-31 22:21:47
亚洲强国倒向美囯!“亲美”阵营再添一员大将,比越南危险100倍

亚洲强国倒向美囯!“亲美”阵营再添一员大将,比越南危险100倍

星辰故事屋
2024-05-30 17:15:01
许家印“手段特别恶劣,情节特别严重”,无法与夏海钧取得联系!恒大地产41.75亿元罚单全文公布:2年虚增收入超5600亿

许家印“手段特别恶劣,情节特别严重”,无法与夏海钧取得联系!恒大地产41.75亿元罚单全文公布:2年虚增收入超5600亿

每日经济新闻
2024-05-31 17:20:13
2024-06-01 16:32:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9040文章数 141934关注度
往期回顾 全部

科技要闻

华为上新!余承东:问界6月销量将超4万辆

头条要闻

法国确认不邀请俄方参加诺曼底登陆纪念活动 克宫回应

头条要闻

法国确认不邀请俄方参加诺曼底登陆纪念活动 克宫回应

体育要闻

"失业"一年了 33岁的德赫亚路在何方

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

亲子
艺术
房产
健康
游戏

亲子要闻

#李玫瑾谈未成年人保护李玫瑾教家长如何培养孩子的抗压能力

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

晚餐不吃or吃七分饱,哪种更减肥?

《命运2:终焉之形》服务器维护25小时 更新近300G

无障碍浏览 进入关怀版