网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

阿里林俊旸：大模型对很多人来说不够用，打造多模态Agent是关键

2024-05-04 11:00:57　来源: 量子位

台湾举报

0

分享至

编辑部整理自 AIGC峰会
量子位 | 公众号 QbitAI

在过去一年中，通义千问系列模型持续开源。

不仅频繁放出多种版本，涉及不同的规模和模态，成绩在大模型竞技场中也名列前茅。

比如目前最大的72B模型，表现就胜过了Llama 2-70B和MoE开源模型Mixtral。

而纵观整个大模型行业，开源开放也正促进着AIGC新应用的涌现。

过去一年，通义千问团队都做了什么，又有哪些经验值得开源模型开发者参考？

中国AIGC产业峰会上，阿里高级算法专家林俊旸给出了他的答案。

林俊旸参与了通义千问大模型的研发、开源、与外部系统融合等探索工作，还曾参与超大规模预训练模型系列M6、通用统一多模态预训练模型OFA等大模型的打造。

为了完整体现林俊旸的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

演讲要点

开源大模型要更深地融入整个生态，才能给用户带来便捷的使用体验。
除了基础模型Benchmark之外，多语言、长序列和Agent能力，也是衡量大模型表现的关键指标。
大语言模型发展下去，终将变成多模态模型，因为一个非常智能的模型，不仅要有语言能力，还应该融入对视觉语音方面的理解。

以下为林俊旸演讲全文：

融入生态，让大模型使用更加便捷

相信国内朋友都听说过通义千问的开源模型，我们从去年8月份开始一直开源，到现在我们开源的系列模型已经非常多了，刚开始先从7B、14B开始开源，直到现在1.5系列的72B版本，用户使用下来的感觉还不错。

当然，我们的1.5系列模型，涵盖的规模非常全，除了72B还有0.5B、1.8B这样的小规模版本，最新还有一个小的MoE的模型，大概是14B的参数量，激活参数量大概是2.7B。

我们的模型现在在LMSYS chatbot Arena，也就是人工评测上面取得比较不错的成绩，在刚开始登榜的时候，我们是开源的第一名，刚刚才被千亿参数的Command-R-Plus给超越。

如果只在相同规模中比较，那么截止到现在（4月17日），我们的72B模型还是最好的。

除此之外，我们也听从了开发者的建议，发布了32B模型，因为开发者反馈说72B模型太大，14B又好像还不够用。

最新推出的这个32B模型也取得了比较不错的成绩，跻身到了前15的行列，表现非常接近72B的模型，跟MoE架构的Mixtral相比也具有一定优势。

而除了不断提高模型的表现，最近几个月我们还做了一些不太一样的事情，就是让千问系列模型更好地去融入大模型生态，让用户使用起来更加便捷。

具体的举措有这样几点，第一是千问的代码已经融入了Hugging Face的官方代码当中，大家使用通义千问1.5的模型时就不需要再用Transformer code来调用了。

除此之外，我们很多三方框架都做了比较好的支持，包括LLama.cpp、vLLM，现在还有像Ollama也非常方便，都可以一键使用我们的模型。

如果你用LM Studio，也可以从中使用我们的GGUF的模型。如果想对我们模型进行微调的话，其实可以用到比如说Axolotl以及国内的LlaMA-Factory等工具。

多语言和长文本能力是关键指标

接下来我会给大家详细介绍一下我们模型的构成以及模型当前表现水平。

首先要看Base Language Model是一个什么样的水平，因为只有基础语言模型的表现好了，才能实现对齐，去进一步做一个比较好的模型。

我们各个Size都做了对比，其中72B的模型在各个Benchmark上的表现都比较有竞争力。

当然，我们现在开源模型跟GPT-4还会有差距，但是相比于此前的Llama2-70B以及Mixtral，都有比较明显的优势。

很长一段时间，如果大家关注Hugging Face Open LLM Leaderboard，会发现其实有很多模型是基于我们的72B模型微调出来的，因为海外朋友很多非常喜欢微调这个模型，然后登到这个榜上去。

同时我们不仅仅有7B及以上的大模型，也有小一些的模型，又叫做Small Language Model这一块，我们最小的模型参数量是0.5B，也就是5亿。

我们还有像1.8B、4B这些规模的模型，跟Phi-2、Gemma-2B等模型相比的话，我们的模型都非常有竞争力。

另外一个方面是多语言的能力，我们此前的模型在Qwen1的时候，没有对多语言进行检测，但本质上是多语言的模型。

大家可能会有一些想法，比如说阿里训出来的模型就是中文的模型，或者是中英双语的模型，其实不是这样，我们最近对多语言能力做一些检测，发现它的表现还不错，所以我们进一步在这个基础上做了多语言方面的对齐。

在12个比较大的语言上面去跟GPT-3.5相比，我们的模型表现都比较有竞争力。

如果大家关注社交媒体，会看到有很多朋友在使用我们的多语言的能力。

从目前收到的一些反馈来看，它的越南语能力还不错，还有人跟我说，孟加拉语也还可以。

最近还出现了一个模型东南亚语言模型Salior，它是基于Qwen1.5继续训练然后微调出来的。

而在小模型方面，有反馈说在法语上的表现不错，家如果看ChatBot Arena法语榜上，Qwen1.5表现也是非常有竞争力的。

在长序列方面，目前我们看32K长度上的表现是比较稳定的，有些模型Size甚至可以通过外推的方式推的更长，接下来的版本也会有更长的上下文窗口。

我们除了做简单的大海捞针的实验之外，也对一些针对序列评测的榜单做评估，发现我们的Chat模型在长序列方面，是可以做一些使用方面的东西。

下一个部分就是常说的Post-training，今天大家对大模型感兴趣，主要也是因为Post-training让大模型的潜力爆发出来，能够成为一个Assistant来帮助我们。

我们在Post-training做了非常长时间的工作，包括SFT（指导监督微调），主要是在数据方面做了一些比较扎实的工作。

我们最近在DPO方面也做了比较多的工作，之后如果有机会会通过技术报告的方式跟大家分享更多相关的细节。我们做完这些之后，会发现模型在一些评测上面的表现更有竞争力。

除了人工评测之外，还有像MT-Bench和Alpaca-Eval这样的测试，我们模型的表现也都非常有竞争力，尤其是Alpaca-Eval。

另一方面我们讲Agent方面的能力，这是我们一直非常关心的。

但我们刚开始给Qwen系列模型做SFT的时候，发现模型不太具备Agent相关的能力。

解决的方式是做更多的数据标注，时间长了之后，经验越来越丰富，就可以做一些Agent相关的任务了。

下一站是多模态Agent

今天我们还会关心另外一个问题，就是“大”模型对于很多人来说是不够用的。

因为大模型发展下去，终将变成多模态的模型，因为一个非常智能的模型，应该能够融入对视觉语音方面的理解。

过去几年的时间里，我们在多模态领域也做了比较多的工作，再把之前的一些经验融入进来，就有了Qwen-VL系列模型。

Qwen-VL系列模型的训练方法也相对来说比较简单，分为三个阶段。

首先是非常扎实对齐的预训练，实现视觉和语言模型的对齐，让我们的语言模型能够睁开双眼看世界，能够理解视觉方面的信息。

接下来是能力的注入和对齐，我们VL核心开发同学，他有一天刚好去医院，对医院密密麻麻拍了一个照问它说肚子疼去哪里，模型把相关信息都能准确识别出来。

这是今天VL模型跟过去不一样的点，今天对OCR的识别比以往做的好很多。

在这个基础上我们想做更加冒险的事情，比如说打造VL方面的Agent，如果能成功的话，将会非常有吸引力。

比如说，如果想对手机屏幕进行操作，如果看到的是一堆代码，那么操作起来将会非常困难，而对人来说不管怎么看、不管颜色、Logo怎么变我们都能理解，屏幕上面有哪些东西我们都能做出正确选择。

所以我们也让模型进行了一些尝试，发现它能准确识别出来这些位置，所以我相信随着VL模型水平不断提升，在Agent方面的潜力会越来越大。

如果让我们模型看见世界，能不能让它听见呢？方法也非常简单，简单说就是把Audio Encoder接入我们的模型，再基于刚才所说的几个阶段进行训练，就能得到非常好的效果。

而能够听见声音的大模型，可以做的事情非常多。

比如我在海外旅游，到了某个国家去，不太会说当地的语言，希望有一款产品能帮我进行翻译。

而在这种产品背后需要解决几个问题，需要先对语音进行识别，然后再进行机器翻译，这个过程其实非常麻烦。

但有了大模型之后，这样的任务只需要一个prompt就能解决，并且还能翻译成不同的语言，只需要跟模型交互就可以了。

除此之外，还有对自然声音和音乐的理解，ASR模型只能理解人的说话并转成文字，但现实中的声音包括自然声音以及音乐等多种类型。

而我们的模型可以做音乐的赏析，听到一段声音就能写出一首诗，可以看到大语言模型在多模态方面潜力十足。

另外，今年非常重要的一个趋势是大模型与视频的结合，我们下一步会做出更多模态，其中视频就是一个重点。

最后我做一个简单的总结，我们现在的Base模型和Chat模型每一次都会推出几个版本，最新的模型就在几个小时前，还推出了code专项模型，叫做CodeQwen 1.5，是一个7B规模的模型，在代码方面的Benchmark表现比较突出，大家可以去尝试。

接下来我们会去做进一步的Scaling，包括模型本身和数据的scaling，接下来还有模态方面的scaling，也就是接入更多的模态。

我们最终的目标是实现一个非常强大的大预言模型，能够理解各种模态的信息，甚至实现不同模态的输入和输出。所以，接下来大家可以持续关注我们的进展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
737 跟贴 737
开网约车的中年人，职业“堡垒”开始晃动

钛媒体APP 2024-01-13 17:04:36
338 跟贴 338

2024春晚，互联网大厂怎么不“打架”了？

钛媒体APP 2024-01-31 14:29:18
1537 跟贴 1537

GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
1374 跟贴 1374
辽宁4-0横扫新疆夺三连冠杨鸣被逐赵继伟19+10

网易体育 2024-05-22 21:40:06
24022 跟贴 24022

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

机器之心Pro 2024-01-31 15:01:05
2 跟贴 2

GPT-4 Turbo首次被击败！国产大模型拿下总分第一

量子位 2024-05-22 16:00:22
125 跟贴 125
诡异的量子世界，现在我们知道为何量子力学如此诡异了！

宇宙时空 2024-05-19 14:59:58
25 跟贴 25

研究表明：一种新的量子引力理论可能解释宇宙学中最大的谜题

来自星星的小胖子 2024-05-20 23:22:55
1 跟贴 1
一哄而上，打不赢美国高科技

华商韬略 2024-03-14 10:07:05
3637 跟贴 3637
字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步

量子位 2024-05-22 14:57:39
22 跟贴 22
4月份财政收入情况正式公布，形势非常严峻，应引起足够重视

老道闲聊 2024-05-22 11:06:21
10541 跟贴 10541
中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？

爱范儿 2024-05-21 18:10:15
287 跟贴 287
现场：伊朗总统莱希的孙子扑向哈梅内伊被他一把抱住

老梁说事 2024-05-22 20:04:10
15490 跟贴 15490
不分割成token，直接从字节中高效学习，Mamba原来还能这样用

机器之心Pro 2024-02-04 17:15:05
4 跟贴 4
前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI｜GenAICon 2024

智东西 2024-05-21 09:48:44
0 跟贴 0
严格的空中管制，严重制约中国航空事业发展，中国机场数量只有美国的1/20

爆角追踪 2024-05-22 17:01:17
10240 跟贴 10240
媒体：为应对台海冲突美宣布"爱国者"导弹"下海"计划

环球网资讯 2024-05-22 23:09:20
2583 跟贴 2583
“史上最宽松”房产政策能救活楼市吗？近半数银行人均薪酬下降

一周财经观察 2024-05-22 18:23:45
9506 跟贴 9506
剑桥团队开源：首个预训练通用多模态后期交互知识检索器

机器之心Pro 2024-03-25 16:09:30
0 跟贴 0
空警-600再次现身福建舰

武器纵论 2024-05-22 20:30:16
6 跟贴 6
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
游客驾车碾压新疆一景区草场官方通报：行政处罚5000元，责令限期恢复植被

红星新闻 2024-05-22 15:51:15
6672 跟贴 6672
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0
中超巨大争议！海港又获点球，10人“围攻”裁判，奥斯卡一蹴而就

奥拜尔 2024-05-22 21:52:12
4325 跟贴 4325
何小鹏深夜发文，年初预言的刀还是落在了自己身上？

汽车点评AC 2024-05-20 12:32:12
11 跟贴 11
每天至少要站5小时！澳大利亚：发现站、坐、躺最优分配时间

时光派健康抗衰 2024-05-19 11:10:03
494 跟贴 494
打虎！刘星泰被查

新京报政事儿 2024-05-22 09:16:42
488 跟贴 488
国产最强大模型易主！Baichuan 4霸榜SuperCLUE，击败GPT-4-Turbo，首款AI助手来了

智东西 2024-05-22 19:04:15
4 跟贴 4
何小鹏请各位友商高抬贵手：智驾团队今年扩招4000人

手机中国 2024-05-21 13:43:19
21 跟贴 21
车友实测开空调跑高速，特斯拉实现表显:实际=1:1！精准预估续航

特空间 2024-05-20 11:26:53
192 跟贴 192
90后清华博士，出任深圳一街道办主任

南方都市报 2024-05-22 12:51:41
1031 跟贴 1031
比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
18 跟贴 18
惊人！俄罗斯有三分之二人收入低于最低生活标准

亡海中的彼岸花 2024-05-22 08:40:43
780 跟贴 780
小米SU7被曝反向虚标充满度数超出电池标定度数约20%

手机中国 2024-05-21 19:12:13
802 跟贴 802
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
68 跟贴 68
意媒：还款截止时间已到，国际米兰归属橡树，苏宁时代完结

红星新闻 2024-05-22 11:10:12
2605 跟贴 2605
南阳开会纪念诸葛亮仙逝1790年被指巧立名目！主办方回应

南方都市报 2024-05-20 20:04:19
1660 跟贴 1660
吃相难看！老人离家4个月收90元燃气费，官方诡辩，整个南京牵连

扶苏聊历史 2024-05-22 16:42:07
85 跟贴 85
Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

机器之心Pro 2023-11-29 15:35:14
0 跟贴 0

黄仁勋：我有如今的成就，全因父亲把我带到美利坚，实现美国梦

黄仁勋：我有如今的成就，全因父亲把我带到美利坚，实现美国梦

青栀伊人

2024-05-20 22:00:50

中方要求以色列停止军事进攻拉法，立即开放全部陆路过境点

中方要求以色列停止军事进攻拉法，立即开放全部陆路过境点

金羊网

2024-05-22 09:56:13

国家已经很不容易了！希望全体中国人认清形势，不要再人云亦云

国家已经很不容易了！希望全体中国人认清形势，不要再人云亦云

星辰故事屋

2024-05-22 20:15:28

美国宣布将自8月1日开始对中国电动汽车、电池和芯片加征关税

美国宣布将自8月1日开始对中国电动汽车、电池和芯片加征关税

界面新闻

2024-05-23 08:38:05

网传1995年，演员张丰毅为出国手写保证书：按时回国，绝不多留一天

网传1995年，演员张丰毅为出国手写保证书：按时回国，绝不多留一天

小萝卜丝

2024-05-22 17:56:11

四名小学生玩耍时发现野生罂粟，集体到派出所上交民警，事后民警专程到学校表扬

四名小学生玩耍时发现野生罂粟，集体到派出所上交民警，事后民警专程到学校表扬

封面新闻

2024-05-22 20:49:38

腾讯宣布：全面降价，立即生效！

腾讯宣布：全面降价，立即生效！

每日经济新闻

2024-05-23 00:21:11

沉重哀悼！泣告：体育解说员田宗琦在泰国意外离世，终年41岁

沉重哀悼！泣告：体育解说员田宗琦在泰国意外离世，终年41岁

黑色柳丁

2024-05-22 23:41:48

本以为进京履新职，没想到接机的是纪委办案人员！

本以为进京履新职，没想到接机的是纪委办案人员！

我是娱有理

2024-05-23 07:24:11

严格的空中管制，严重制约中国航空事业发展，中国机场数量只有美国的1/20

严格的空中管制，严重制约中国航空事业发展，中国机场数量只有美国的1/20

爆角追踪

2024-05-22 17:01:17

张康阳办公室已遭清空，打包发往中国！本人目前在国内，保持沉默

张康阳办公室已遭清空，打包发往中国！本人目前在国内，保持沉默

风过乡

2024-05-22 21:47:58

全国至少26座高铁站建成后闲置，辽宁独占5座，谁该为这些无效投资负责？

全国至少26座高铁站建成后闲置，辽宁独占5座，谁该为这些无效投资负责？

中国经营报

2024-05-20 20:41:18

有史以来最大！东契奇有资格在明年休赛期签下5年3.46亿超级顶薪

有史以来最大！东契奇有资格在明年休赛期签下5年3.46亿超级顶薪

直播吧

2024-05-23 08:13:11

脸都不要了？微信在聊天窗口插入广告：触发关键词后直接跳转，并自动拍照

脸都不要了？微信在聊天窗口插入广告：触发关键词后直接跳转，并自动拍照

可达鸭面面观

2024-05-22 15:12:47

连她都“怕”了？！

环球时报新闻

2024-05-22 11:56:31

刚刚，惊天丑闻曝光！美西方信用彻底崩塌！

刚刚，惊天丑闻曝光！美西方信用彻底崩塌！

一个坏土豆

2024-05-22 21:28:20

“美丽女乡长”，主动投案！

仕道

2024-05-22 11:36:44

全球诚信排行，中国倒数第一？我们花了四年时间，推翻了这篇Science论文

全球诚信排行，中国倒数第一？我们花了四年时间，推翻了这篇Science论文

果壳

2024-05-22 16:33:27

六年整形医生曝森林北整容，晒海量对比照，汪峰这次真看走眼了！

六年整形医生曝森林北整容，晒海量对比照，汪峰这次真看走眼了！

古希腊掌管月桂的神

2024-05-21 22:22:15

要告诉你的亲人：未来几年，千万不要“得罪”这4类人

要告诉你的亲人：未来几年，千万不要“得罪”这4类人

舒山有鹿

2024-05-22 12:02:39

追踪人工智能动态

9428文章数 175289关注度

往期回顾全部

科技要闻

强劲！英伟达营收同比涨2.6倍，净利涨6倍

头条要闻

牛弹琴：欧洲看不下去了三国的联合举动狠狠打脸美国

头条要闻

牛弹琴：欧洲看不下去了三国的联合举动狠狠打脸美国

体育要闻

NBA最佳阵容:国际球星统治一阵詹库三阵

娱乐要闻

乔欣助理离职大爆料！涉及明星超10位

财经要闻

英伟达Q1收入猛增三倍、利润翻五倍！

汽车要闻

舒适价值拉满奇瑞风云T9售12.99-16.99万元

态度原创

亲子

艺术

健康

房产

手机

亲子要闻

安吉拉在巴基斯坦没人玩，天天缠着大舅哥家孩子，家都不想回

艺术要闻

穿越时空的艺术：《马可·波罗》AI沉浸影片探索人类文明

在中国，到底哪些人在吃“伟哥”？

房产要闻

又是中海！石景山首钢园地块底价成交

手机要闻

高通骁龙开发套件演示：可流畅运行《无主之地3》游戏

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版