网易首页 > 网易号 > 正文 申请入驻

阿里云发布通义千问2.0,性能超GPT-3.5,加速追赶GPT-4

0
分享至

图:通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4图:通义千问2.0发布图:通义大模型家族全面升级,8大行业模型组团上线图:通义千问72B即将开源

10月31日,阿里云正式发布千亿级参数大模型通义千问2.0。在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。当天,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。

过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。

中英文理解能力是大语言模型的基本功。英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,通过大幅增加参数量,通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务方面,通义千问2.0以明显优势在C-Eval基准获得最高得分,这是由于模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。

在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。

通义千问更成熟了,也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化,能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。

与此同时,基于通义大模型训练的8大行业模型组团上线,他们分别是通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手通义星尘-个性化角色创作平台通义点金-智能投研助手通义晓蜜-智能客服通义仁心-个人专属健康助手通义法睿-AI法律顾问。8大行业模型面向当下最受欢迎的多个垂直场景,使用领域数据进行专门训练。用户可以在官网直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。

截至10月,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

周靖人透露,阿里云计划近期开源通义千问72B版本,此前,阿里云已先后开源7B和14B版本模型,模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。

(完)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
福耀科技大学未通过审批,曹德旺发声,他的告白引热议

福耀科技大学未通过审批,曹德旺发声,他的告白引热议

吾天
2024-06-13 00:01:18
迪拜,一个比缅北更恐怖的地方!幸好贫穷又救了我一命!好可怕啊

迪拜,一个比缅北更恐怖的地方!幸好贫穷又救了我一命!好可怕啊

有趣的羊驼
2024-06-09 20:19:23
我70后,2次重病成为残疾人,放弃所有财产,和母亲去了法国生活

我70后,2次重病成为残疾人,放弃所有财产,和母亲去了法国生活

真实人物采访
2024-04-22 12:05:03
奔驰车主殴打女骑手后续:知情人发声,车主身份曝光,果然有后台

奔驰车主殴打女骑手后续:知情人发声,车主身份曝光,果然有后台

360度评说
2024-06-15 20:10:32
马龙回应无缘奥运单打:以自己目前能力和状态,可能有点吃力

马龙回应无缘奥运单打:以自己目前能力和状态,可能有点吃力

懂球帝
2024-06-15 12:58:10
这下,连美国人自己都意识到美元要出事了

这下,连美国人自己都意识到美元要出事了

美第奇效应
2024-06-15 00:11:30
中国外贸发生大变化!高中低端市场全部失守,依赖我国消费者?

中国外贸发生大变化!高中低端市场全部失守,依赖我国消费者?

科普六点半
2024-06-04 09:27:58
距离“6·15”不足12时!3艘055大驱一级战斗部署,马科斯亲自下令

距离“6·15”不足12时!3艘055大驱一级战斗部署,马科斯亲自下令

诉人世间
2024-06-16 02:40:02
张呈栋、于大宝遭声讨,疑似谢场时与国安远征球迷发生不愉快

张呈栋、于大宝遭声讨,疑似谢场时与国安远征球迷发生不愉快

直播吧
2024-06-15 23:50:12
七国联手实施毁灭性制裁,美国发出通牒:敢帮俄罗斯就要付出代价

七国联手实施毁灭性制裁,美国发出通牒:敢帮俄罗斯就要付出代价

雨伞
2024-06-16 00:17:07
顶住美压力,无视日本3次请求!坚决要将5000亿高铁大单交给中国

顶住美压力,无视日本3次请求!坚决要将5000亿高铁大单交给中国

星辰故事屋
2024-06-15 13:12:49
卡拉斯科:沙特联赛的水平比中国联赛高多了 C罗一人住一栋楼

卡拉斯科:沙特联赛的水平比中国联赛高多了 C罗一人住一栋楼

直播吧
2024-06-15 13:09:08
天生“坏种”!被判10年的李天一出狱后,令人作呕的一幕出现了

天生“坏种”!被判10年的李天一出狱后,令人作呕的一幕出现了

琪琪故事记
2024-06-14 09:42:01
都是花言巧语,别再“尬吹”毛东东了

都是花言巧语,别再“尬吹”毛东东了

一枚小吏
2024-06-13 09:44:46
汤普森做出决定!再见,勇士!你好,雷霆……

汤普森做出决定!再见,勇士!你好,雷霆……

篮球实战宝典
2024-06-15 16:06:16
就算陈梦退出奥运女单,也轮不到王曼昱,别忘了马琳还有徒弟

就算陈梦退出奥运女单,也轮不到王曼昱,别忘了马琳还有徒弟

十点体坛
2024-06-15 19:24:48
大瓜!黄一鸣撕葱事件新进展,王思聪连夜改名,女方出大招!

大瓜!黄一鸣撕葱事件新进展,王思聪连夜改名,女方出大招!

娱记掌门
2024-06-15 23:34:57
“艾森豪威尔”号新纪录:五年来美国海军最能打的航母

“艾森豪威尔”号新纪录:五年来美国海军最能打的航母

新世纪军工评论
2024-06-13 22:28:40
人神共愤!女孩喊爸爸被踹飞后续:疑似妈妈发声,警方评论区沦陷

人神共愤!女孩喊爸爸被踹飞后续:疑似妈妈发声,警方评论区沦陷

王小花谈历史
2024-06-12 16:56:56
三艘055大驱正面对抗罗斯福号,局势发生转折,动用主炮发射实弹

三艘055大驱正面对抗罗斯福号,局势发生转折,动用主炮发射实弹

影孖看世界
2024-06-14 23:11:11
2024-06-16 04:24:49
创头条
创头条
创业干货分享
877文章数 1296关注度
往期回顾 全部

科技要闻

TikTok开始找退路了?

头条要闻

欧洲杯-亚马尔创纪录卡瓦哈尔首球 西班牙3-0克罗地亚

头条要闻

欧洲杯-亚马尔创纪录卡瓦哈尔首球 西班牙3-0克罗地亚

体育要闻

莱夫利,让困难为我让路

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

新情况!高层对人民币的态度180°转弯

汽车要闻

东风奕派eπ008售21.66万元 冰箱彩电都配齐

态度原创

教育
本地
手机
亲子
房产

教育要闻

厉害!长沙15岁初三少年闯进2024年阿里巴巴全球数学竞赛决赛

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

手机要闻

小米澎湃OS再次公布进展通报:多项问题优化中,且全是内置应用!

亲子要闻

孩子总是便秘 家长要注意 这几点

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

无障碍浏览 进入关怀版