一年一度云栖大会,阿里云的通义千问大模型升级了。
官方态度比较低调,“ 加速追赶 GPT-4 ”。
事情可能并不简单,比起 4 月发布的 1.0 版,通义千问 2.0 的参数规模达到 “ 千亿级 ”,但官方没说是一千亿、两千亿还是五千亿。
只知道在十多个权威评测中,通义千问 2.0 的综合性能超越 GPT-3.5,测评得分是 9 胜 1 负。跟 GPT-4 比,4 胜 6 负,还差那么一截。
据了解,比起旧版,通义千问 2.0 在处理复杂的指令理解、文学创作、通用数学、知识记忆以及幻觉抵御等多个方面的表现都有显著提升。还专门针对指令遵循、工具使用、精细化创作做了技术优化,目的是 “ 更好地被下游应用集成 ”。
好不好用,还是得测过了才知道。知危编辑部按照 “ 国际惯例 ”,做了一把测评。
只不过,大模型发展到今天,再像早期那样反复玩 “ 弱智吧大战 AI ” ,意义已经不大了。对于大多数人来讲,看乐子是一时的。大家真正想看的,还是大模型能不能真正成为一个日常生活辅助工具,甚至是生产力工具。
所以,我们也来了次测试升级,不再按照简单问几个问题就来判断好坏,而是尽可能给出详尽的提示词和要求,看看在面对实际生活工作中的实际需求时,大模型会如何应对。
我们先试一个简单的文学能力。让通义千问先为这届杭州亚运会作一首五言绝句诗,再让它针对本届杭州亚运会的特色,按照盛唐诗人的风格写一首七言律诗:
水平还可以,抓住了盛唐风格的味道,每句结尾都实现了押韵,提到的亚运会几个主要特点也都囊括在内了。
下面我们预设了一个生活中常见的男女朋友吵架的情况,让通义千问帮男生出谋划策,针对道歉给出具体的规划:
这个问题的回答有些泛泛而谈,我们进一步提问了具体的措施:
调整后的建议就相当到位了,比如虽然提醒男生可以送礼物,但还额外点出了 “ 不要将此作为道歉的主要手段 ”。
就连约会地点都很贴心地建议了 “ 曾经去过的地方 ”。
编辑部的女同事看了之后,都表示这个计划 “ 很会 ”。
由于双11即将来临,我们又给了通义千问一个直播脚本的案例,让它写出一个 “ 能讲清楚卖点、直击买家的日常痛点 ” 的电动牙刷直播带货脚本。
虽然整体框架和我们给到范例差别不大,但在内部的一些话术设置上,还是有些东西的。
例如在逼单环节用上了 “ 不要等到牙痛的时候,才后悔没有好好爱护牙齿 ” 的说辞,对用户的 “ 拿捏 ” 程度还是较高的。
相信如果提示词更详尽、几轮调教下来,肯定还会有更大的提升。
而对于另一类大需求代码能力,我们先测了一个 python 的代码能力:
在本地运行后是这样的:
不得不说还是可以的。
接着,我们又尝试让它写一个实用性强一点的 HTML 页面 :
最后呈现效果如下:
通义还贴心地提醒图片需要自己上传、交互部分需要找其他后端工程师补齐。
我们咨询了一位资深前端工程师,在她看来,虽然目前的例子比较简单、粗糙,但起码给的要求都完成了,“ 如果提示词更到位,在实际造轮子的过程中也许能派上用场 ”。
好了,编辑部的测试大概就节选这么多,大家有兴趣的话,可以直接去通义千问官网或者今天上线的通义千问 APP 上测试。
在我们看来,这次升级后的通义千问的确相较刚发布时有了明显的提升,在同行们都在狂奔向前的时候,它以这个实力站稳在国产第一梯队问题不大。
但,一些刚上的新功能使用体验还是有待优化,例如此次上线的图片理解功能,目前只能最基本地分析图里有什么。
纵观整个云栖大会的发布,通义千问 2.0 并不占据最大篇幅。阿里巴巴集团董事会主席蔡崇信明确表达了阿里云的 “ 第一身位 ”:“ 不开放就没有生态,没有生态就没有未来,阿里云要做 AI 时代最开放的云”。
作为云计算厂商的阿里云,从头到尾都在向整个大模型行业释放欢迎的信号。
比如,本届云栖大会有个重要发布 —— 一站式大模型应用开发平台 “ 阿里云百炼 ”,封装好大模型,为企业和开发者提供专属模型训练和模型应用开发的服务。但阿里云百炼上的模型,远远不止通义千问,还集成了大量优质的国内外开源大模型。
眼下,千行百业都想借助大模型的能力实现业务升级,但大模型方面对于技术、人才高门槛,让大量企业望而却步。
阿里云百炼平台,就是要让各个企业、开发者利用平台的各种工具、流程,大大降低行业/企业向的大模型及大模型应用的开发、部署门槛。
对于需要训练专属模型的用户,也能够在平台上直接进行快捷的数据处理、微调训练、模型评估等等。
对于需要开发大模型应用的用户,阿里云百炼平台则是采用了全新的应用范式,创建了一套便捷的开发界面,编辑部简单体验了下,感觉上手操作难度确实不高。
理论上,开发者可在 5 分钟内开发一款大模型应用,几小时即可 “ 炼 ” 出一个企业专属模型。
这么一来,开发者能够免去造轮子费的力气,把更多的重心和精力专注在大模型在行业内的应用创新上。
阿里云百炼平台,已经有了不少成功的落地案例。
据知危了解,朗新科技、央视网、亚信科技等均已在阿里云百炼平台上成功开发了专属模型和应用。
以朗新科技为例,他们引入基于垂直领域专属大模型拟人化、角色化的 “ 电力账单解读智能助手 ” 后,大大缩短了客户咨询流程,咨询效率提高了 50% 以上,还将与电费相关的客户投诉率降低了七成以上。
与朗新科技类似,很多企业急需一个高度行业向、企业向的专属大模型,可以说这是当下 AI 大模型的一个落地刚需。
事实上,自大模型浪潮兴起以来,阿里云就在做开源开放这件事。
今年 8 月起,阿里云在国内大厂中率先开源自研的通义千问大模型,陆续开出 7B、14B 参数版本。今天,阿里云CTO 周靖人现场表态,11 月份将开源 72B( 720 亿 )参数版本。这将会是参数规模最大的中国开源大模型。
去年云栖大会,阿里云牵头建设了 AI 模型开源社区魔搭 ModelScope。时隔短短一年,就发展成为中国最大的AI模型社区, 汇聚了 2300 +款 AI 模型,吸引了 280 万名 AI 开发者,成为中国大模型开源第一门户。
百川智能、智谱 AI、上海人工智能实验室等头部机构都把魔搭作为自家模型开源首发平台。
没有云计算,就没有大模型。阿里云的野心,是大模型时代提供 AI 算力基础设施。事实上,目前中国大模型企业有超过一半跑在阿里云上。
阿里云创始人王坚说,云计算和 GPT 的关系,就是电和电机的关系。
阿里云想做那个为 AI 发电的角色。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.