网易首页 > 网易号 > 正文 申请入驻

通义千问开源 Qwen1.5 六大版本:性能仅次于 GPT-4 Turbo |AI 鲜测

0
分享至

春节前夕,通义千问时隔三月发布了 Qwen 模型的最新版本 Qwen1.5。

新版大模型开源了六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B。

以下是此次更新的一些重点:

- 支持 32K 上下文长度;

- 开放了 Base + Chat 模型的 checkpoint;

- 可与 Transformers 一起本地运行;

- 同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。

先不看跑分,硅星GenAI上手试了试,看看它跟前代(1.0 版本)、GPT-3.5 和 GPT-4 实测对比效果:

这些测试包含如数学、逻辑、文字理解的相关问题。

首先,是两道数学题:

- 概率问题:一个标准的六面骰子连续掷两次,第一次掷出6的概率是多少?(正确答案:1/6)

- 代数问题:如果一个数加上它的倒数等于10/3,求这个数?(正确答案:1/3 或者 3)

无论是Qwen1.0,还是Qwen 1.5,其数学能力都超过了 GPT-3.5,给出了准确的思考过程。但 GPT-4 更胜一筹,能给出最为准确的答案。

接着,是两道逻辑题:

- 抽象推理:A比B大,C比A大,D比C小。如果E比D大,那么最小的是?(正确答案:B)

- 条件逻辑:如果下雨,我就不去公园。如果我去了公园,是否可以推断当天没有下雨?(正确答案:可以推断,并且当天没有下雨)

看得出,无论是 GPT,还是 Qwen 的模型,对于简单逻辑(比大小)都可以进行很好的处理;

但对于复杂逻辑判断,只有 GPT-4 以及 Qwen1.5-72B 可以做出准确处理。

最后,是两道文字题:

- 文本分析:分析以下句子的意图和情感:“虽然外面的风雨如磐,但他依然决定继续前行。”

- 隐喻和比喻:在“时间是一条河流,我们是河中的游鱼”的比喻中,时间和人的关系是如何被描述的?

在这一题中,Qwen1.5-72B 竟然从中领悟到了“同情”和“敬佩”的感情,这是其他模型,甚至是我自己都没想到的点,而且细想确实有道理。

论鸡汤,我觉得还是 Qwen1.5 72B 说的最有道理。整体来看,在 GPT系列模型中,面对此问题是一种消极的态度。

Qwen1.5 则是一种相对积极的观点——虽然我们无法左右时间前后,但可以自己调整身位来决定自己的生活路径。

性能测试与解读

在 MT-Bench 和 Alpaca-Eval v2 上,Qwen1.5-72B-Chat 表现不错,虽然不如 GPT-4 Turbo,但超过像是 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B在内的一众模型,与 Mistral Medium 基本持平。

在小模型的测试中,这次在 7B 以下的 Qwen1.5 版本,都表现不错。

目前,Qwen1.5 已经与 HuggingFace transformers 代码库进行了集成。从 4.37.0 版本开始,开发者可以直接使用 transformers 库原生代码,而不加载任何自定义代码(指定 trust_remote_code 选项)来使用 Qwen1.5。

欢迎加入这个星球,见证硅基时代发展↓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭士强下课!丑陋的比赛,毫无战术,丢人现眼,中国男篮脸丢光了

郭士强下课!丑陋的比赛,毫无战术,丢人现眼,中国男篮脸丢光了

烨侃体育
2026-07-03 21:54:14
世界杯16强剩3席!7月4日收官:阿根廷需防爆冷,亚洲独苗盼晋级

世界杯16强剩3席!7月4日收官:阿根廷需防爆冷,亚洲独苗盼晋级

球场没跑道
2026-07-03 13:19:29
协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

青苹果sht
2026-06-30 05:50:59
穆里尼奥赚大了!皇马 6000 万新援一战封神,世界杯打爆强敌

穆里尼奥赚大了!皇马 6000 万新援一战封神,世界杯打爆强敌

奶盖熊本熊
2026-07-03 05:39:34
齐达内儿子被梅西打穿后,情绪一度崩溃,淘汰赛重回赛场,比赛50分钟内又被灌进2球

齐达内儿子被梅西打穿后,情绪一度崩溃,淘汰赛重回赛场,比赛50分钟内又被灌进2球

极目新闻
2026-07-03 12:58:07
秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秋别离
2026-06-13 15:50:00
还嘴硬?男篮惨败郭士强公开担责,一句话堵死归化路,杨瀚森表态

还嘴硬?男篮惨败郭士强公开担责,一句话堵死归化路,杨瀚森表态

萌兰聊个球
2026-07-03 22:43:01
22岁还进不去皇马一线队,27岁却成西班牙队大腿,全能战士太励志

22岁还进不去皇马一线队,27岁却成西班牙队大腿,全能战士太励志

足篮大世界
2026-07-03 22:46:12
汉兰达换代实锤!这次只动脸、不动心

汉兰达换代实锤!这次只动脸、不动心

生活魔术专家
2026-07-03 18:19:48
西安老板严鹏跳楼自杀!知情人曝原因,最后朋友圈曝光写好了遗言

西安老板严鹏跳楼自杀!知情人曝原因,最后朋友圈曝光写好了遗言

娱乐圈圈圆
2026-07-02 10:45:10
香港政府发文,43岁徐子淇再破“天花板”,让香港阔太圈沉默了

香港政府发文,43岁徐子淇再破“天花板”,让香港阔太圈沉默了

观察鉴娱
2026-07-03 09:14:08
“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

医客
2026-07-01 13:19:16
既要又要!小国世界杯晋级后,马上喊话大陆:不跟台湾“断交”!

既要又要!小国世界杯晋级后,马上喊话大陆:不跟台湾“断交”!

而长终
2026-07-03 08:33:40
詹姆斯下家范围缩小,勇士骑士二选一,7月9日公布“决定四”

詹姆斯下家范围缩小,勇士骑士二选一,7月9日公布“决定四”

奕辰说球
2026-07-03 13:36:04
哈佛大学研究发现:人生回报率最高的,是每天坚持这两个习惯

哈佛大学研究发现:人生回报率最高的,是每天坚持这两个习惯

心理观察局
2026-07-01 07:37:28
特斯拉中国 6 月卖了超 8.9 万辆 Model 3/Y

特斯拉中国 6 月卖了超 8.9 万辆 Model 3/Y

新浪财经
2026-07-02 22:54:13
伊朗有可能犯下重大错误!

伊朗有可能犯下重大错误!

叶葉夜
2026-07-02 20:15:49
火辣,墨西哥队挺进世界杯16强,墨西哥女球迷奔放助威

火辣,墨西哥队挺进世界杯16强,墨西哥女球迷奔放助威

懂球帝
2026-07-03 13:30:47
外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

抽象派大师
2026-06-29 16:55:46
《披荆斩棘6》三版网曝阵容汇总,8月录制,舞台焕新唱演舞台取消

《披荆斩棘6》三版网曝阵容汇总,8月录制,舞台焕新唱演舞台取消

音乐钢琴娱乐咖
2026-07-03 15:13:29
2026-07-03 23:43:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3213文章数 10508关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
本地
亲子
旅游
公开课

艺术要闻

OPPO研发总部地块易主,山子高科“双O”新方案曝光!

本地新闻

国内足球之旅?这座小城给你高分答案

亲子要闻

总觉得哪里有点不对~

旅游要闻

滇中山崖惊现完整脚掌印记,岩层原生无改造,揭开百年民间传说!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版