网易首页 > 网易号 > 正文 申请入驻

MoE架构,全量上线,MiniMax的abab6跨过玫瑰三段论了吗?

0
分享至

好像这年份从2023跨到2024之后,大模型的追随标杆也纷纷从GPT-3.5变成了GPT-4。GLM-4拿出了到目前为止最接近GPT-4的表现,然后又冒出了个新的竞争者。

——MiniMax新的大语言模型abab6。

“沉默寡言”的MiniMax前段时间难得发声。副总裁魏伟在12月末透露MiniMax将会发布一个对标GPT-4的大模型。而在经过了半个月的部分客户的内测和反馈后,全新的大语言模型abab6终于全量发布。性能上弱于GPT-4,但有些能力已经大幅超过 GPT-3.5。

MiniMax展示了abab6在三个复杂任务测试基准上的表现。

IFEval:这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题,例如“以XX为标题,列出三个具体对方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。

MT-Bench:这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。

AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。

结果如下。看上去离GPT-4还有距离,但有些能力已经超过 GPT-3.5和Claude 2.1不少:

图源:MiniMax

这个成绩单里最陌生的就是Mistral,但abab6有趣的地方也在这里——它用上了最近很火的MoE架构,而MoE正是Mistral不久前带火的。

简单来说,MoE (Mixture of Experts 混合专家模型)架构会把模型参数划分为多组“专家”,每次推理时只有一部分专家参与计算。这种架构可以让模型在小参数的情况下把计算变得更精细,然后拥有大参数才有的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。

一个月前,法国 AI 初创公司Mistral AI发布了首个开源MoE大模型Mixtral 8x7B——一个只有87GB的,8个7B模型的组合——清理下内存就能下载到自己电脑上,性能上直接击倒了700亿参数的Llama 2。之前Dylan Patel爆料的GPT-4模型架构里,16个1110亿参数组成的MoE是最重大的信息之一。

现在abab6也采用了MoE架构。并且为了训练 abab6,MiniMax自研了高效的MoE训练和推理框架,并且发明了一些 MoE 模型的训练技巧。到目前为止,abab6是国内第一个千亿参数量以上的基于MoE架构的大语言模型。

既然是概念如此新鲜的大模型,那我们不如自己上手浅测一下,当然,都2024年了,简单的问题就不问了。

咱看看给外国人做的中文八级考试 ,abab6行不行:

中国有俩体育项目根本不用看:一个是乒乓球,一个是足球。

前者是谁也赢不了。

后者是谁也赢不了。

提问:分别解释两句话的意思。

中文语义理解上,abab6的能力无懈可击,甚至能读懂幽默:

图源:硅星人

英文能力上,MiniMax自己展示了一个例子——用“ABAB6”作为句首写一首英文藏头诗,主旨是MiniMax的ABAB6文本大模型。那我们取个巧,看看同样的问题,MiniMax换一个提问对象会给出什么答案:

图源:硅星人

写的没问题,问题在于,这跟MiniMax自己展示的答案也太像了。

图源:硅星人

然后我刻意离开了这个问题一会儿,聊了些别的话题之后,再一次回到这个问题。结果让人失望,abab6给出了一首几乎一样的藏头诗。这个问题在我把题目里的“ABAB6”换成“LLAMA”,“MiniMax”换成“Meta”之后仍然没有变化。

它好像有一个固定答案,并且从“LLAMA”的案例来看,这个答案也没有写“ABAB6”时候那么好。而在GPT-3.5和GPT-4里,没有这种情况。

图源:硅星人

同样的问题出现在MiniMax自己展示的另一道题上:

为我创造一款虚构的桌游,这款游戏的主题围绕着上海展开,游戏中需包括上海市的主要旅游景点、历史文化以及独特美食。请将回答格式化为一个清晰的游戏规则说明书,其中每个游戏组件的描述必须用有序列表来组织。

对于这个问题,abab6无法像演示的那样顺畅的做出完整回答:

图源:硅星人

图源:硅星人

前面说abab6的语义理解能力没问题,那最后我们试试它逻辑推理的能力。

有一个经典的逻辑题叫“玫瑰三段论”:

所有玫瑰都是花。

有些花很快就凋谢。

所以有些玫瑰很快就凋谢。

看着每一句话都对,但仔细想想这个推理逻辑是错的。但对于大模型来说这足够有迷惑性了。不过“玫瑰三段论”太有名,为了防止这道原题已经进入钻进大模型语料的可能性,我们把题包装一下:

所有的苹果都是水果。

有的水果是红色的。

所以有些苹果是红色的。

这个三段论对吗?这次比较对象是abab6,和它的对标对象GPT-4。GPT-4一开始被迷惑住了,但它在一次提醒之后理清了思路:

图源:硅星人

图源:硅星人

abab6的答案让人惊喜,它一次就给出了正确的答案:

图源:硅星人

但随着对话继续,abab6在逻辑上出现了点问题:

图源:硅星人

但这样的理解和推理能力已经非常不错。

现在abab6已经上线MiniMax的开放平台,开放平台上线半年多的时间里,MiniMax 陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量也已经达到了数百亿。

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。MoE路线下的MiniMax大模型会在2024年取得什么样的进展,abab6只是开始。

*参考资料:

https://mp.weixin.qq.com/s/2aFhRUu_cg4QFdqgX1A7Jg

欢迎加入这个星球,见证硅基时代发展↓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过气明星有多可怜?韦小宝韩栋无戏可拍,还不起房贷,当众哭红眼

过气明星有多可怜?韦小宝韩栋无戏可拍,还不起房贷,当众哭红眼

林轻吟
2026-05-27 08:04:39
费利佩连续无缘出战后公开发声!首次点名感谢蓉城主帅,引发热议

费利佩连续无缘出战后公开发声!首次点名感谢蓉城主帅,引发热议

振刚说足球
2026-05-28 08:59:04
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
75岁传奇歌手自曝:健康恶化后仍想发新歌,但巡演不敢想

75岁传奇歌手自曝:健康恶化后仍想发新歌,但巡演不敢想

赴一场山海啊
2026-05-27 01:44:40
法网诞生大逆转!19岁小将0比2绝境翻盘,德约科维奇再创纪录

法网诞生大逆转!19岁小将0比2绝境翻盘,德约科维奇再创纪录

舟望停云
2026-05-28 11:15:51
湖南两钓鱼佬被冲走,遗体被打捞,知情人曝细节,网友:自作自受

湖南两钓鱼佬被冲走,遗体被打捞,知情人曝细节,网友:自作自受

青橘罐头
2026-05-28 07:40:21
我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

纸鸢奇谭
2026-05-21 17:44:37
破防!文班赛后直接拒绝采访!

破防!文班赛后直接拒绝采访!

柚子说球
2026-05-27 19:50:11
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

懂球帝
2026-05-27 16:37:11
海参崴兄弟俩被授予“乌克兰英雄”!战场坚守至最后一刻

海参崴兄弟俩被授予“乌克兰英雄”!战场坚守至最后一刻

项鹏飞
2026-05-26 18:28:15
董卿被传离婚6年后,婚姻真相大白,如今隐居上海,低调陪父母

董卿被传离婚6年后,婚姻真相大白,如今隐居上海,低调陪父母

寻墨阁
2026-04-16 02:57:15
户籍制度改革,可能真的要来了

户籍制度改革,可能真的要来了

黑噪音
2026-05-27 22:26:33
3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

大鱼简科
2026-05-13 14:26:55
穷兵黩武、拖垮经济:看不到战争尽头,俄精英权贵开始对普京不满

穷兵黩武、拖垮经济:看不到战争尽头,俄精英权贵开始对普京不满

一家说
2026-05-27 11:48:14
“割四赔五”?湖北大娘讹收割机后续,警方介入,当地人再曝恶行

“割四赔五”?湖北大娘讹收割机后续,警方介入,当地人再曝恶行

阅尽天下大事
2026-05-28 05:43:29
黄仁勋:“全场我买单,能不能先让我拿一根?”

黄仁勋:“全场我买单,能不能先让我拿一根?”

第一财经资讯
2026-05-28 11:15:22
郑恺李晨终止合作冲上热搜,12年奔跑吧宣发画句号,网友吵翻了

郑恺李晨终止合作冲上热搜,12年奔跑吧宣发画句号,网友吵翻了

TVB的四小花
2026-05-28 13:21:59
2-3!马刺输天王山!裁判MVP,看看专家怎么说:保送雷霆,我的天

2-3!马刺输天王山!裁判MVP,看看专家怎么说:保送雷霆,我的天

凡知
2026-05-28 12:46:55
2026-05-28 14:03:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3115文章数 10500关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

教育
房产
艺术
本地
游戏

教育要闻

五年级,不少人却无从下手,学会方法直接心算

房产要闻

突发重磅!三亚新机场公司正式成立!

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

本地新闻

用剪纸的方式,打开江苏扬州

V社官宣掌机涨价1千6!黑心商人割韭菜还是心里苦?

无障碍浏览 进入关怀版