网易首页 > 网易号 > 正文 申请入驻

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

0
分享至


新智元报道

编辑:编辑部

【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被删除了,原因竟是......

上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。

却没想到发布几小时之后,立马被删除了。

有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。


GitHub项目主页已成404。


项目地址:https://wizardlm.github.io/

包括模型在HF上的权重,也全部消失了.....


全网满脸疑惑,WizardLM怎么没了?


然鹅,微软之所以这么做,是因为团队内部忘记对模型做「测试」。


随后,微软团队现身道歉并解释道,自几个月前WizardLM发布以来有一段时间,所以我们对现在新的发布流程不太熟悉。

我们不小心遗漏了模型发布流程中所需的一项内容 :投毒测试


微软WizardLM升级二代

去年6月,基于LlaMA微调而来的初代WizardLM一经发布,吸引了开源社区一大波关注。


论文地址:https://arxiv.org/pdf/2304.12244.pdf

随后,代码版的WizardCoder诞生——一个基于Code Llama,利用Evol-Instruct微调的模型。

测试结果显示,WizardCoder在HumanEval上的pass@1达到了惊人的 73.2%,超越了原始GPT-4。


时间推进到4月15日,微软开发者官宣了新一代WizardLM,这一次是从Mixtral 8x22B微调而来。

它包含了三个参数版本,分别是8x22B、70B和7B。


最值得一提的是,在MT-Bench基准测试中,新模型取得了领先的优势。


具体来说,最大参数版本的WizardLM 8x22B模型性能,几乎接近GPT-4和Claude 3。

在相同参数规模下,70B版本位列第一。

而7B版本是最快的,甚至可以达到与,参数规模10倍大的领先模型相当的性能。


WizardLM 2出色表现的背后的秘诀在于,微软开发的革命性训练方法论Evol-Instruct。

Evol-Instruct利用大型语言模型,迭代地将初始指令集改写成越来越复杂的变体。然后,利用这些演化指令数据对基础模型进行微调,从而显著提高其处理复杂任务的能力。

另一个是强化学习框架RLEIF,也在WizardLM 2开发过程中起到了重要作用。

在WizardLM 2训练中,还采用了AI Align AI(AAA)方法,可以让多个领先的大模型相互指导和改进。

AAA框架由两个主要的组件组成,分别是「共同教学」和「自学」。

共同教学这一阶段,WizardLM和各种获得许可的开源和专有先进模型进行模拟聊天、质量评判、改进建议和缩小技能差距。


通过相互交流和提供反馈,模型可向同行学习并完善自身能力。

对于自学,WizardLM可通过主动自学,为监督学习生成新的进化训练数据,为强化学习生成偏好数据。

这种自学机制允许模型通过学习自身生成的数据和反馈信息来不断提高性能。

另外,WizardLM 2模型的训练使用了生成的合成数据。

在研究人员看来,大模型的训练数据日益枯竭,相信AI精心创建的数据和AI逐步监督的模型将是通往更强大人工智能的唯一途径。

因此,他们创建了一个完全由AI驱动的合成训练系统来改进WizardLM-2。


手快的网友,已经下载了权重

然而,在资料库被删除之前,许多人已经下载了模型权重。

在该模型被删除之前,几个用户还在一些额外的基准上进行了测试。


好在测试的网友对7B模型感到印象深刻,并称这将是自己执行本地助理任务的首选模型。


还有人对其进行了投毒测试,发现WizardLM-8x22B的得分为98.33,而基础Mixtral-8x22B的得分为89.46,Mixtral 8x7B-Indict的得分为92.93。

得分越高越好,也就是说WizardLM-8x22B还是很强的。


如果没有投毒测试,将模型发出来是万万不可的。

大模型容易产生幻觉,人尽皆知。

如果WizardLM 2在回答中输出「有毒、有偏见、不正确」的内容,对大模型来说并不友好。

尤其是,这些错误引来全网关注,对与微软自身来说也会陷入非议之中,甚至会被当局调查。


有网友疑惑道,你可以通过「投毒测试」更新指标。为什么要删除整个版本库和权重?

微软作者表示,根据内部最新的规定,只能这样操作。


还有人表示,我们就想要未经「脑叶切除」的模型。


不过,开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。

参考资料:

https://favtutor.com/articles/wizardlm-2-benchmarks/

https://anakin.ai/blog/wizardlm-2-microsoft/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭嘉文脸部变宽嘴型奇怪,31岁花期变短,已经变成普通女孩

郭嘉文脸部变宽嘴型奇怪,31岁花期变短,已经变成普通女孩

素素娱乐
2024-05-24 09:31:12
于文文演唱会紧身裤被喷“私处轮廓明显”,吴燕妮夏思凝被牵连。

于文文演唱会紧身裤被喷“私处轮廓明显”,吴燕妮夏思凝被牵连。

娱乐八卦木木子
2024-05-23 18:55:18
围岛演习开启!如果解放军此刻登陆,台军会如何组织本岛防御?

围岛演习开启!如果解放军此刻登陆,台军会如何组织本岛防御?

军武次位面
2024-05-24 18:29:35
刚刚,A股年内首只10倍股诞生!

刚刚,A股年内首只10倍股诞生!

证券时报e公司
2024-05-24 16:25:47
马云现身外国旅游,开奔驰穿高定两鬓斑白,4位保镖不满路人拍照

马云现身外国旅游,开奔驰穿高定两鬓斑白,4位保镖不满路人拍照

圈里的甜橙子
2024-05-24 00:16:11
汪峰这次可能要翻车,他hold不住森林北,这是个厉害角色。

汪峰这次可能要翻车,他hold不住森林北,这是个厉害角色。

股票短线实盘指导操作
2024-05-24 10:26:36
香港和内地截然相反的现象

香港和内地截然相反的现象

悠闲葡萄
2024-05-24 14:46:26
森林北21日深夜回应与汪峰恋情,表示允许一切发生,有5个没想到

森林北21日深夜回应与汪峰恋情,表示允许一切发生,有5个没想到

娱乐的小灶
2024-05-24 03:25:19
台湾艺人回应祖国统一!周杰伦发四条日常动态,侯佩岑粉丝脱粉

台湾艺人回应祖国统一!周杰伦发四条日常动态,侯佩岑粉丝脱粉

苏不凡不太平凡
2024-05-23 23:11:15
7:7!中俄提议被否决,美英法等国投下反对票,中方亮明立场

7:7!中俄提议被否决,美英法等国投下反对票,中方亮明立场

简读视觉
2024-05-24 17:50:02
公务员的2元套餐,再看学生的17元套餐,真没对比就没有伤害。

公务员的2元套餐,再看学生的17元套餐,真没对比就没有伤害。

王晓爱体彩
2024-05-24 14:27:11
大衣哥朱之文儿媳闹离婚,原因曝光:2个人的床,怎么能睡6个人!

大衣哥朱之文儿媳闹离婚,原因曝光:2个人的床,怎么能睡6个人!

夜听訫语
2021-12-10 21:51:46
这局凯特终于赢了,凯特终于出现了,头戴帽子和威廉一起现身!

这局凯特终于赢了,凯特终于出现了,头戴帽子和威廉一起现身!

阿莱美食汇
2024-05-24 09:08:17
田宗琦头部破损右腿变形,跳楼前疑似遭受暴力,发小称不是抑郁症

田宗琦头部破损右腿变形,跳楼前疑似遭受暴力,发小称不是抑郁症

欢乐八卦君
2024-05-24 12:33:05
太难了!业内博主爆料:地产王炸下的长沙,新房单周跌破500…

太难了!业内博主爆料:地产王炸下的长沙,新房单周跌破500…

火山诗话
2024-05-23 10:38:01
叛徒出身的军统少将,晚年托人带话给长春市委:我希望回去看一看

叛徒出身的军统少将,晚年托人带话给长春市委:我希望回去看一看

春去花还在
2024-05-18 19:42:40
很像爷孙俩!文班亚马和波波维奇被拍到共进晚餐

很像爷孙俩!文班亚马和波波维奇被拍到共进晚餐

圈里的甜橙子
2024-05-24 14:35:34
国民党卢秀燕、蒋万安、谢衣凤参会5.20,为台独摇旗呐喊

国民党卢秀燕、蒋万安、谢衣凤参会5.20,为台独摇旗呐喊

花小猫的美食日常
2024-05-23 20:07:26
我国不会容忍!华突然要求归还港口99年使用权,赔偿金不打折!

我国不会容忍!华突然要求归还港口99年使用权,赔偿金不打折!

铲屎官已上任
2023-08-21 23:21:15
美国初请失业救济人数创下去年9月以来最大连降纪录

美国初请失业救济人数创下去年9月以来最大连降纪录

财联社
2024-05-23 20:52:07
2024-05-24 18:56:49
新智元
新智元
AI产业主平台领航智能+时代
11070文章数 65519关注度
往期回顾 全部

科技要闻

对话王小川:我们不跟进大模型价格战

头条要闻

宁波女子晒出与小17岁男友恋情:比准婆婆还小1岁

头条要闻

宁波女子晒出与小17岁男友恋情:比准婆婆还小1岁

体育要闻

阿兰,好久不见

娱乐要闻

霍启仁求婚成功,郭晶晶要有妯娌了

财经要闻

白重恩解读中国经济的3个关键问题

汽车要闻

宝马M品牌上新 2024年在华推出近10款高性能车型

态度原创

本地
家居
亲子
教育
军事航空

本地新闻

2024沈阳皇姑第二届半程马拉松

家居要闻

静默力量 以真实内心直面建筑的体感

亲子要闻

原来宝宝真的会在天上选妈妈!三个孩子的答案竟然惊人的一致

教育要闻

经典差倍问题,桃比梨多18个,桃比梨的3倍多4个,桃和梨各几个?

军事要闻

媒体:解放军军演正告赖清德"胆敢挑衅利剑马上出鞘"

无障碍浏览 进入关怀版