网易首页 > 网易号 > 正文 申请入驻

省心更要省钱,MIT亲自下场,拒绝“参数内耗”

0
分享至

在人工智能领域,大模型因其在理解和生成自然语言方面的卓越能力而备受关注。通过捕捉和再现人类语言的复杂性和微妙性,为使用者提供了与机器进行自然对话的可能性。

不过,这些模型背后的训练过程却因其成本之高而备受争议,这不仅涉及巨额的资金投入,还包括了庞大的计算资源和时间消耗。并且,有研究指出,训练一个先进的模型可能需要数周时间,并且需要数千甚至数万个GPU的并行计算。加之昂贵的硬件支持,仅高性能GPU和其他专用硬件的成本可能就高达数十万甚至数百万美元。种规模的计算资源对于大多数研究机构和个人来说是难以承受的。


这种资源密集型的发展趋势导致了资源获取的不平等。大型科技公司由于其雄厚的资本和资源,能够更容易地获取和维护这些高性能计算资源。相比之下,小型研究机构和个人由于资金和资源的限制,往往难以参与到大模型的研究和开发中。因此,如何降低大模型的资源门槛,使其更加普及和可持续,成为当前研究和实践中的一个重要议题。

近日,MIT、普林斯顿等研究机构的全华班团队带来意向全新的解决方案——JetMoE-8B,该模型使用不到10万美元的预算完成了训练,并且包括了1.25万亿个token和30,000个H100 GPU小时。

多管齐下,成本效益原地起飞

JetMoE-8B的核心特性在于其采用了Sparsely-gated Mixture-of-Experts (SMoE)架构。这种架构通过稀疏激活机制,使得模型在处理输入时只激活必要的参数,从而大幅降低了计算成本。据了解,JetMoE-8B拥有80亿个参数,但在推理时只为每个输入令牌激活20亿个参数,这使得模型在保持性能的同时,将计算成本减少了约70%。

此外,JetMoE-8B的训练策略也颇具创新。JetMoE-8B的训练遵循了一个两阶段策略,包括使用大规模开源预训练数据集的1万亿个token进行训练,以及使用指数学习率衰减进行第二阶段训练。

其中:

第一阶段:预训练

在预训练阶段,JetMoE-8B使用了来自多个高质量开源数据集的1万亿(1.25T)个token。这些数据集包括了从CommonCrawl中提取并通过MacroData Refinement (MDR) 管道处理的RefinedWeb数据集、StarCoder训练数据、Dolma大型英文文本语料库、The Pile以及其他数学和编程相关的数据集。这些数据集为模型提供了丰富多样的语言和知识背景,有助于模型学习到更广泛的语言模式和知识。


第二阶段:学习率衰减

在第二阶段,模型的训练采用了指数学习率衰减策略。这意味着随着训练的进行,模型的学习率会按照一定的指数函数进行调整,从而逐渐减小。这种策略有助于在训练初期快速学习并调整模型的权重,而在训练后期则通过减小学习率来细化模型的参数,使得模型能够更稳定地收敛到最优解。


具体来说,JetMoE-8B模型使用了Warmup-Stable-Decay (WSD) 学习率调度器,这个调度器将训练过程分为三个阶段:预热阶段(warmup stage)、稳定训练阶段(stable training stage)和衰减阶段(annealing stage)。在预热阶段,学习率会逐渐增加至最大值,以帮助模型快速适应训练数据。在稳定阶段,学习率保持不变,以便模型在较高水平上进行学习。最后,在衰减阶段,学习率会根据预定的指数函数进行衰减,以便模型在训练的后期进行细致的权重调整。

此外,研发团队针对JetMoE-8B模型使用了96个NVIDIA H100 GPU组成的集群进行训练。H100 GPU是专为AI和深度学习任务设计的高性能计算卡,具有强大的并行处理能力。通过将这些GPU组合成一个集群,JetMoE-8B能够同时处理大量的数据和计算任务,从而加快训练速度。

JetMoE-8B的另一个显著特点是其开放性和易访问性通过公开的数据集和开源的训练代码,使得任何有兴趣的研究者都能够访问和使用这个模型。这种开放性不仅促进了知识的共享,也为未来的研究和合作提供了基础。

得益于其高效的模型架构、精心挑选的数据集、两阶段训练策略以及强大的计算资源和开源社区的支持。这些因素共同使得JetMoE-8B能够在两周内完成训练,为控制成本带来新的思路和方向。这同样降低了进入大模型研究领域的门槛,使得更多的研究机构和个人能够参与到这一领域的研究中来。

“卷”大小的时代已经过去,满足需求才是王道

作为一款参数量较小的模型,JetMoE-8B充分发挥其高效率和速度优势,为技术创新提供了强有力的支持。开发者可以在有限的资源下,快速迭代和测试新的想法,这不仅加速了新技术的研发进程,也为市场上的创新应用提供了更多可能性。小型企业和初创公司尤其受益于这种成本效益高的研发环境,它们能够以更低的风险和成本,探索和实现自己的创新理念。

在大模型主导的市场趋势下,参数规模并非衡量模型价值的唯一标准。实际上,随着物联网设备的广泛部署,对于能够在资源受限环境中高效运行的小参数量模型的需求日益增长。这些设备往往对计算能力和存储空间有着严格的限制,而小参数量模型恰好能够满足这些条件,实现快速响应和实时数据处理的能力。

据了解,Meta已经在去年底推出了Llama 2模型的小型版本Llama 2 7B。此外,谷歌也在二月份推出了Gemma系列模型,法国AI公司Mistral也推出了Mistral 7B模型。

针对特定应用场景的定制化小参数量模型,正在成为研究和开发的新趋势。研究者们专注于为特定任务量身定制轻量级模型,这些模型在保持高效能的同时,还能够针对自然语言处理、图像识别等特定领域进行优化。这种针对性的设计,不仅提升了模型的性能,也使得它们能够更好地适应多样化的应用需求。

值得注意的是,小参数量模型不仅在技术创新领域掀起了波澜,更在商业模式和市场策略上引发的深刻变革。对于中小企业,通过使用这些模型来增强自身的产品和服务,而无需投入巨额的资金。这种成本效益高的解决方案,使得其商业应用变得更加广泛和多样化。

在市场策略方面,小模型的推出也反映了企业对消费者需求的深刻理解。随着消费者对人工智能技术的理解和接受程度不断提高,开始寻求更加实用、经济的AI解决方案。而小模型正好满足了这一需求,在保持性能的同时,提供了更加经济实惠的选择。

大模型之家认为,AI技术正在变得更加普及和可访问,同时也意味着AI的应用范围正在不断扩大。随着技术的进步和模型的优化,未来将会有更多的轻巧、高效模型出现在市场上,为用户提供更多的选择和便利。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝LX员工在朋友圈讨论问界车祸,涉嫌破坏了企业形象,遭降级降薪处罚

曝LX员工在朋友圈讨论问界车祸,涉嫌破坏了企业形象,遭降级降薪处罚

可达鸭面面观
2024-04-29 18:39:31
百名球员票选GOAT:乔丹49票詹姆斯37票科比9票 另有五人各1票

百名球员票选GOAT:乔丹49票詹姆斯37票科比9票 另有五人各1票

罗说NBA
2024-04-30 06:13:07
当初的芳华三美,如今再看,谁才是人间清醒?

当初的芳华三美,如今再看,谁才是人间清醒?

果实须经风雨
2024-04-29 14:13:20
老男人专骗白富美,8名女白领主动失身,2023年俩女高管被骗400万

老男人专骗白富美,8名女白领主动失身,2023年俩女高管被骗400万

汉史趣闻
2024-04-28 11:20:58
Pura 70海外首拆来了:日媒拆了5年华为手机,得出一个结论

Pura 70海外首拆来了:日媒拆了5年华为手机,得出一个结论

三叔科技说
2024-04-29 22:17:51
可悲!当代初中生已经没有梦想,未来最想从事的职业是公务员

可悲!当代初中生已经没有梦想,未来最想从事的职业是公务员

可达鸭面面观
2024-04-29 16:49:29
俄罗斯称哈萨克斯坦开始“纳粹进程”!又要发起特别行动?

俄罗斯称哈萨克斯坦开始“纳粹进程”!又要发起特别行动?

项鹏飞
2024-04-29 14:10:40
要相信谁?病毒教授张永振实验室被强行关闭,学生:在迫害科学家

要相信谁?病毒教授张永振实验室被强行关闭,学生:在迫害科学家

东东趣谈
2024-04-29 14:36:19
上海一新能源车起火烧成空壳,现场浓烟滚滚,一人受伤送医!为何新能源汽车起火后难扑救?

上海一新能源车起火烧成空壳,现场浓烟滚滚,一人受伤送医!为何新能源汽车起火后难扑救?

每日经济新闻
2024-04-30 07:30:13
费解!为何非要破格提拔24岁女干部,难道半年时间也不能等吗?

费解!为何非要破格提拔24岁女干部,难道半年时间也不能等吗?

仕道
2024-04-29 16:42:48
没有驾照的周鸿祎坐在车顶上

没有驾照的周鸿祎坐在车顶上

中国新闻周刊
2024-04-29 20:16:48
问界M7三死事故发生后,遇难者家属居然被网暴了

问界M7三死事故发生后,遇难者家属居然被网暴了

顾礼先生
2024-04-29 14:28:13
闹大了!多地高校严禁学生自行组团旅游,网友:四月都那么多失踪

闹大了!多地高校严禁学生自行组团旅游,网友:四月都那么多失踪

华庭讲美食
2024-04-29 19:17:29
马斯克走了!在中国呆了不到1天,特斯拉市值暴涨6800亿元!“禁停禁行”限制解除,FSD要来了?

马斯克走了!在中国呆了不到1天,特斯拉市值暴涨6800亿元!“禁停禁行”限制解除,FSD要来了?

每日经济新闻
2024-04-30 01:07:22
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
互相送礼!巴萨4-2十人瓦伦升第二 特狮送礼对手门将直红莱万戴帽

互相送礼!巴萨4-2十人瓦伦升第二 特狮送礼对手门将直红莱万戴帽

直播吧
2024-04-30 05:12:31
华子:送KD回家是世上最美好的感觉 我不如他但我的球队比他的强

华子:送KD回家是世上最美好的感觉 我不如他但我的球队比他的强

直播吧
2024-04-29 14:08:17
60岁大哥保持一周2次性生活,坚持一年后,结果让医生羡慕不已

60岁大哥保持一周2次性生活,坚持一年后,结果让医生羡慕不已

奇妙的本草
2024-04-29 20:00:09
成都业主求政府稳住房价:228万买的房子如今跌到160万,已没了生活的动力

成都业主求政府稳住房价:228万买的房子如今跌到160万,已没了生活的动力

可达鸭面面观
2024-04-29 15:34:20
英国宣布进入战争状态,点名中俄伊,中国回应侮辱性很强

英国宣布进入战争状态,点名中俄伊,中国回应侮辱性很强

闫树军论评
2024-04-29 13:56:47
2024-04-30 08:14:44
钛媒体APP
钛媒体APP
独立财经科技媒体
100622文章数 858312关注度
往期回顾 全部

科技要闻

特斯拉股价飙涨15% 马斯克中国行大获成功

头条要闻

南京胖哥被初诊为PTSD 去年下半年女儿和父亲相继离世

头条要闻

南京胖哥被初诊为PTSD 去年下半年女儿和父亲相继离世

体育要闻

足球童话!执教16年,从业余联赛到德甲

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

建信人寿巨亏40亿 部分产品退保率93%

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

时尚
家居
旅游
游戏
教育

学会这一招,0成本get上镜脸

家居要闻

光影之间 空间暖意打造生活律动

旅游要闻

入境游热度持续攀升 “畅游中国”更便捷

IGN法国给《剑星》打了八分!玩家感到很意外

教育要闻

山西数学竞赛题,公式熟练和变形很重要!

无障碍浏览 进入关怀版