网易首页 > 网易号 > 正文 申请入驻

IBM推出Mellea开源库助力轻量级AI模型提升效率

0
分享至


大语言模型仍然主导着AI排行榜,但新兴的轻量级模型正在缩小差距。例如,IBM最新的Granite 4.0模型系列能够以极低的成本超越更早期且规模更大的前沿模型。

这就是IBM和其他科技公司在许多企业任务中采用小语言模型(SLM)的原因。运行这些模型需要更少的计算能力、内存和电力,正如斯坦福大学团队最近发现的那样,它们能够在笔记本电脑或手机上胜任大多数AI任务。为了标记这一里程碑,该团队提出通过所谓的"每瓦特智能比"来评估大语言模型的规模。

IBM Granite模型在这一指标上已经表现突出。但如果通过以更适合SLM的方式构建应用程序,能够进一步增强其智能水平呢?IBM最近发布了Mellea,这是一个新的开源库,旨在通过在推理时施加要求等方式,使与语言模型的交互像与其他软件一样可预测。

Mellea仍处于早期阶段,是IBM称为生成式计算的更大研究议程的一部分。目前,智能体的构建方式混乱且临时,需要冗长复杂的提示,只有大型前沿模型才能处理。生成式计算设想了一种更结构化、更简化的设计,这将使Granite和其他精简的开源大语言模型能够表现得与重量级模型一样好甚至更好。

IBM的一对研究科学家Nathan Fulton和Hendrik Strobelt在近一年前开始构建Mellea。两人从小就开始编程。在东德长大的Strobelt在父亲的Robotron计算机上学会了BASIC语言。在圣路易斯郊区,Fulton在家里被长期放置在壁橱里的旧Apple II计算机上自学了Applesoft BASIC。

他们都在相差15年的时间里在研究生院学习了计算机科学。Strobelt专注于搜索和可视化大型文档集合的方法,而Fulton专门研究用于验证自动化机器(从汽车到飞机)按人类意图行为的数学逻辑。当对大语言模型的兴趣不断升温时,他们都在马萨诸塞州剑桥的IBM研究院工作。

我们最近与他们交流,讨论了Mellea以及他们让小型开源语言模型更可靠和用户友好的探索。

解决的核心问题

Fulton表示,他们希望用小模型做大模型的事情。他们认为最好的方法是摆脱冗长的提示和获得想要响应的神奇咒语。可以通过将问题分解为可验证和迭代解决的小块来实现这一点。将任务分解为一系列子任务通常会带来更好的结果,小模型可以非常高效地做到这一点。

Strobelt补充说,大语言模型需要失败模式。任何与大语言模型合作过的开发者都会立即理解为什么摆脱提示并提供代码会很有用。小到中型大语言模型有很多价值,Mellea可以释放这些价值。

失败模式的重要性

Fulton强调失败模式的重要性。构建一个在90%示例上有效的演示很容易,但当你不知道系统在哪里会失败时,10%的失败率是不可接受的。如果你试图自动化一个失败很重要的任务,而没有办法检测失败模式,那它就不会工作。想象一下,如果你写的每十封邮件中有一封不发送或发送给所有人,它就不会是一个有用的商业工具。

Mellea中的失败模式实现

Strobelt解释了通过称为"指令-验证-修复"的模式来实现。向模型发送指令;根据一组要求验证返回的内容。不仅仅是与模型聊天,还可以要求它写一封邀请同事参加办公室聚会的邮件,并附带两个条件:邮件应该引人入胜,且不超过100个单词。如果两个条件都不满足,模型会回去尝试修复其初始工作。通过添加规范,也定义了失败。

Fulton举例说,如果你在写法律简报,可以解析引用并检查案例法以查看它们是否存在。如果模型在运行时产生错误引用,可以拒绝它并继续。

模型的选择性使用

Fulton说明Mellea将问题分解为片段,仅在需要时使用语言模型。在最先进的GPU上运行大语言模型来解决相对简单的问题是没有意义的。语言模型以自然语言进行计算。无论告诉它编写程序还是解决数学问题,问题都作为文本处理;数学问题被重新表述为算术,在计算器上运行,答案以自然语言返回。

Strobelt补充说,如果可以将长提示分解为更小的片段,可以减小模型大小,因为每个指令都更小。这是经典的分而治之方法。连接组件,可以并行运行一些,但每个都可以单独优化。

IBM采用小模型的原因

Fulton指出它们更节能,使用更短的提示,消耗更少的计算资源。大语言模型需要顶级芯片,这些芯片会变得很热并推高推理能源成本。小模型不需要耗电的芯片,也不需要所有的冷却设备。

协作过程

Fulton描述了他们最初并肩编写代码,随着范围扩大,他们成为共同负责人并雇用了两名软件开发人员。现在他们每天上午10点开站立会议,并在IBM内部宣传Mellea。

Strobelt表示他希望Mellea直观且易于使用,而Nathan想要构建软件系统。理论背景和用户体验关注可以带来很好的讨论。

与其他框架的区别

Fulton说Mellea专为编写结构化程序而设计,可以将复杂任务分解为更小的可检查步骤。它提供了逐步执行约束的机制。虽然可以在其他框架上执行此操作,但Mellea有一种有主见的编程风格。他们为设计需要在现实生活中工作的强大系统的软件工程师构建它。

Strobelt补充说Mellea不会将你锁定在可能很昂贵的智能体软件模式中。如果你是企业,不需要用大炮打鸟。

长期愿景

研究人员希望在开放空间中实现协同设计的软件栈和模型。Mellea是为炒作周期的长尾而构建的。如果可以运行小模型,可以运行更多Token,因为每个Token更便宜。可以运行验证调用并仍然节省一些钱。

对AI未来的展望

Strobelt对创建能够帮助找到疾病治愈方法或发现世界运作基本原理的应用程序感到兴奋。Fulton认为AI令人兴奋,因为任何人都可以构建非常强大的东西。他表示如果现在是博士生,可能会在中国研究通用机器人技术,那里有一个生态系统。机器人技术可能会在未来几年迎来ChatGPT时刻。

Q&A

Q1:Mellea是什么?它能解决什么问题?

A:Mellea是IBM开发的开源库,旨在让与语言模型的交互像其他软件一样可预测。它通过"指令-验证-修复"模式,将复杂任务分解为可验证的小步骤,让小语言模型能够高效完成大模型的工作,同时提供失败检测机制。

Q2:小语言模型相比大语言模型有什么优势?

A:小语言模型更节能,需要更少的计算能力、内存和电力,不需要顶级芯片和复杂的冷却设备。IBM提出了"每瓦特智能比"概念来评估模型效率,小模型在成本控制方面表现突出,同时仍能胜任大多数AI任务。

Q3:生成式计算与传统智能体开发有什么不同?

A:传统智能体构建方式混乱临时,需要冗长复杂的提示,只有大型前沿模型才能处理。生成式计算采用更结构化、简化的设计,通过分而治之的方法将问题分解为小块,让轻量级开源模型也能达到甚至超越重量级模型的表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
所谓“和平委员会”有哪些国家加入?名单公布

所谓“和平委员会”有哪些国家加入?名单公布

新京报政事儿
2026-01-22 22:44:37
900万粉丝网红到株洲一村庄办杀猪宴,称村民收场地费还分肉,村干部:他们未报备且破坏村里声誉,已报警

900万粉丝网红到株洲一村庄办杀猪宴,称村民收场地费还分肉,村干部:他们未报备且破坏村里声誉,已报警

极目新闻
2026-01-22 13:53:44
14年前,被父亲逼迫零下13度裸跑的4岁小男孩,现在怎么样了?

14年前,被父亲逼迫零下13度裸跑的4岁小男孩,现在怎么样了?

明智家庭教育
2026-01-22 11:09:29
他就是个下棋的,却被你们当了一辈子鸡血

他就是个下棋的,却被你们当了一辈子鸡血

下岗女神
2026-01-22 17:29:32
见鬼了!登场16分钟,所有数据都挂0,连犯规也是0,球迷:真混子

见鬼了!登场16分钟,所有数据都挂0,连犯规也是0,球迷:真混子

弄月公子
2026-01-22 22:31:21
没跟中国商量,中方朋友和美国签字!关键时刻,俄对中国掏心窝子

没跟中国商量,中方朋友和美国签字!关键时刻,俄对中国掏心窝子

知鉴明史
2026-01-22 05:20:02
当江青还不叫江青时,她是这样的

当江青还不叫江青时,她是这样的

深度报
2026-01-21 22:36:36
32岁程序员周末在家晕倒后猝死,当天有4项工作任务待完成,人社局一工作人员回应:是否算工伤还在调查

32岁程序员周末在家晕倒后猝死,当天有4项工作任务待完成,人社局一工作人员回应:是否算工伤还在调查

极目新闻
2026-01-22 17:02:53
陈幸同正式公开恋情

陈幸同正式公开恋情

最爱乒乓球
2026-01-23 00:04:58
有网友要我,不要总看农民取暖这类消极新闻,多了解下中国六代机

有网友要我,不要总看农民取暖这类消极新闻,多了解下中国六代机

廖保平
2026-01-22 09:11:32
U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

侃球熊弟
2026-01-23 00:18:00
将解说U23国足,詹俊:抱歉利物浦,我要解说真正的主队去了

将解说U23国足,詹俊:抱歉利物浦,我要解说真正的主队去了

懂球帝
2026-01-22 18:25:12
央视官宣!国足冲亚洲杯冠军,足协重要决定:安东尼奥新职位曝光

央视官宣!国足冲亚洲杯冠军,足协重要决定:安东尼奥新职位曝光

冷紫葉
2026-01-22 19:20:23
26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

180视角
2026-01-22 13:34:58
重罚来了!闫学晶因偷税背债首度回应,真相曝光!

重罚来了!闫学晶因偷税背债首度回应,真相曝光!

特约前排观众
2026-01-23 00:20:03
从“国民妈妈”到1.2亿罚单:闫学晶为何一夜崩盘?

从“国民妈妈”到1.2亿罚单:闫学晶为何一夜崩盘?

社会日日鲜
2026-01-22 12:46:27
河南开封万岁山一NPC演员雪中静立被误以为是假人,景区:有保暖措施,期间会安排换班

河南开封万岁山一NPC演员雪中静立被误以为是假人,景区:有保暖措施,期间会安排换班

台州交通广播
2026-01-22 23:24:46
文化水平越低,民族仇恨越强烈

文化水平越低,民族仇恨越强烈

诗词中国
2026-01-22 19:56:07
“母亲的无知,砸了儿子饭碗”,女子在业主群内立规矩,反被举报

“母亲的无知,砸了儿子饭碗”,女子在业主群内立规矩,反被举报

妍妍教育日记
2026-01-22 19:49:28
万万没想到,门神李昊一战封神后,竟让王健林间接也实现口碑暴增

万万没想到,门神李昊一战封神后,竟让王健林间接也实现口碑暴增

以茶带书
2026-01-22 19:28:17
2026-01-23 06:27:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15633文章数 49686关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

特朗普起诉美国最大银行 索赔至少50亿美元

头条要闻

特朗普起诉美国最大银行 索赔至少50亿美元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

手机
教育
本地
房产
公开课

手机要闻

性能最激进+唯一真全面屏的Air手机!红魔11 Air首销翻倍

教育要闻

上海警校招生3大条件!身高视力不过关必看

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

房产要闻

开年王炸!四重政策红利加码,广州置业窗口期迈入倒计时!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版