网易首页 > 网易号 > 正文 申请入驻

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

0
分享至

整理 | 褚杏娟

近日,面壁智能宣布,旗舰端侧模型面壁「小刚炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。

据介绍,MiniCPM 3.0 量化后仅 2GB 内存,端侧友好,主要特点包括:

  • 无限长文本,榜单性能超越 Kimi,超长文本也不崩;

  • 性能比肩 GPT-4o 的端侧最强 Function Calling;

  • 超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。

MiniCPM 3.0 开源地址:

GitHub:
https://github.com/OpenBMB/MiniCPM

HuggingFace:
https://huggingface.co/openbmb/MiniCPM3-4B

“提前近 4 个月,我们实现了初代面壁小钢炮发布时立下的 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来!”面壁智能团队表示。

据悉,MiniCPM 3.0 再次挖掘端侧模型的极致性能,仅 4B 参数,在包括自然语言理解、知识、代码、数学等多项能力上对 GPT-3.5 实现赶超,在 Qwen2-7B、 Phi-3.5、GLM4-9B、LLaMa3-8B 等一众中外知名模型脱颖而出。

历经数次调整,面壁团队构建了全新技术架构。围绕 Scaling Law 的核心,面壁将提升知识密度视为高效大模型的第一性原理(知识密度 = 模型能力 / 参与计算的模型参数),并且提出了大模型时代的“摩尔定律”:模型知识密度不断提升,平均每 8 个月提升一倍,内部称为“面壁定律”。

新一代小钢炮集长文本、Function Call 与 RAG 等大模型重要能力于一身,在这些呼声极高的模型功能上,MiniCPM 3.0 集结各家所长。

面壁“无限”长文本,性能超 Kimi

上下文长度是衡量大模型基础能力的一项重要指标,更长的上下文长度意味大模型拥有更大的“内存”和更长的“记忆”,不仅能提高大模型处理数据的能力上限,还能拓宽大模型应用的广度和深度。

面壁提出 LLMxMapReduce 长本文分帧处理技术 ,一举实现“无限”长文本。除了超越 GPT-4、KimiChat 等标杆模型的优异表现( InfiniteBench 榜单成绩),面壁还表示,文本越长,4B 小钢炮凭借愈加稳定的表现,可以展现出越强的性能优势。

InfiniteBench 大模型长文本能力的权威评测集

检索、数学、代码、问答和摘要等多维度能力评估

① MiniCPM 3.0 表现超越 GPT-4、KimiChat、Qwen2-70B;

② 千亿模型 Qwen2-70B、Llama3-70b 结合 LLMxMapReduce 也取得更佳表现。

InfiniteBench Zh.QA 评测结果显示,4B 参数的面壁小钢炮整体性能优于 Kimi,在更长的文本上表现出相较更强的稳定性。

LLMxMapReduce 技术框架图

GPT-4o 级 Function calling ,

终端 Agent 应用蓄势待发

智能体应用是端侧 AI 必争之地,其中一项至关重要的技术是 Function Calling(函数调用),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,例如通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。

据介绍,MiniCPM 3.0 拥有端侧最强 Function calling 性能 ,在权威评测榜单 Berkeley Function-Calling Leaderboard 上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。

RAG 外挂三件套

端侧模型也能“开外挂”,RAG(检索增强生成技术)让模型引用外部知识库,检索到最新、最可靠的专业知识,确保生成内容更加可信,大大减少大模型的幻觉问题。大模型 +RAG 在行业中极其实用,尤其是对法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业。

这次,面壁一口气带来超强 RAG 外挂三件套:MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向 RAG 场景的 LoRA 插件(生成模型),款款优秀:

  • MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的权威评测集 MTEB 的检索榜单上中文第一、英文第十三 ;

  • MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能 ;

  • 经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。

内容推荐

2024年8月18-19日,AICon 全球人工智能开发与应用大会·上海站成功举办,汇聚超过60位大模型行业先锋,全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强(RAG)生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权,「AI前线」为你独家整理了一份演讲PPT合集,不容错过。关注「AI前线」,回复关键词「PPT」免费获取。

报告推荐

大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?其他模块能力现状如何?理想中的智能体和现阶段有哪些差距?AI Agent 产品形态有何不同?数据分析、营销、教育、金融、文娱游戏等 AI Agent 应用现状如何?有哪些典型案例了吗?AI Agent 未来还将如何发展?

以上问题的回答尽在《中国AI Agent应用研究报告 2024》。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跟着美国制裁了4年,日本回头想买俄油救急!发现俄全卖给中国了

跟着美国制裁了4年,日本回头想买俄油救急!发现俄全卖给中国了

甜柠聊史
2026-03-16 10:37:18
老板娘说哪天让我当摄影师,我要不要去?

老板娘说哪天让我当摄影师,我要不要去?

太急张三疯
2026-03-16 08:13:52
汉街这家五星级酒店5.6折卖了,买方是十堰国资实控企业

汉街这家五星级酒店5.6折卖了,买方是十堰国资实控企业

支点财经
2026-03-18 10:31:11
新能源车集体涨价,不是车企飘了,是这3座大山压得喘不过气!

新能源车集体涨价,不是车企飘了,是这3座大山压得喘不过气!

沙雕小琳琳
2026-03-17 17:48:12
体验完阿里「悟空」,我想把电脑里的龙虾换掉了,是真NB!

体验完阿里「悟空」,我想把电脑里的龙虾换掉了,是真NB!

袋鼠帝
2026-03-18 15:17:52
斯密特:巴萨的比赛我一场不落,这是我最喜欢的俱乐部

斯密特:巴萨的比赛我一场不落,这是我最喜欢的俱乐部

懂球帝
2026-03-18 17:00:19
银行最怕的不是你欠钱不还,最怕的是你突然知道这7件事!

银行最怕的不是你欠钱不还,最怕的是你突然知道这7件事!

流苏晚晴
2026-01-22 18:29:58
21岁拍三级,30岁被出轨,38岁嫁大佬,如今51岁没孩子被宠成宝

21岁拍三级,30岁被出轨,38岁嫁大佬,如今51岁没孩子被宠成宝

小熊侃史
2026-02-25 17:53:32
连休3天,不调休!上海部分中小学,假期前后叠加快乐安排?

连休3天,不调休!上海部分中小学,假期前后叠加快乐安排?

新闻晨报随申Hi
2026-03-18 18:28:21
传德黑兰遭大规模夜间打击,约300名巴斯基指挥官被指身亡

传德黑兰遭大规模夜间打击,约300名巴斯基指挥官被指身亡

桂系007
2026-03-17 22:14:18
成功逆转阿尔茨海默病!Science:单次注射,3个月清除近50%大脑“垃圾”,早期治疗完全阻断病理发生

成功逆转阿尔茨海默病!Science:单次注射,3个月清除近50%大脑“垃圾”,早期治疗完全阻断病理发生

梅斯医学
2026-03-18 07:54:36
微信上不发朋友圈的人,其实不是因为低调,十有八九是这3种人

微信上不发朋友圈的人,其实不是因为低调,十有八九是这3种人

洞读君
2026-03-17 21:05:03
跟特朗普翻脸!仗还没打完,美国跟以色列的领导人就对骂了起来

跟特朗普翻脸!仗还没打完,美国跟以色列的领导人就对骂了起来

小小科普员
2026-03-19 00:12:16
黄仁勋:英伟达重返中国市场!

黄仁勋:英伟达重返中国市场!

中国半导体论坛
2026-03-18 20:06:28
一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

你是我心中最美星空
2026-02-27 07:53:59
全球粮食担忧:以色列空袭南帕气田!

全球粮食担忧:以色列空袭南帕气田!

胜研集
2026-03-18 21:25:18
一周至少14次! 54岁男子肾衰竭,妻子:劝了很多次,就是不听

一周至少14次! 54岁男子肾衰竭,妻子:劝了很多次,就是不听

路医生健康科普
2026-03-18 11:24:55
2场轰8球!欧冠卫冕冠军踢疯了,超级门将一战封神:9次神扑0丢球

2场轰8球!欧冠卫冕冠军踢疯了,超级门将一战封神:9次神扑0丢球

足球狗说
2026-03-18 07:57:12
好多人都纳闷,为啥生活里,几乎看不到大龄剩男的焦虑

好多人都纳闷,为啥生活里,几乎看不到大龄剩男的焦虑

加油丁小文
2026-03-17 11:36:41
日本刚接收美国战斧导弹,日媒就发现:中国卫星十分钟过日本一次

日本刚接收美国战斧导弹,日媒就发现:中国卫星十分钟过日本一次

混沌录
2026-03-18 17:53:13
2026-03-19 03:07:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1372文章数 141关注度
往期回顾 全部

科技要闻

实测QClaw:腾讯突袭,给微信装上AI大脑

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

本地
游戏
时尚
亲子
旅游

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

23年前的美少女恐怖神作如今重生!《零红蝶重制版》值不值得玩?

女人去油这件事,白衬衫最好使

亲子要闻

很喜欢给宝宝玩这种开放性的玩具,可以让宝宝自由发挥而且还不容易掉,不会出现玩两下就找不到的情况#玩个...

旅游要闻

千城百县看中国·赏花季丨湖南常德:去白麟洲 赴一场踏青大会

无障碍浏览 进入关怀版