网易首页 > 网易号 > 正文 申请入驻

上海AI实验室书生·浦语2.0正式开源,回归语言建模本质

0
分享至

·书生·浦语2.0的核心理念在于回归语言建模的本质,致力于通过提高语料质量及信息密度,实现模型基座语言建模能力获得质的提升。其支持200K token的上下文,一次性接收并处理约30万汉字的输入内容,准确提取关键信息,实现长文本中“大海捞针”。

1月17日,书生·浦语2.0(InternLM2)发布会暨书生·浦源大模型挑战赛启动仪式在上海举行。上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.0。

InternLM2是在2.6万亿token的高质量语料上训练得到的。沿袭第一代书生·浦语(InternLM)的设定,InternLM2包含7B及20B两种参数规格及基座、对话等版本,满足不同复杂应用场景需求。秉持“以高质量开源赋能创新”理念,上海人工智能实验室继续提供InternLM2免费商用授权。

InternLM2的核心理念在于回归语言建模的本质,致力于通过提高语料质量及信息密度,实现模型基座语言建模能力获得质的提升,进而在数理、代码、对话、创作等各方面都取得长足进步,综合性能达到同量级开源模型的领先水平。

为促进AI生态发展,推动大模型在各行业的应用落地,书生·浦源大模型挑战赛同日启动。赛事由上海市经济和信息化委员会、上海市科学技术委员会、徐汇区人民政府共同指导,上海人工智能实验室主办,上海市人工智能行业协会承办,首期赛事包含行业应用和创新创意两个赛道,即日起面向全球进行场景和赛队征集。

回归语言建模本质,支持200K超长上下文

大模型应用生态的发展和繁荣建立在模型基座强大的通用基础能力之上。上海人工智能实验室联合团队研究认为,大模型各项性能提升的基础在于语言建模能力的增强,对于大模型的研究应回归语言建模本质,通过更高质量的语料以及更高的信息密度,筑牢大模型能力基础。

为此,联合团队提出新一代数据清洗过滤技术,包括多维度数据价值评估,即基于语言质量、信息密度等维度对数据价值进行综合评估与提升;高质量语料驱动的数据富集,即利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集类似语料;针对性的数据补齐,即针对性补充语料,重点加强现实世界知识、数理、代码等核心能力。上海人工智能实验室表示,目前InternLM背后的数据清洗过滤技术已经历三轮迭代升级,仅使用约60%的训练数据即可达到使用第二代数据训练1T token的性能表现,模型训练效率大幅提升。

长语境输入及理解能力能显著拓展大模型的应用场景,比如支持大型文档的处理、复杂的推理演算和实际场景的工具调用等。然而大模型有限的上下文长度仍为当前学界及业界面临的重要难题。通过拓展训练窗口大小和改进位置编码,InternLM2支持200K token的上下文,能够一次性接受并处理约30万汉字(约五六百页的文档)的输入内容,准确提取关键信息,实现长文本中“大海捞针”。

参考业界范例,研究人员对InternLM2进行了“大海捞针”试验,也就是将关键信息随机插入一段长文本的不同位置并设置问题,测试模型能否从中提取出关键信息。

InternLM2“大海捞针”试验效果。

上图展示了InternLM2在不同长度的上下文(横轴)及上下文中不同位置(纵轴)上召回关键信息的准确率(Recall)。红色代表较低的召回准确率,而绿色则代表较高的召回率。上海人工智能实验室表示,试验结果表明,InternLM2在上下文长度延展到200K时依旧保持了近乎完美的召回成功率,验证了InternLM2对于超长上下文坚实的支持能力。

为测试InternLM2在真实长文本处理任务中的能力,研究人员将一份时长3小时的公开会议录音转录稿输入模型中,并要求InternLM2从中提取出关键信息。测试结果表明,尽管在未校对的文本中存在较多错别字,但InternLM2仍从中准确提炼出了关键信息,并总结了发言人的主要观点。

会做高等数学,支持复杂智能体搭建

根据大语言模型的应用方式和用户关注的重点领域,研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度,在55个主流评测集上对多个同量级模型的表现进行综合评测。结果显示,InternLM2的轻量级(7B)及中量级(20B)版本性能在同量级模型中表现优异。

表格对比了InternLM2各版本与ChatGPT(GPT-3.5)以及GPT-4在典型评测集上的表现。InternLM2只用20B参数的中等规模即在整体表现上达到与ChatGPT比肩的水平。

综合性能的增强带来下游任务的全方位能力提升。新发布的InternLM2提供更好的对话及创作体验,支持多轮任务规划及工具调用,并提供实用的数据分析能力。InternLM2-Chat可以精准地理解和遵循用户意图,具备较强的共情能力和丰富的结构化创作能力,比如它能以富有人文关怀的回答开解用户,也能在严格的格式要求下编制课程大纲。

提问InternLM2“感觉每天在努力和摆烂之间摇摆,有些精神内耗怎么办”。InternLM2给出回答,在对话中与用户“共情”。

InternLM2设计的课程大纲精准遵循用户要求,如格式、数量、内容等。

上海人工智能实验室表示,对话和创造的体验进步,一方面是由于基础语言能力显著增强,另一方面也得益于微调技术的提升。InternLM2进行微调的过程使用了经过第三代数据清洗过滤技术处理的指令微调语料,同时也采用了更强的Online RLHF【注:常规RLHF(人类反馈强化学习)只进行一次微调,Online RLHF会进行多轮微调,根据上一轮更新过的模型进行新的奖励模型和强化学习训练】。

研究人员在微调InternLM2的过程中,对奖励模型和对话模型进行了三轮迭代更新,每一轮更新均针对前一轮模型的表现更新偏好数据与提示词。在奖励模型训练(RM)和近端策略优化(PPO)阶段,研究人员均衡采用各类提示词,不仅提高了对话的安全性,也提升了用户体验。

基于更强大、更具泛化性的指令理解、工具筛选与结果反思等能力,InternLM2可支持复杂智能体的搭建,支持对工具进行多轮有效调用及多步骤规划,完成复杂任务。通过工具调用,大语言模型可凭借搜索、计算、代码解释器等获取知识并处理更复杂的问题,从而拓展应用边界。研究人员对模型调用工具流程实施细粒度的拆解和分析,针对规划、推理、工具选择、理解、执行、反思等步骤进行了针对性增强和优化。

数学能力是大模型逻辑思维和推理能力的重要体现。上海人工智能实验室对InternLM2的数学能力进行全面提升,在不依靠计算器等外部工具的情况下,在100以内的简单数学运算上能够做到接近100%的准确率,在1000以内达到80%左右的运算准确率。

InternLM2与ChatGPT的数学能力评测结果对比。

为应对各类复杂计算,InternLM2-Chat还可借助代码解释器(Code-Interpreter)编写代码进行计算,或对推理的结果进行形式化验证,从而解决计算要求更高或者演算过程更加复杂的问题。InternLM2可以和代码解释器结合解决较复杂的高等数学问题。在典型的数学评测集GSM8K和MATH上,配合代码解释器,InternLM2的评测分数得到提高。其中对于难度更高的MATH数据集,InternLM2的计算精度从32.5大幅提升到51.2。基于在计算及工具调用方面强大的基础能力,InternLM2在语言模型中具备了数据分析和可视化实用能力,进一步贴近用户使用场景。

以下为开源链接

Github:https://github.com/InternLM/InternLM

HuggingFace:https://huggingface.co/internlm

ModelScope:https://modelscope.cn/organization/Shanghai_AI_Laboratory

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北大数学天才柳智宇,放弃麻省奖学金当和尚,还俗后与女修者结婚

北大数学天才柳智宇,放弃麻省奖学金当和尚,还俗后与女修者结婚

从零到一研究所
2026-06-26 16:48:03
父亲离世叔伯不要我,大姑父把我领走,20年后,姑父笑了叔伯哭了

父亲离世叔伯不要我,大姑父把我领走,20年后,姑父笑了叔伯哭了

民间精选故事汇
2024-11-14 12:10:02
“武大郎”再现?36岁妻子投喂鼠药!丈夫没死就再投一次

“武大郎”再现?36岁妻子投喂鼠药!丈夫没死就再投一次

深夜探案馆
2026-06-02 03:02:04
董卿母亲卵巢癌病逝!父亲写文悼念,透露女儿不容易照顾老少三代

董卿母亲卵巢癌病逝!父亲写文悼念,透露女儿不容易照顾老少三代

娱乐圈圈圆
2026-06-27 00:29:46
伊拉克惨败塞内加尔引出连锁反应,韩国队离告别世界杯仅一步之遥

伊拉克惨败塞内加尔引出连锁反应,韩国队离告别世界杯仅一步之遥

刘哥谈体育
2026-06-27 09:24:54
美国务院发言人被质问:美国能禁中国产品,中国为何不能禁美国?

美国务院发言人被质问:美国能禁中国产品,中国为何不能禁美国?

天气观察站
2026-06-26 20:04:46
宝马 X5 末代版发布,下一代车型即将来临

宝马 X5 末代版发布,下一代车型即将来临

坠入温柔晚风
2026-06-26 10:19:59
翁虹女儿被UCLA录取,翁虹发长文:万万没想到真切发生在我家

翁虹女儿被UCLA录取,翁虹发长文:万万没想到真切发生在我家

仙味少女心
2026-06-21 18:31:19
1换2交易达成!雷霆离队第二人诞生!整整节省2.16亿美金

1换2交易达成!雷霆离队第二人诞生!整整节省2.16亿美金

世界体育圈
2026-06-27 09:22:11
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
上海市十六届人大常委会第三十一次会议通过有关人事议案

上海市十六届人大常委会第三十一次会议通过有关人事议案

澎湃新闻
2026-06-26 21:54:23
世界杯H组排名反转!佛得角升至第二,乌拉圭被逼入绝境

世界杯H组排名反转!佛得角升至第二,乌拉圭被逼入绝境

徐觳解说
2026-06-27 09:53:38
8000多辆军车成了废铁,克里米亚彻底断供!

8000多辆军车成了废铁,克里米亚彻底断供!

果妈聊娱乐
2026-06-13 15:24:53
《抓特务》的票房凋零,其实是“情怀的馊汤”,Z世代根本不想喝

《抓特务》的票房凋零,其实是“情怀的馊汤”,Z世代根本不想喝

喜欢历史的阿繁
2026-06-26 10:35:12
一家九口吹嘘高学历“翻车”,评论区看穿现实:没文化就别硬装!

一家九口吹嘘高学历“翻车”,评论区看穿现实:没文化就别硬装!

妍妍教育日记
2026-06-24 11:03:55
别再盲目买巨无霸电车!国家重拳出手,“大吨小标”梦碎?

别再盲目买巨无霸电车!国家重拳出手,“大吨小标”梦碎?

小怪吃美食
2026-06-27 10:07:19
妻子把男闺蜜接回家住,我学她也找了个女知己,带回家时她急了

妻子把男闺蜜接回家住,我学她也找了个女知己,带回家时她急了

千秋文化
2026-06-25 19:57:13
把开了五年的燃油车卖了,换上纯电车,三个月后,我终于信了朋友

把开了五年的燃油车卖了,换上纯电车,三个月后,我终于信了朋友

三农老历
2026-06-18 02:52:03
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

史之铭
2026-06-17 19:50:32
2026-06-27 11:24:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
910668文章数 5093094关注度
往期回顾 全部

科技要闻

GPT-5.6发布,旗舰模型先向可信伙伴开放

头条要闻

公寓着火快递小哥三次冲进火场扑救 吸入浓烟晕倒送医

头条要闻

公寓着火快递小哥三次冲进火场扑救 吸入浓烟晕倒送医

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

杨紫获白玉兰最佳女主角奖,泪洒现场

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

游戏
家居
旅游
公开课
军事航空

《GTA6》枪械阵容汇总!近20种武器种类丰富

家居要闻

绿意盎然 自然之境

旅游要闻

阿坝这座寺院免费对外开放,少有喧嚣游人

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版