网易首页 > 网易科技 > 网易科技 > 正文

百川智能推出Baichuan2-192K大模型,一次可输入35万个汉字

0
分享至

10月30日消息,百川智能发布Baichuan2-192K大模型。其上下文窗口长度高达192K,能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约2.5万字)的14倍。

据悉,今年9月25日,百川智能已开放了Baichuan2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。


上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好的捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。

百川智能称,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。

此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口增长后效果都出现了近乎直线下降的情况。

本次百川发布的Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。

算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。在长文本困惑度标准评测数据PG-19上,当窗口长度扩大,Baichuan2-192K的序列建模能力持续增强。

工程方面,在自主开发的分布式训练框架基础上,百川智能整合目前市场上所有先进的优化技术,包括张量并行、流水并行、序列并行、重计算以及Offload功能等,独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

百川智能在算法和工程上针对长上下文窗口的创新,不仅是大模型技术层面的突破,对于学术领域同样有着重要意义。Baichuan2-192K验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。

Baichuan2-192K现已正式开启内测,以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将全面开放。

值得注意的是,Baichuan2-192K能够一次性处理和分析数百页的材料,对于长篇文档关键信息提取与分析,长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有助力作用。

据介绍,它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展。(一橙)

延伸阅读
相关推荐
热点推荐
商业航天进入井喷期!火箭、卫星、运营产业链最强6巨头名单在此

商业航天进入井喷期!火箭、卫星、运营产业链最强6巨头名单在此

小白鸽财经
2025-12-19 07:05:03
打击网络诈骗国际会议在曼谷召开

打击网络诈骗国际会议在曼谷召开

财联社
2025-12-18 17:05:04
吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

饭小妹说历史
2025-12-16 16:38:39
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
官宣!中国男篮核心遭重伤!打日本队需大换血,郭士强或带2小将

官宣!中国男篮核心遭重伤!打日本队需大换血,郭士强或带2小将

老吴说体育
2025-12-19 22:50:11
没有商量余地,中国直接收回,17万日本人泪奔,高市闯祸了!

没有商量余地,中国直接收回,17万日本人泪奔,高市闯祸了!

靓仔情感
2025-12-20 01:58:40
美国经济难于摆脱严重衰退 1975年11月19日《人民日报》

美国经济难于摆脱严重衰退 1975年11月19日《人民日报》

那些看得见的老照片
2025-12-17 17:13:44
2026收入上涨!中央定调,这6类人补贴细则全公开,你符合条件吗

2026收入上涨!中央定调,这6类人补贴细则全公开,你符合条件吗

三农雷哥
2025-12-18 19:29:54
美国售台60辆M109A7自行火炮、82辆“海马斯”火箭炮,威胁会多大

美国售台60辆M109A7自行火炮、82辆“海马斯”火箭炮,威胁会多大

蓝星杂谈
2025-12-18 18:29:45
柬埔寨士兵吃着糟糕的食物,豪富的洪家却不愿给他们稍微吃好点

柬埔寨士兵吃着糟糕的食物,豪富的洪家却不愿给他们稍微吃好点

老马拉车莫少装
2025-12-16 03:01:51
全国统一体制内口头禅,一出口就知道,网友:味太正了!

全国统一体制内口头禅,一出口就知道,网友:味太正了!

另子维爱读史
2025-12-18 16:59:41
拜登带病提醒,特朗普迅速回过神来:对台海,做了一个错误的决定

拜登带病提醒,特朗普迅速回过神来:对台海,做了一个错误的决定

悦心知足
2025-12-19 23:49:40
教育部中小学考试新规发布,考试做减法!家长喜忧参半,你怎么看?

教育部中小学考试新规发布,考试做减法!家长喜忧参半,你怎么看?

闪电新闻
2025-12-19 10:08:18
澳大利亚17岁女生好心搭载陌生人,结果被性侵,涉案共4人

澳大利亚17岁女生好心搭载陌生人,结果被性侵,涉案共4人

潇湘晨报
2025-12-18 21:37:11
连续4天!泰军彻夜播放鬼叫声恐吓柬村民

连续4天!泰军彻夜播放鬼叫声恐吓柬村民

看看新闻Knews
2025-12-18 16:56:05
别在楼下售水机里打水喝了!我打了半个月水,发现4个大问题

别在楼下售水机里打水喝了!我打了半个月水,发现4个大问题

小虎新车推荐员
2025-12-19 13:45:05
军方突袭边境仓库,查扣泰柬夫妇巨额现金与黄金

军方突袭边境仓库,查扣泰柬夫妇巨额现金与黄金

曼谷陈大叔
2025-12-19 17:45:18
翻出10年前的订单,网约车司机感慨万千!黄金时代一去不回

翻出10年前的订单,网约车司机感慨万千!黄金时代一去不回

网约车观察室
2025-12-18 17:54:25
越南再论中越战争:若中国五日内不撤军,谅山主力或遭全歼,最终结局怎样?

越南再论中越战争:若中国五日内不撤军,谅山主力或遭全歼,最终结局怎样?

孔孔说体育
2025-12-19 07:08:27
随着广东97-94险胜广州,上海送江苏3连败,CBA最新排行:前3同分

随着广东97-94险胜广州,上海送江苏3连败,CBA最新排行:前3同分

小火箭爱体育
2025-12-19 21:47:57
2025-12-20 04:20:49

科技要闻

许四清:具身智能的"ChatGPT时刻"还未到来

头条要闻

普京:俄方愿在乌克兰选举期间暂时停止打击

头条要闻

普京:俄方愿在乌克兰选举期间暂时停止打击

体育要闻

“恶龙”埃托奥,正在毁灭喀麦隆足球

娱乐要闻

曲协表态仅6天,郭德纲担心的事还是发生

财经要闻

日元加息,恐慌来了?货币三国杀

汽车要闻

“一体压铸”再引热议 一旦受损真的修不起吗?

态度原创

家居
手机
亲子
数码
公开课

家居要闻

高端私宅 理想隐居圣地

手机要闻

19999起,三星Galaxy Z TriFold迎来首销

亲子要闻

宝妈必学,为什么教孩子不舒服的触摸要拒绝是错误的?

数码要闻

机械大师E06卧式ITX机箱上市:支持200mm长半高显卡,298元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×