网易首页 > 网易号 > 正文 申请入驻

国产最强大模型易主!Baichuan 4霸榜SuperCLUE,击败GPT-4-Turbo,首款AI助手来了

0
分享至


智东西
作者 程茜
编辑 心缘

智东西5月22日报道,今天,百川智能发布新一代大模型Baichuan 4,以及首款AI助手“百小应”。Baichuan 4相较Baichuan 3,通用能力提升超过10%,数学和代码能力分别提升14%和9%。

同日,SuperCLUE发布的通用大模型综合性中文测评基准上,Baichuan 4得分80.64位列第一,在中文综合能力测试中超过GPT-4-Turbo-0125。戏剧性的是,昨日,商汤科技日日新SenseNova 5.0大模型刚以总分80.03分的优异成绩刷新国内最好成绩,在中文综合成绩上超过GPT-4-Turbo-0125,今日评测表现中位列第二。


除大模型升级外,百川发布了首款AI助手百小应,基于Baichuan 4的能力,该助手具有定向搜索、多轮搜索能力,可以通过嵌入搜索结果、表格可视化搜索结果等为用户提供更加针对性的答案。王小川将百小应的能力定义为懂搜索、会提问,懂搜索就是让模型掌握专业的搜索技能,会提问就是让模型引导用户清晰表达自身的需求。

百小应现在已经在Web端(ying.ai)及移动端各大应用商店同步上线。

同时,百川智能宣布开放Baichuan 4、aichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款API。

开发者体验中心:https://platform.baichuan-ai.com/playground

自去年4月成立以来,百川智能已经发布12款模型,王小川提到,百川智能之后会放慢模型的发布节奏,频率为按照季度发布,目前整体的思路为超级应用+超级模型双轮驱动,今年年内会有大的升级。

提及最近火爆的大模型价格战话题,王小川谈道,他现在抱着“吃瓜”心态,百川智能的思路就是超级应用+超级模型双轮驱动,因此他们认为百川智能的策略与面向B端的商业化价格降低问题无关,更多还是看模型够不够强、是否有超级应用产生。

他认为降价热潮可能是由于首先大家看好这个时代的发展前景,所以不惜免费也要入场;第二点为To B厂商最后卖的不是模型而是整套云服务,这类似于此前AI四小龙做To B的策略。百川智能不会将这样的(降价)商业模式当作重点。

针对超级应用,王小川认为,现在的应用基本都不是超级应用,超级应用主要体现在使用人数有数量级提升,同时能满足用户刚需,充分理解用户意图,具有更高的可靠性。对于使用人数的数量级提升,他提到,总体达到3000万-3亿用户量之间可以称作超级应用。

一、全方位领先国产大模型,多模态能力接近GPT-4V

在理科能力方面,Baichuan 4得分76.90分,国内模型中排名第一,略高于SenseChat V5,较GPT-4-Turbo-0125低4.23分。其中,逻辑推理(74.4)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。


文科方面,Baichuan 4在文科任务上表现出色,取得83.12的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高5.33分。其中,知识百科(89.8)、长文本(80.8)、生成创作(83.4)、传统安全(90.2)均刷新国内最好成绩;


与国内外主流模型相比,下图左侧图片中Baichuan 4是图中橙色线条,国内大模型的平均水平是蓝色线条,百川智能已经全方位处于领先。

与国外模型相比,Baichuan 4在知识百科、长文本、生成创作等文科类中文任务上优于国外大模型。


在多模态能力方面,Baichuan 4评测结果接近GPT-4V。在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准领先Gemini Pro、Claude3-Sonnet等多模态模型。


王小川介绍了Baichuan 4背后的技术创新点。

在数据方面,百川智能采用合成数据扩充训练的数据量与提升质量,模型方面,从经验科学走向数学化,他提到,此前与OpenAI技术人员交流时提到,GPT-4和GPT-3.5的主要区别在于,通过大量实验将玄学问题变为科学问题,通过实验找到背后的规律,使得其调参时随机性减少。因此在长窗口中,百川智能对各个尺寸进行尝试,从而找出更合适的参数设置。

在对齐方面,百川智能优化了推理、规划、多模态指令跟随(Instruct Following)能力,通过Loss驱动的数据选取与训练,多阶段爬坡、多模型参数融合等方式提升模型的关键指标和稳定性。这种方式与MoE模型相似,都是将一个模型分成多个模型进行训练再合成一个模型,使得整个模型能力稳定性得到提升。

强化学习使得机器在训练之外能够获得外部反馈实现内部改进。因此,在这一阶段,百川智能有两个阶段性目标。

第一个是针对于大模型安全的真实、无害、有用3H阶段,制定三阶段强化方法,使得三个目标分阶段强化训练。第二个是实现RLHF和RLAIF的融合,将人类反馈和机器反馈模型相结合,提升模型的指令遵循等能力。

在成本方面,Baichuan 4采用了新的投机采样方案Clover,通过将序列知识与并行解码结合,使得投机采样的命中率提升至60%,成本降低30%以上。

二、支持多轮、定向搜索,分析长篇论文、一分钟读完公司财报

王小川提到,不同于信息时代工具属性的产品,百川智能要让AI从工具变为伙伴,AI助手就是从工具到伙伴的过渡阶段。

百小应融合了Baichuan 4与百川智能的搜索技术,拥有多步搜索、智能定向搜索等能力,具备懂搜索、会提问两大独特优势。

演示案例中,在回答“引擎盖打不开怎么办”这一问题,国内主流模型会笼统回答一些可能的处理方法。

百小应会先询问车的型号,然后通过联网搜索给出基本的打开方案,如果没有解决会再次询问用户的所在地点推荐维修服务,并给出一些紧急情况的处理办法。


百小应通过多轮搜索,可以在复杂的问题场景下有效获取到更有价值的答案。其通过精准定位问题领域,然后访问权威站点进行补充搜索,呈现结果中也会附加相应的网页链接。


同时,其输出内容会进行结构化呈现,通过表格对信息进行梳理,便于用户在行业分析、调研时加快对数据的理解。为了确保输出信息的准确度,百小应的输出结果有来源参考,用户可以点击引用角标快速校验搜索结果。


会提问,就是引导用户明确表述自身的需求。如一些用户在提问时,问题过于笼统、抽象,百小应就会先与用户进行互动,一步步明确具体的需求。

如向其提问婚礼策划方案时,它不会直接给出答案,而是先询问宾客的数量以及用户的预算情况;在帮助用户撰写小红书种草文案时,百小应会给出不同场景、风格的文案参考选项,用户快速点选就能获得答案。


除此以外,百小应还支持上传PDF、word文档,或者直接输入网页链接(URL),阅读并分析书籍、报告、学术论文等长篇内容,仅用一分钟便能读完上市公司财报。

在Baichuan 4多模态能力的支持下,用户在提问的同时还可以同步上传图片,对图片内容进行解读,或者将图片作为补充材料,获取更精准的回答;并且支持语音交互。

三、MaaS新用户可获得1000万免费token,AaaS服务可免费试用

百川智能推出了全新的MaaS+AaaS服务,MaaS版块由基座模型组成,分为旗舰版和专业版。

旗舰版将全量开放Baichuan 4的各项能力;专业版包含Baichuan3-Turbo和Baichuan3-Turbo-128K两款模型,在价格方面相比旗舰版Baichuan 4更实惠,且均针对企业用的高频场景进行了针对性优化,综合测试相比GPT3.5整体效果提升8.9%。即日起,MaaS新用户可以获得1000万免费token。

Assitants API是百川智能在Baichuan 4基础上针对Agent构建推出的API接口,不仅支持Code interpreter、RAG内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的API。评测结果显示其工具调用能力接近Open AI Assistants API,本次发布的Assitants API现已开启公测。


未来,百川智能将推出零代码Agent创建平台产品,让业务人员通过自然语言的方式,也能创建Agent,更好地赋能企业智能化发展。

结语:“超级模型+超级应用”双轮驱动,百川智能走出一条大模型应用独特之路

作为国内大模型产业中备受关注的明星创企,百川智能自王小川搭建团队、筹备研发起,已经发布12个大模型并推出首款AI助手,可以看出不论在模型的发布速度、模型的能力表现以及AI应用的开发方面,百川智能已经走出了一条独属于自己的大模型产品落地、商业化应用之路。

目前来看,距离百川智能想要做“超级模型+超级应用”的愿景仍然有一定距离,但从其刚发布的模型与应用来看,百川智能的模型表现霸榜国产大模型,综合表现更强,在AI助手方面,百川智能没有遵循其他搜索应用的思路,而是通过多轮搜索等将大模型与搜索技术相结合,真正朝着满足用户刚需的方向演进。

在众多科技巨头和创企纷纷推出各种大型AI模型应用的今天,百川智能基于其在大模型以及搜索技术方面的完整技术栈,同时拥有原先的搜狗搜索技术团队做支撑,以AI搜索助手为切入口,朝着打造拥有数亿用户、能满足用户刚需的超级应用冲刺。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
聪明人已经开始买房了

聪明人已经开始买房了

老端的观点
2024-06-16 21:33:13
浙江杭州,一位在KTV上班的女子,凌晨陪客户出去吃夜宵,结果不幸遭遇车祸

浙江杭州,一位在KTV上班的女子,凌晨陪客户出去吃夜宵,结果不幸遭遇车祸

今日搞笑分享
2024-06-14 07:10:15
凯尔特人奖金分配,波神30万,塔图姆第2,小白第4,第1没有意外

凯尔特人奖金分配,波神30万,塔图姆第2,小白第4,第1没有意外

九霄云者
2024-06-18 11:59:47
陈冰:中澳关系是一面镜子,照出欧盟的刻薄和愚蠢

陈冰:中澳关系是一面镜子,照出欧盟的刻薄和愚蠢

直新闻
2024-06-18 22:49:41
男子买房11年未入住:门锁被邻居替换,屋内堆满杂物阳台成菜园 起诉对方索赔

男子买房11年未入住:门锁被邻居替换,屋内堆满杂物阳台成菜园 起诉对方索赔

红星新闻
2024-06-17 17:52:10
刚刚!俄罗斯遭遇屈辱叛变,盟友军援乌克兰,俄方已不抱任何期望

刚刚!俄罗斯遭遇屈辱叛变,盟友军援乌克兰,俄方已不抱任何期望

新财迷
2024-06-17 09:51:28
三大消息:俄印撕破脸了?一场大战或爆发!中方突然出手运回黄金

三大消息:俄印撕破脸了?一场大战或爆发!中方突然出手运回黄金

铁拳大卫君
2024-06-18 17:57:51
云南鸵鸟肉案张永明被执行死刑,临刑前拒见亲人孤身赴死

云南鸵鸟肉案张永明被执行死刑,临刑前拒见亲人孤身赴死

一度历史观
2024-05-20 13:09:20
羞羞的两性知识,啪啪啪中,那些不敢对伴侣说的话

羞羞的两性知识,啪啪啪中,那些不敢对伴侣说的话

水白头
2024-06-15 15:00:17
又全裸去餐厅!坎爷老婆透明豪放露点,超大胆穿搭到东京竟变这样

又全裸去餐厅!坎爷老婆透明豪放露点,超大胆穿搭到东京竟变这样

室内设计师阿喇
2024-06-16 00:23:36
探长:这赛季对霍勒迪来说简直是奇幻之旅 兜兜转转成了两冠后卫

探长:这赛季对霍勒迪来说简直是奇幻之旅 兜兜转转成了两冠后卫

直播吧
2024-06-18 11:20:24
普京访朝喊话:俄朝建自主贸易结算体系

普京访朝喊话:俄朝建自主贸易结算体系

直新闻
2024-06-18 12:59:41
官宣!6月27日正式开服,正式服时间及补偿方案一并公布!

官宣!6月27日正式开服,正式服时间及补偿方案一并公布!

苹果牛看游戏
2024-06-18 10:39:35
周冬雨素颜照在韩国火了,韩国网友:喜欢到晕厥,心脏都要跳出来

周冬雨素颜照在韩国火了,韩国网友:喜欢到晕厥,心脏都要跳出来

文章侃娱乐
2024-06-17 15:41:42
交易我你们后悔吗?霍勒迪14中7得到15分11板4助1帽

交易我你们后悔吗?霍勒迪14中7得到15分11板4助1帽

直播吧
2024-06-18 11:15:03
纽大华裔女生偷走富二代室友$5.1万奢侈品!媒体挖出室友爸爸是谁,吓惨了

纽大华裔女生偷走富二代室友$5.1万奢侈品!媒体挖出室友爸爸是谁,吓惨了

北美省钱快报
2024-06-18 01:17:39
英超最佳去哪儿了?曼城版福登为何在英格兰队消失?

英超最佳去哪儿了?曼城版福登为何在英格兰队消失?

星耀国际足坛
2024-06-18 23:23:25
初二女儿端午节轻生,父亲看着两箱试卷痛哭:我知道问题所在了!

初二女儿端午节轻生,父亲看着两箱试卷痛哭:我知道问题所在了!

青栀伊人
2024-06-15 22:00:45
《玫瑰的故事》播出一半后才发现,刘亦菲根本不是天选的“玫瑰”

《玫瑰的故事》播出一半后才发现,刘亦菲根本不是天选的“玫瑰”

兰子记
2024-06-15 20:36:41
艾薇十年传奇谁最耀眼?君岛美绪、波多野结衣等巨星引领风潮

艾薇十年传奇谁最耀眼?君岛美绪、波多野结衣等巨星引领风潮

北风咧
2024-03-07 15:36:09
2024-06-19 00:18:44
智东西
智东西
聚焦智能变革,服务产业升级。
8618文章数 116490关注度
往期回顾 全部

科技要闻

第一批小米车主,已经开始卖车了

头条要闻

媒体:回暖的中澳关系就是一面镜子 照出欧盟的愚蠢

头条要闻

媒体:回暖的中澳关系就是一面镜子 照出欧盟的愚蠢

体育要闻

对于凯尔特人来说 谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

财经要闻

官方:税务部门没有倒查30年的安排

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

旅游
数码
手机
公开课
军事航空

旅游要闻

直航加免签,利好中国—古巴旅游往来

数码要闻

超薄的兆芯KX-6000G ITX迷你小板发布:四核3.3GHz、高性能GPU三屏输出

手机要闻

iOS17.6:Beta1版本已推送!果粉:直接升iOS18了

公开课

近视只是视力差?小心并发症

军事要闻

"局部战术暂停"后 以军袭击加沙地带多地

无障碍浏览 进入关怀版