网易首页 > 网易号 > 正文 申请入驻

百川智能首款AI助手大秀神操作!Baichuan 4强势升级登顶国内第一

0
分享至


新智元报道

编辑:编辑部

【新智元导读】时隔4个月,百川智能的基座大模型又双叒升级了!新一代Baichuan 4出世直接登顶国内第一。不仅如此,首款最懂搜索、会提问的AI助手「百小应」正式杀入移动APP战场。

近半个月,国外科技大厂们连番轰炸,GPT-4o、Project Astra、Copilot+ PC的诞生让人目不暇接。

而国内大模型这边也是毫不示弱,不断地推陈出新、迭代升级。

就在今天,历时4个月打磨,百川智能发布了新一代基座大模型Baichuan 4。

不仅如此,他们还带着自家首款AI助手「百小应」杀入移动APP战场。


试玩地址:ying.ai

与吊人胃口的OpenAI不同,iOS和安卓版应用程序今天一并推出,并且免费使用。

毋庸置疑,「百小应」已经用上了升级后Baichuan 4基座大模型的能力,与其他的AI助手一样,读文件、获取最新信息、整理资料、辅助创作等各种问题,「百小应」通通可以解决。

但与众不同的是,「百小应」将Baichuan 4的能力与其天然的搜索技术优势进行了深度融合。

它不仅具备多轮搜索的能力,甚至还可以定向搜索,可以被看作是最懂搜索的AI助手。

说这么多,不如来一波深度体验。

懂搜索、会提问的AI「伙伴」

在试用过程中,小编深深地体会到,「百小应」绝不仅是连接信息的工具,而是真正成为了一个提供知识和服务的AI助手,甚至有了一点伙伴的味道。


百小应的名称源自「一呼百应」

多轮搜索

在以往的搜索产品中,我们通常只会得到一个搜索结果。推一步才能走一步,非常被动。

但百小应不同,在得到搜索结果后,它还会结合用户的问题开启「自我反思」。

比如,它会自主判断当前提供的资料是否足够详实,从而来自主决策,是否需要进行更多轮次的搜索。

当我们问「含能材料的行业前景」,它就自己去进行了2轮搜索,然后给出了高度概括的介绍。


再问一个问题:中美两国在大模型行业的差距,究竟有多大?

百小应同样自动完成了2轮搜索,在技术积累、算力支持、产业应用、创新生态等方面,给出了客观中肯的分析。


可以看出,如果遇到市场调研、产业分析这类复杂场景,多轮搜索就能发挥最大的效力,更有效地获取更专业、更有深度的信息。


而在搜索结果的呈现上也可以看出,百小应相比其他搜索产品的独特之处。

它不是简单的总结网页信息,而是会将搜索结果嵌入回答中,成为回答的支撑或者创作的一部分,这样我们就有了参考资料来源,不必担心结果是无本之木、无源之水了。

除此之外,百小应在结果的结构化上,也做得非常优秀。


作为市场研究,上面这份输出的格式很标准,可以为行业分析、调研工作提供强大的助力。

定向搜索

很多时候,我们需要精准定位问题领域,直接访问权威站点。

百小应的「定向搜索」,此时就显示出了强大的功能。

我们可以直接问它:人机交互领域有哪些经典著作和最新研究成果?

通过2轮搜索,它精准地找到了知乎上的参考资料,详细给出了领域内的经典著作和最新论文。


从它给出的论文链接中,我们直接就可以查阅arXiv上对应的论文。

相比之下,其他智能助手仅仅是针对搜索结果做了大致的总结。


下面,我们试着让百小应在arXiv上找出关于RAG的最新研究成果。

果然,它会选择直接访问arXiv,让我们更高效地链接到想要的结果,不必在多余的繁杂信息中浪费时间。


会提问

一次流利的搜索体验,是由产品和用户共同完成的。

一方面,模型需要掌握专业的搜索技能,懂得什么是搜索;而另一方面,用户也必须会表达,才能真正通过AI来寻找到自己想要的信息。

虽然以上是最理想的情况,然而现实中,表达清楚自身需求,对很多用户是个困难的事儿,或者说懒得费那个脑子。

这种情况下,就需要让模型来引导用户「表达」了。

遇到引擎盖打不开的情况,可以直接问百小应。

不过这个问题的答案,取决于车辆的品牌、型号、出厂年份。一般人去提问,应该是不太可能一开始就提问得这么周全的。

不用担心,百小应会通过提问来指导你。


在它的引导下,我们给出了车型的关键信息:比亚迪元。

这下百小应给出的信息,就更精准了,在提问了我们所在地区这个信息之后,它甚至给出了北京4S店的联系方式和地址。


想要策划一场浪漫的草坪婚礼,不如让「百小应」当你的婚礼的私人订制策划师。


这时,「百小应」并没有根据笼统的问题,一通乱答,而是继续引导我们给出明确的细节。

「为了更好地帮您规划,我需要了解包括预算,参加人数等一些额外的信息」。


在提供了预算20万左右,50人参加的信息之后,「百小应」立即给出了非常细致的定制方案。

从场地选择推荐、婚礼布置装饰、婚宴餐饮,再到音乐草坪游戏,摄影录像,都为你一并规划好了。


更惊喜的是,它最后还贴心地为我们做了所有的预算分配。


再来看一个演示,当你想要写一个「天津之眼」的种草文案,「百小应」同样先去提问,了解真正需求。

- 您希望这篇文案吸引读者哪类读者?(诸如旅游爱好者、情侣推荐,还是家庭旅游)

- 您希望通过这篇文案传达哪些主要内容和情感?(比如,浪漫氛围、历史文化、刺激体验等)


然后,你就可以从这些给定的选择中进行挑选,或提出自己的想法皆可。

接下来,「百小应」便会根据要求生成文案,简短的文字着重体现了「天津之眼」独特魅力所在。


综上演示,「百小应」之所以能够输出精确的结果,主要归功于「会提问」,通过提问引导、激发用户清晰表达自身具体需求,为每个人构建出个性化的解决方案。


多模态

在Baichuan 4多模态能力的支持下,「百小应」还可以对图片内容进行解读。

又或者,将图片作为补充材料,获取更精准的回答。

最近比较火的AI开瓜,看看「百小应」能不能挑出,哪颗是最甜的瓜。


根据「百小应」的判断,一般西瓜表面条纹越清晰、颜色越深绿,可能代表着西瓜更成熟。

从图中看,推测得出,6和7看着条纹非常清晰。

不过,它还是提醒我们,仅从外观上判断西瓜甜度并不准确。


小编这就去开瓜了。


再来一张经典的重庆地标夜景图,不知「百小应」能否认得出?


显然,这个问题根本难不倒它。


你甚至,可以让它就这张图片,生成一份朋友圈文案。

「百小应」真的很会,生成的文案内容非常吸睛,同时还体现出了小众但不矫情的风格。


文档速读

除了以上提到的能力之外,「百小应」还支持上传PDF、Word文档,网页链接皆可行。

这就非常适合,需要大量阅读长篇幅文献、报告等内容的科研者,或是解析复杂数据表格的金融分析师等。

「百小应」可以做到,仅用1分钟的时间,读完上市公司财报。

比如,上传一份长达31页的特斯拉2024年第一季度财报文件。

然后要求「百小应」去解读财报,总结出值得关注的信息,并给出相对应的原文。


没想到,眨眼的功夫,「百小应」总结出了十个要点,并配上原报告highlights的内容。


再给它po一个链接,总结GPT-4o发布会的一些关键要点。



「百小应」的输出结果,基本上覆盖了全部的要点。


此外,「百小应」还可以支持通过语音的方式进行交互,简直是「手癌」患者的福音。


大模型时代新物种,AI不再是「工具」

经过一番实测之后,「百小应」已经在长文本阅读、多模态理解、提问搜索等多方面任务上,表现出强大的能力。

百川智能认为,让AI从工具变为伙伴,基于大模型打造的AI助手更像是在「造人」。

就像人类能够利用工具,听说读写看,甚至会思考一样,AI助手随着基座模型迭代,也将具备相应的能力。

虽然当下的AI助手还不具有情感、记忆、决策等高阶能力,距离「伙伴」还有很长的路要走,但是AI助手已经具备了部分伙伴所需要的能力,比如会思考,会用工具。

而搜索正是当下AI助手最重要的工具。


只有将大模型与搜索相结合,才能发挥出巨大的优势。甚至,人们普遍认为大模型的第一波应用,就是在搜索。

为什么这么说?

大模型饱受诟病的「幻觉」问题,是无法避免的,而植入搜索可以提升LLM回答准确性,早已成为行业共识。

其实,国内外大部分企业,早已给自家AI助手类应用增加了搜索功能。

但同样的搜索,却有着不一样的思路。

一种普遍的做法是收到用户的指令后,搜索相关信息,然后总结搜索结果进行输出。

而百川智能认为,大模型+搜索应该是在回答中嵌入搜索结果,用搜索赋能大模型,提高模型回答的鲜活性,让大模型言之有物,而不是用大模型赋能搜索。

由此,我们所看到的「百小应」,才是APP中懂搜索、会提问的那个应用。


百小应之所以能将大模型与搜索的能力很好地融为一体,是因为搜索一直是百川智能探索LLM的重点方向之一。

这家公司创始人和研发团队有着多年的前沿搜索经验,在去年发布首款闭源模型Baichuan 53B时就采用了「搜索增强技术」,大大提升了基座模型的输出结果的性能。

首款AI助手「百小应」能够表现不凡,当然也离不开此次基座模型Baichuan 4能力的大升级。

Baichuan 4登顶国内第一

Baichuan 4相较于上一代Baichuan 3,在通用能力上有着显著提升。


在刚刚发布的SuperCLUE权威中文评测中,Baichuan 4以80.64分成绩,登顶国内第一。


SuperCLUE总榜

具体来看,在理科任务中,Baichuan 4表现不俗,以 76.90 分的成绩排名国内第一。

然而,与GPT-4-Turbo-0125相比,相差4.23分,仍有一定的提升空间。

其中,逻辑推理(74.4分)、工具使用(80.8分)这两项均刷新国内最好成绩。


在文科任务中,Baichuan 4取得了83.12高分,文科能力全球第一,比GPT-4-Turbo-0125高出5.33分。

其中,知识百科(89.8分)、长文本(80.8分)、生成创作(83.4分)、传统安全(90.2分)均刷新国内最好成绩。


在与国内大模型平均得分相较下,Baichuan 4在所有能力上均高于平均线,展现了均衡的综合能力。

尤其是,在逻辑推理(+18.64)、代码(+18.89)、长文本(+20.77)能力上远高出平均线15分以上。


而与国外主流大模型对比,Baichuan 4在文科类任务取得领先优势。

特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面,表现突出。

这使得Baichuan 4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。

然而,它在代码能力方面仍有提升的潜力。



多模态能力仅次于GPT-4V

此外,在各大基准测试中,Baichuan 4还具备了行业领先的多模态能力,表现更加亮眼。

具体在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准上,新模型实力仅次于GPT-4V,完全碾压Gemini Pro、Claude 3 Sonnet等模型。


技术创新

为什么Baichuan 4,能够在4个月这么短的时间取得突破?

一切都源于,其在训练过程中引入了很多业界领先的技术优化手段。

在预训练阶段,为了有效提升LLM对数据的利用,新模型采用了基于Model-based+Human-based的协同数据筛选优化,并对长文本建模位置编码科学的Scaling Law。


在对齐阶段,还重点优化了模型推理、规划、指令跟随的能力,通过「损失」驱动数据选取与训练,阶段爬坡,多模型参数融合等方式,有效提升LLM关键指标和稳定性。

同时,团队还采用了RLHF和RLAIF融合后的「RLxF」,强化学习对齐技术,大幅提升模型的指令跟随等能力。


此外,Baichuan 4另一项的技术创新便是为LLM推理提速,提出了全新的投机采样方案clover。

通过将序列知识与并行解码结合,使得投机采样的命中率提升至60% ,同时成本降低30%以上。


1000万token免费薅,零代码Agent即将上线

发布会现场,百川智能推出了全新的MaaS+AaaS服务。

对于企业来说,需要的并不是大模型,而是生产力、生产效率的提升。

百川智能认为,拥有MaaS+ AaaS(Agent as a service)双重能力,企业才能构建出智能化的最佳方案。

MaaS版块由基座模型组成,分为旗舰版和专业版。

旗舰版将全量开放Baichuan 4的各项能力,Baichuan 4不仅拥有国内第一的中文能力,并且具备行业领先的金融知识和问答能力,在SuperCLUE的金融知识百科能力上,Baichuan 3曾取得了A+的最高评级。

专业版,则包含Baichuan3-Turbo和Baichuan3-Turbo-128K两款模型,在价格方面相比旗舰版Baichuan 4更实惠。

而且,这些模型均针对企业用的高频场景进行了针对性优化,综合测试相比GPT3.5整体效果提升8.9%。

百川智能表示,即日起,MaaS的新用户可以获得1000万免费token!

在Baichuan 4基础上,百川智能针对Agent构建,推出了Assistan API接口。

它不仅支持Code interpreter、RAG内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的API。

评测结果显示,Assistant API的工具调用能力,已经接近了Open AI assistant API的水平。现在,Assistant API已经正式开启内测邀请,试用免费!


接下来,百川智能还将推出零代码Agent创建平台产品。

任何业务人员,都可以通过自然语言创建Agent,更好地赋能企业智能化发展。

在生态方面,百川智能的「朋友圈」可以说范围之广。

目前已经服务了了数千家客户,包括完美世界游戏、爱奇艺、 创梦、什么值得买等各行业的领军企业。

同时,还与与信雅达、用友、软通动力、新致软件、达观数据等多家行业生态伙伴,以及华为、曙光等硬件厂商和中国移动、电信、联通等运营商达成合作,携手构建百川大模型生态。

顺便提一句,百川智能在成立1年多的时间里,以超乎想象的研发速度,共发布了12款大模型。


Baichuan 4之后,不知还有什么样的惊喜等着我们。

参考资料:

https://ying.baichuan-ai.com/chat


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女排总决赛名单公布,袁志正式接替蔡斌,张常宁接任队长职务

中国女排总决赛名单公布,袁志正式接替蔡斌,张常宁接任队长职务

拳击时空
2024-06-19 06:12:30
这次,轮到乌尔善“失手”了?冯宝宝一亮相观众直呼内娱没人了吗

这次,轮到乌尔善“失手”了?冯宝宝一亮相观众直呼内娱没人了吗

喵喵娱乐团
2024-06-17 16:43:15
杭州95后小伙在医院椅子上连睡60天:比起妹妹这不算什么!

杭州95后小伙在医院椅子上连睡60天:比起妹妹这不算什么!

环球网资讯
2024-06-18 12:02:51
美国想在日韩部署核武?俄霸气质问美国:是不是这样,直接回答我

美国想在日韩部署核武?俄霸气质问美国:是不是这样,直接回答我

博览历史
2024-06-17 19:55:31
马斯克:一面是天才一面是疯子,从小混乱的家庭关系让他无法正常

马斯克:一面是天才一面是疯子,从小混乱的家庭关系让他无法正常

照见古今
2024-01-06 18:43:16
岁月不败美人!刘亦菲65岁母亲在意大利被偶遇,气质优雅颜值超高

岁月不败美人!刘亦菲65岁母亲在意大利被偶遇,气质优雅颜值超高

柠檬有娱乐
2024-06-17 11:35:45
女老师恋上男学生,男生一年瘦至80斤…最终被男生母亲抓了现行!

女老师恋上男学生,男生一年瘦至80斤…最终被男生母亲抓了现行!

极品小牛肉
2024-01-23 14:15:39
吴梦洁免检!中国女排奥运名额确定八人,张常宁王云蕗将二选一

吴梦洁免检!中国女排奥运名额确定八人,张常宁王云蕗将二选一

跑者排球视角
2024-06-18 15:44:19
为中美冲突准备80万大军、6艘航母!美国亮明底牌,中国如何应对

为中美冲突准备80万大军、6艘航母!美国亮明底牌,中国如何应对

全民历史观
2024-06-18 09:17:07
姜萍家境曝光:父亲67岁还在打工,母亲佩戴“玉石项链”遭质疑

姜萍家境曝光:父亲67岁还在打工,母亲佩戴“玉石项链”遭质疑

妍妍教育日记
2024-06-18 19:08:29
人社部就业促进司司长张莹出任江西省政府党组成员

人社部就业促进司司长张莹出任江西省政府党组成员

澎湃新闻
2024-06-18 22:36:27
30天降30%!新iPad Pro价格跌麻了

30天降30%!新iPad Pro价格跌麻了

雷科技
2024-06-18 19:39:20
一富士康女生发帖称,在职转眼已满16年!昨天挺好,明天会更好…

一富士康女生发帖称,在职转眼已满16年!昨天挺好,明天会更好…

火山诗话
2024-06-19 06:28:54
对等反制,中国业界请求提高油车进口税至25%,德意当即宣布访华

对等反制,中国业界请求提高油车进口税至25%,德意当即宣布访华

前沿天地
2024-06-17 17:15:40
中国工程院院士金涌:光伏增加10倍以上,可完全替代火力发电!

中国工程院院士金涌:光伏增加10倍以上,可完全替代火力发电!

嘿哥哥科技
2024-06-19 07:13:20
国家终于出手了!5个综艺节目被强制停播,没有一个值得同情

国家终于出手了!5个综艺节目被强制停播,没有一个值得同情

奇闻史说
2024-06-18 14:11:37
彻底告别!32岁孙杨落选巴黎奥运名单 因禁赛毁所有 被国家队开除

彻底告别!32岁孙杨落选巴黎奥运名单 因禁赛毁所有 被国家队开除

林小湜体育频道
2024-06-18 18:36:49
定了!大中小学暑假放假时间正式出炉,最长78天,学生感到很高兴

定了!大中小学暑假放假时间正式出炉,最长78天,学生感到很高兴

凯旋学长
2024-06-18 23:49:53
确定了!最后一舞,整整25年啊,NBA曾因他修改规则,再见,MVP

确定了!最后一舞,整整25年啊,NBA曾因他修改规则,再见,MVP

球童无忌
2024-06-18 12:07:49
韩流遇冷!韩女团为博眼球模仿疯马秀造型,歌词露骨低俗被骂翻

韩流遇冷!韩女团为博眼球模仿疯马秀造型,歌词露骨低俗被骂翻

萌神木木
2024-01-22 22:53:38
2024-06-19 08:30:44
新智元
新智元
AI产业主平台领航智能+时代
11166文章数 65537关注度
往期回顾 全部

科技要闻

英伟达市值超微软 成全球市值最高上市公司

头条要闻

媒体:要卸任的北约秘书长还在埋雷 令世界深感忧虑

头条要闻

媒体:要卸任的北约秘书长还在埋雷 令世界深感忧虑

体育要闻

对于凯尔特人来说 谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

财经要闻

国家税务总局回应“倒查30年”

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

房产
艺术
本地
健康
旅游

房产要闻

净吸纳量连续两年TOP3!这座海口顶级写字楼,用实力上大分!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

我和我的家乡|在鞍山的每一步都有新发现

晚餐不吃or吃七分饱,哪种更减肥?

旅游要闻

直航加免签,利好中国—古巴旅游往来

无障碍浏览 进入关怀版