网易首页 > 网易号 > 正文 申请入驻

时隔一天,百川大模型拿下国产第一,AI助手「百小应」上线

0
分享至

机器之心报道

编辑:泽南

目标大模型「超级应用」。

最近几天,国内 AI 创业公司正在连续刷新大模型的能力上限。

5 月 22 日,百川智能发布最新一代基座大模型 Baichuan 4,同时推出了首款 AI 助手「百小应」。

相较 1 月份发布的 Baichuan 3,新一代模型在各项能力上均有大幅提升,其中通用能力提升超过 10%,数学和代码能力分别提升 14% 和 9%,在国内权威大模型评测机构 SuperCLUE 的评测中,Baichuan-4 大模型能力排名国内第一,超越了 SenseChat V5。

「在通往 AGI 的路上,我们需要超级模型 + 超级应用的双轮驱动。这是百川自去年成立时确立的基本理念,」百川智能创始人、CEO 王小川表示。「模型能力与超级应用都非常重要。这次的发布,是我们在这条道路上的进步。」



本次更新的 Baichun 4 大模型首次带来了多模态能力。百川表示,新模型在各大评测基准上表现优异,领先 Gemini Pro、Claude3-sonnet 等多模态模型。

尽管带来了多模态能力,但接下来的技术发展规划中,自然语言仍然是重点。王小川表示,大模型的核心是语言智能,推理能力仍然需要突破,多模态没有智力,只是对世界的复现。

「今天的大模型自洽性都不够,模型思考缺乏严谨性。有足够好的逻辑是更加重要的事。我不认为模型的长文本是唯一的事情,现在 AI 公司在长文本上竞争,但长文本只是做大的必要条件,不是充分条件。我认为模型本身未来更要强调内在的自洽性和推理能力,这两件事并不是靠长窗口去解决的,」王小川表示。

在 Baichuan 4 强大能力的基础上,百川智能将搜索技术与大模型深度融合,推出懂搜索、会提问的 AI 助手「百小应」。



百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户需求,为用户提供专业、丰富的知识和资源。此外还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求,给出更精准的答案。

百小应现在已经在 Web 端、iOS 和安卓应用商店同步上线,链接:https://ying.baichuan-ai.com/chat

此外,百川智能还宣布开放 Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API 四款 API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应 API,便捷高效地体验百川智能新一代模型的强大能力。(开发者体验中心:https://platform.baichuan-ai.com/playground)



新模型能力国内第一

多项能力超越国外主流模型

作为百川智能发布的最新一代基座大模型,Baichuan 4 在国内权威大模型评测机构 SuperCLUE 的评测中,模型能力国内第一,相较上一代大模型 Baichuan 3 提升显著。



不仅如此,与国外主流大模型对比,Baichuan4 在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。



Baichuan 4 能在较短的时间内取得突破,源于其在训练过程中引入了诸多业界领先的技术优化手段。例如,其在预训练阶段采用了基于 Model-based+Human-based 的协同数据筛选优化方法,以及对长文本建模位置编码科学的 Scaling Law,有效提升了模型对数据的利用。

在对齐阶段,新模型重点优化了模型 Reasoning、Planning、Instruct following 能力,通过 loss 驱动的数据选取与训练,多阶段爬坡,多模型参数融合等方式有效提升了模型的关键指标和稳定性。同时突破 RLHF 和 RLAIF 融合的 RLxF 强化学习对齐技术,大幅提升模型的指令遵循等能力。

此外,Baichuan 4 还具备行业领先的多模态能力,在 MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista 等评测基准上表现优异,大幅领先 Gemini Pro、Claude3-sonnet 等多模态模型。



首款 AI 助手百小应

懂搜索、会提问

「百小应」是百川智能成立之后推出的首款 AI 应用。百川智能认为,不同于信息时代工具属性的产品,大模型创造的是新物种,让 AI 从工具变为伙伴。虽然受限于模型能力,当下的 AI 应用还无法完全做到如同人一样,能够使用工具、会思考、有情感等,但随着模型能力的持续提升,相关应用一定会逐步具备完整能力。

为了让用户能够拥有更优质的智能体验,百小应很好地融合了 Baichan 4 行业领先的通用能力与百川智能前沿的搜索技术,具备多步搜索、智能定向搜索等能力,将百小应打造成一款懂搜索、会提问的 AI 助手。

百川着重展示了百小应交互中的多轮搜索能力。针对用户提出的问题,百小应可以逐步解析,深入探究,解锁问题的核心答案。相比单轮搜索,在市场调研、产业分析等复杂场景下,多轮搜索能够有效地获取更专业、更有深度的信息。定向搜索则能让百小应精准定位问题领域,直接访问权威站点,快速、准确地找到相关信息。

在搜索结果呈现方面,百小应同样与其他在单次搜索后「简单总结网页信息」的应用不同,会将搜索结果作为观点、论据直接应用到问答结果中。与此同时,其结果的结构化也非常优秀,能够将搜索结果以表格等结构化形式呈现,优化信息布局,便于用户快速定位、解读所需信息,可以为行业分析、调研工作提供助力。此外,百小应还在搜索结果中增加了来源参考,用户只需点击引用角标即可快速校验搜索结果。

不仅如此,针对一部分用户无法明确表述出自身需求,或者问题过于笼统、抽象的情况,百小应还会通过反问的方式,多轮交互定位需求,构建个性化解决方案,给出更精准的答案。

除了强大的搜索和提问功能以外,用户还能在百小应中上传 PDF、word 文档,或者直接输入网页链接(URL),阅读并分析书籍、报告、学术论文等长篇内容,仅用一分钟便能读完上市公司财报。在 Baichuan 4 多模态能力的支持下,用户在提问的同时还可以同步上传图片,对图片内容进行解读,或者将图片作为补充材料,获取更精准的回答;并且,它还支持用户通过语音的方式进行交互。

百小应的名称源自「一呼百应」,icon 中的橙色区别于科技领域常用的冷色调,寓意有温度的人工智能,icon 中的形象由水滴和对话气泡组合而成,水滴象征百川入海的无尽智慧,对话气泡象征沟通交流。



MaaS 1000 万免费

token、AaaS 免费试用

百川智能认为,企业客户需要的并不是大模型,而是生产力、生产效率的提升,拥有 MaaS+ AaaS(Agent as a service)双重能力,企业才能构建出智能化的最佳方案。

秉持这一理念,百川智能推出了全新的 MaaS+AaaS 服务。MaaS 版块由基座模型组成,分为旗舰版和专业版。旗舰版将全量开放 Baichuan 4 的各项能力,Baichuan 4 不仅拥有国内第一的中文能力,并且具备行业领先的金融知识和问答能力,在 SuperCLUE 的金融知识百科能力上 Baichuan 3 就已取得了 A + 的最高评级。

专业版包含 Baichuan3-Turbo 和 Baichuan3-Turbo-128K 两款模型,在价格方面相比旗舰版 Baichuan 4 更实惠,且均针对企业用的高频场景进行了针对性优化,综合测试相比 GPT3.5 整体效果提升 8.9%。百川智能表示,即日起,MaaS 的新用户可以获得 1000 万免费 token。

Assitants API 是百川智能在 Baichuan 4 基础上针对 Agent 构建推出的 API 接口,不仅支持 Code interpreter、RAG 内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的 API。评测结果显示其工具调用能力接近 Open AI Assistants API,本次发布的 Assitants API 现已正式开启公测,感兴趣的用户均可申请免费试用。

未来,百川智能将推出零代码 Agent 创建平台产品,让业务人员通过自然语言的方式,也能创建 Agent,更好地赋能企业智能化发展。

不过除此之外,百川似乎并不热衷于投身目前竞争激烈的大模型 API 价格战。

「中国商业环境里 to B 的市场规模比 to C 小 10 倍,to B 收的是人民币,花的是美金。到最后大厂都会卷这件事,只是没想到大家卷得这么狠,价格已经打到零了。这肯定是大厂射程范围内的,而我们肯定要做差异化,」王小川表示。

面向消费端的百小应,是百川智能投身超级应用的重要一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧文谈违背续约绿军承诺:因为2018年我的祖父去世了

欧文谈违背续约绿军承诺:因为2018年我的祖父去世了

直播吧
2024-06-16 22:21:19
女神34岁啦!瑞秋与罗伯森浪漫冲浪

女神34岁啦!瑞秋与罗伯森浪漫冲浪

直播吧
2024-06-16 14:36:39
大瓜!黄一鸣再曝猛料:不只生一个孩子,称生孩子王思聪都知道

大瓜!黄一鸣再曝猛料:不只生一个孩子,称生孩子王思聪都知道

娱记掌门
2024-06-14 18:50:25
央视:印尼半年归化11位国脚 民间自媒体志愿搜索归化的力度极强

央视:印尼半年归化11位国脚 民间自媒体志愿搜索归化的力度极强

直播吧
2024-06-16 19:42:13
2024年养老金调整前,人社部发文称要完善养老金调整机制,咋回事

2024年养老金调整前,人社部发文称要完善养老金调整机制,咋回事

小强财艺
2024-06-16 21:15:59
大瓜!黄一鸣撕葱事件新进展,王思聪连夜改名,女方出大招!

大瓜!黄一鸣撕葱事件新进展,王思聪连夜改名,女方出大招!

娱记掌门
2024-06-15 23:34:57
周鸿祎:嫌360广告弹窗多,可以用极速版,想免费,就要接受广告

周鸿祎:嫌360广告弹窗多,可以用极速版,想免费,就要接受广告

科技Nice
2024-06-15 17:14:28
儿子高考前去世,母亲一同火化了儿子的手机,几日后竟意外接通!

儿子高考前去世,母亲一同火化了儿子的手机,几日后竟意外接通!

华人星光
2024-06-15 16:19:40
刁琳宇遭网暴!被质疑弄伤朱婷,冯坤支招,惠若琪位置好频繁上镜

刁琳宇遭网暴!被质疑弄伤朱婷,冯坤支招,惠若琪位置好频繁上镜

三十年莱斯特城球迷
2024-06-15 22:41:42
中超-武汉三镇1-0青岛西海岸结束2连败 任航造乌龙制胜

中超-武汉三镇1-0青岛西海岸结束2连败 任航造乌龙制胜

直播吧
2024-06-16 22:00:32
郭晶晶霍启刚现身支持女排,表情从严肃到兴奋,见证中国队大逆转

郭晶晶霍启刚现身支持女排,表情从严肃到兴奋,见证中国队大逆转

娱记掌门
2024-06-16 16:15:23
F-16登场,留给侵略者耀武扬威的时间不多喽

F-16登场,留给侵略者耀武扬威的时间不多喽

临墨有余
2024-06-13 09:06:39
随着许家印的没落,其女儿的生活也被曝光,奢侈程度令人咋舌

随着许家印的没落,其女儿的生活也被曝光,奢侈程度令人咋舌

天闻地知
2024-06-14 14:07:23
回顾浙江男子偷窥女士洗澡坠亡,家属索赔88.9万,法院判决赢赞许

回顾浙江男子偷窥女士洗澡坠亡,家属索赔88.9万,法院判决赢赞许

五月读书汇
2024-06-16 08:05:23
马云采访中一度哽咽,几次抬头止住眼泪说:都难,现在大家都难

马云采访中一度哽咽,几次抬头止住眼泪说:都难,现在大家都难

元气科技馆
2024-05-20 17:52:48
又火出圈,已累计卖出14万单!医生提醒:不要盲目选择

又火出圈,已累计卖出14万单!医生提醒:不要盲目选择

鲁中晨报
2024-06-16 20:43:06
你知道为什么说“女性的私处”比马桶还要“脏”吗?

你知道为什么说“女性的私处”比马桶还要“脏”吗?

水白头
2024-06-15 11:07:02
国足归化热门首次身披国足战袍亮相,效率堪比金靴,入籍时间敲定

国足归化热门首次身披国足战袍亮相,效率堪比金靴,入籍时间敲定

评球论事
2024-06-16 20:49:31
赵蕊蕊探班中国女排,被李盈莹喊阿姨,袁心玥应该取经

赵蕊蕊探班中国女排,被李盈莹喊阿姨,袁心玥应该取经

跑者排球视角
2024-06-15 18:56:37
没人敢模仿的10位网红,看他们挣钱,我是一点也不眼红

没人敢模仿的10位网红,看他们挣钱,我是一点也不眼红

音乐时光的娱乐
2024-06-14 19:14:02
2024-06-16 23:48:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9081文章数 141943关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

欧洲猪肉业界:中国若限制进口将是梦魇

头条要闻

欧洲猪肉业界:中国若限制进口将是梦魇

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

家居
本地
手机
房产
公开课

家居要闻

空谷来音 朴素留白的侘寂之美

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

手机要闻

荣耀X60i入网:配置全面升级,能否满足你的所有期待?

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版