网易首页 > 网易号 > 正文 申请入驻

元石科技正式发布问小白5,性能直追GPT-5

0
分享至

机器之心发布

机器之心编辑部

本月初,AI 圈翘首以盼的 GPT-5 终于问世,在数学、实际编程、多模态理解、推理等多个领域实现了新的 SOTA。

与此同时,国内厂商也在全力加速,持续迭代自研模型与技术栈,力求在全球竞逐中不落下风。

今日,国产 AI 厂商元石科技重磅推出「All in One」旗舰模型 —— 问小白 5,成为其迄今为止最智能、最快捷、最实用的 AI 系统。尤其值得强调的是:问小白 5 的各项基准测试榜单成绩最接近 GPT-5,这使其成为当前国产大模型中最具代表性的对标者。

而得益于全方位增强的模型能力,问小白 5 在智能水平上实现了重大突破,可以在生活、学习、金融、科技等领域提供更实用、更专业的解答。

同时,作为一个统一的系统(All in One),问小白 5 能够智能识别何时快速响应,何时需要更长时间的思考。这种「动态思维模式」让用户无需在不同模式之间切换,既能满足日常的高效问答,又能在专业任务中提供专家级的回答。

目前,问小白 5 已经面向所有用户开放,访问官网 wenxiaobai.com 或更新 App 至最新版即可体验。

性能直追 GPT-5

国产大模型新标杆来了

大模型是否真正具备了「顶级实力」,还要看它们在权威测试中的 PK 成绩。

AA-Index是一个综合性的 AI 基准评估指标,通过整合数学推理、科学问答、编码与语言理解等多个维度,为全世界共 228 款大模型提供了统一、全面、有信度的智能能力比较参考,便于科学、公正地评估模型整体表现。

结果显示,问小白 5 以64.7 分的 AA-Index 指标超过 Gemini2.5 Pro ,并成为智能水平最接近 GPT-5 的国产 AI 大模型

另外,在STEM、前沿知识、代码编程、指令遵循等细分领域,问小白 5 的表现尤为亮眼,从而在复杂推理和结构化等多样化任务中展现出了更强的稳定性。

STEM 能力:深度推理与专业知识融合

STEM涵盖了全美数学竞赛(AIME)与博士级学科知识推理(GPQA),是顶尖模型(以 GPT-5 为代表)衡量其复杂逻辑推理能力核心突破的关键评测。

问小白 5 以86 分的 STEM 成绩接近全球领先的 GPT-5。

前沿知识能力:人类终极学术挑战

前沿知识能力旨在衡量模型能否在人类知识边界进行探索、辅助科学发现,这是以 GPT-5 为代表的顶尖模型致力于实现的核心价值。而「人类终极学术挑战」(HLE)便是评估这一能力的权威基准。

问小白 5 在代表前沿知识能力(HLE)的基准测试中,进一步将国产大模型的智能水平提升到17.7 分,展现了其在深度理解和真实推理能力上的优异能力,仅次于最强的 GPT-5。

代码编程能力:新基准更专业更显实力

LiveCodeBench作为一个高难度、抗数据污染的基准,旨在真实评测模型「思考 - 编码 - 验证」的端到端解题能力,并强调最终代码的稳健性与可执行性。

在此项评测中,问小白 5 以79.2的成绩脱颖而出。

指令遵循:精准遵循未知指令的泛化能力

IFBench(Instruction Following Benchmark)通过评测模型对新颖、未知指令的泛化能力,直击大模型指令过拟合的核心痛点,而这正是 AI 实用性的关键体现。行业标杆 GPT-5 在此能力上表现卓越。

在 IFBench 的严苛测试中,问小白 5 以58.1 分的成绩,不仅大幅领先国内其他顶尖模型,更在全球范围内展现出强大的竞争力。这一分数直观地证明了其卓越的指令遵循泛化能力,是其能够精准可靠、值得信赖的核心体现。

对于广大用户而言,问小白 5 的出现无疑提供了又一个更强大的国产大模型选项。

国产全能 AI 搭子

陪写、陪聊、陪干活

随着模型能力的持续提升,问小白 5 展现出了面向实际应用场景的广泛适用性以及处理现实问题的更强实用性。在包括学科知识、写作、办公、角色扮演、编程、分析规划和医疗健康在内的各个领域,它都能轻松拿捏。

从学术尖端到生活日常,问小白 5 展现了 GPT-5 级全能实力,且在中文环境下,问小白 5 更懂用户!

职场助手

问小白 5 像是一位周到的专业伙伴,擅长从繁杂的日常任务中快速识别重点,并在多线程任务管理、会议材料整理、跨部门沟通支持与项目进度跟踪等场景中,成为用户值得信赖的得力助手。比如入职体检报告的审查:

Prompt:这是即将入职员工的入职体检报告,请协助我理解并总结出体检结果,是否符合国家规定的用人健康需求。

运营分析

问小白 5 对海量数据的深度挖掘与多维度解读能力,使其能够在行为解读、活动效果复盘、渠道 ROI 优化与市场趋势研判等场景中,成为用户敏锐且高效的数据决策伙伴。

有了问小白 5,工作中的各种难题将迎刃而解。比如在订阅制产品中的收入预测与用户留存分析:

Prompt:我是一个出海 AI 产品,现有 8,000 名月度订阅会员,会员费 30 美元 / 月,平均每月流失率为 7%。若通过三种策略(改进注册体验、推出季度会员折扣、优化流失用户推送通知)将流失率降低至 6% 或 5%,模拟未来 12 个月内对月度总收入(MRR)的影响。

角色扮演

角色扮演是 AI 时代专属的私密游戏,在大模型的帮助下可以一秒切换人生剧本!

有了问小白 5,无论是霸道总裁、历史人物、都市游戏,还是奇幻精灵,它都能精准代入。并且,我们还可以和「小白」来一场沉浸式恋爱游戏。

Prompt:小白,请您扮演活泼外向的女生,渴望甜蜜恋爱。通过日常对话积累好感度(初始 1 / 上限 600),随好感升级关系:陌生人→好友→恋人→夫妻。用口语化中文回复。触发随机剧情时标注 "触发",添加场景描写与内心戏,用 emoji 表达情绪。现在往我们开始吧。

学科知识

在学术研究和知识探索场景中,问小白 5 宛如一位博学而高效的学术搭档,善于将庞杂信息精准解析,并转化为层次分明、逻辑严谨的知识体系,为科研工作者和学习者提供更高效的支持。

因此,在教学辅助、学术研究、技术解读与跨领域学习等场景中,问小白 5 可以充分发挥智能助手的作用。

Prompt:这是问小白技术团队荣获 ACL 2025 TOP26 杰出论文奖的论文,请帮我总结识别文献中的理论框架和模型,分析它们如何支持货挑战现有知识体系。

最后,问小白 5 的 API 合作通道即将开启,欢迎邮件联系:wenxiaobai@ai123.ink

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
秦岚首度公开父母过世,一个人办追悼会不哭,和魏大勋不婚不育

秦岚首度公开父母过世,一个人办追悼会不哭,和魏大勋不婚不育

椰黄娱乐
2026-04-18 13:41:46
郑丽文之后,国民党大佬抵京!她的2个“必然”、狠狠敲打赖清德

郑丽文之后,国民党大佬抵京!她的2个“必然”、狠狠敲打赖清德

墨印斋
2026-04-19 19:59:49
最新!美国10名顶尖科学家接连消失,特朗普紧急回应,原因被曝光

最新!美国10名顶尖科学家接连消失,特朗普紧急回应,原因被曝光

影像温度
2026-04-19 17:27:22
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
两性关系:异性好友同住一间房,男生不敢动,女生却在装睡

两性关系:异性好友同住一间房,男生不敢动,女生却在装睡

游戏收藏指南
2026-04-20 11:02:04
57岁好莱坞女星太敢说:自曝生猛夫妻生活,不用生娃更尽兴

57岁好莱坞女星太敢说:自曝生猛夫妻生活,不用生娃更尽兴

橙星文娱
2026-04-18 16:47:02
上海辽宁队焦点战CCTV5直播!辽宁季后赛对手锁定山东,广东争前4

上海辽宁队焦点战CCTV5直播!辽宁季后赛对手锁定山东,广东争前4

老吴说体育
2026-04-20 11:07:00
今年英超不让四!欧冠席位几已确定,曼联门神归功于学会丑陋赢球

今年英超不让四!欧冠席位几已确定,曼联门神归功于学会丑陋赢球

罗米的曼联博客
2026-04-20 09:28:20
车主速看!4月30日前未办理,5月1日起一律扣分罚款

车主速看!4月30日前未办理,5月1日起一律扣分罚款

西莫的艺术宫殿
2026-04-20 08:03:03
李雨桐泄露薛之谦手机号、身份证号,被北京警方行拘10天

李雨桐泄露薛之谦手机号、身份证号,被北京警方行拘10天

潇湘晨报
2026-04-19 17:48:09
隆基董事长实名举报万科,可能会进一步动摇万科与合作方信任基石

隆基董事长实名举报万科,可能会进一步动摇万科与合作方信任基石

老潘聊地产
2026-04-17 21:08:12
拉住跳楼女友5分钟至力竭,仍被判10%责赔8万:司法自由裁量+无限责任令人不寒而栗

拉住跳楼女友5分钟至力竭,仍被判10%责赔8万:司法自由裁量+无限责任令人不寒而栗

少爷写春秋
2026-04-18 22:47:55
朝鲜想买中国的歼10CE战斗机,结果被拒绝了

朝鲜想买中国的歼10CE战斗机,结果被拒绝了

安安说
2026-04-19 14:59:08
最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

手里有读
2026-04-20 09:41:28
中央定调,养老金调整通知可能4-5月发?30年工龄能加超100元吗?

中央定调,养老金调整通知可能4-5月发?30年工龄能加超100元吗?

王五说说看
2026-04-20 07:05:10
广东宏远今日早报!新大外仍未注册,杜锋再创纪录,登顶潜力赛

广东宏远今日早报!新大外仍未注册,杜锋再创纪录,登顶潜力赛

多特体育说
2026-04-20 09:33:14
女大学生感觉多位男生喜欢自己,到处表白被拒确诊桃花癫

女大学生感觉多位男生喜欢自己,到处表白被拒确诊桃花癫

半岛晨报
2026-04-19 20:41:49
科尔2000万留队!勇士官宣大变革:为库里豪赌字母哥詹皇小卡!

科尔2000万留队!勇士官宣大变革:为库里豪赌字母哥詹皇小卡!

钱说体育
2026-04-19 18:00:40
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
韦东奕终于升了!七年讲师熬出头,评审会开到院长脸通红

韦东奕终于升了!七年讲师熬出头,评审会开到院长脸通红

娱小余
2026-04-03 22:52:32
2026-04-20 11:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12803文章数 142632关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

家居
亲子
旅游
健康
公开课

家居要闻

自然慢调 慢享时光

亲子要闻

普通家庭养娃补钙,90% 家长都补错了!

旅游要闻

赣鄱千年道:见证一片叶子的多种“打开方式”

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版