网易首页 > 网易号 > 正文 申请入驻

元石科技正式发布问小白5,性能直追GPT-5

0
分享至

机器之心发布

机器之心编辑部

本月初,AI 圈翘首以盼的 GPT-5 终于问世,在数学、实际编程、多模态理解、推理等多个领域实现了新的 SOTA。

与此同时,国内厂商也在全力加速,持续迭代自研模型与技术栈,力求在全球竞逐中不落下风。

今日,国产 AI 厂商元石科技重磅推出「All in One」旗舰模型 —— 问小白 5,成为其迄今为止最智能、最快捷、最实用的 AI 系统。尤其值得强调的是:问小白 5 的各项基准测试榜单成绩最接近 GPT-5,这使其成为当前国产大模型中最具代表性的对标者。

而得益于全方位增强的模型能力,问小白 5 在智能水平上实现了重大突破,可以在生活、学习、金融、科技等领域提供更实用、更专业的解答。

同时,作为一个统一的系统(All in One),问小白 5 能够智能识别何时快速响应,何时需要更长时间的思考。这种「动态思维模式」让用户无需在不同模式之间切换,既能满足日常的高效问答,又能在专业任务中提供专家级的回答。

目前,问小白 5 已经面向所有用户开放,访问官网 wenxiaobai.com 或更新 App 至最新版即可体验。

性能直追 GPT-5

国产大模型新标杆来了

大模型是否真正具备了「顶级实力」,还要看它们在权威测试中的 PK 成绩。

AA-Index是一个综合性的 AI 基准评估指标,通过整合数学推理、科学问答、编码与语言理解等多个维度,为全世界共 228 款大模型提供了统一、全面、有信度的智能能力比较参考,便于科学、公正地评估模型整体表现。

结果显示,问小白 5 以64.7 分的 AA-Index 指标超过 Gemini2.5 Pro ,并成为智能水平最接近 GPT-5 的国产 AI 大模型

另外,在STEM、前沿知识、代码编程、指令遵循等细分领域,问小白 5 的表现尤为亮眼,从而在复杂推理和结构化等多样化任务中展现出了更强的稳定性。

STEM 能力:深度推理与专业知识融合

STEM涵盖了全美数学竞赛(AIME)与博士级学科知识推理(GPQA),是顶尖模型(以 GPT-5 为代表)衡量其复杂逻辑推理能力核心突破的关键评测。

问小白 5 以86 分的 STEM 成绩接近全球领先的 GPT-5。

前沿知识能力:人类终极学术挑战

前沿知识能力旨在衡量模型能否在人类知识边界进行探索、辅助科学发现,这是以 GPT-5 为代表的顶尖模型致力于实现的核心价值。而「人类终极学术挑战」(HLE)便是评估这一能力的权威基准。

问小白 5 在代表前沿知识能力(HLE)的基准测试中,进一步将国产大模型的智能水平提升到17.7 分,展现了其在深度理解和真实推理能力上的优异能力,仅次于最强的 GPT-5。

代码编程能力:新基准更专业更显实力

LiveCodeBench作为一个高难度、抗数据污染的基准,旨在真实评测模型「思考 - 编码 - 验证」的端到端解题能力,并强调最终代码的稳健性与可执行性。

在此项评测中,问小白 5 以79.2的成绩脱颖而出。

指令遵循:精准遵循未知指令的泛化能力

IFBench(Instruction Following Benchmark)通过评测模型对新颖、未知指令的泛化能力,直击大模型指令过拟合的核心痛点,而这正是 AI 实用性的关键体现。行业标杆 GPT-5 在此能力上表现卓越。

在 IFBench 的严苛测试中,问小白 5 以58.1 分的成绩,不仅大幅领先国内其他顶尖模型,更在全球范围内展现出强大的竞争力。这一分数直观地证明了其卓越的指令遵循泛化能力,是其能够精准可靠、值得信赖的核心体现。

对于广大用户而言,问小白 5 的出现无疑提供了又一个更强大的国产大模型选项。

国产全能 AI 搭子

陪写、陪聊、陪干活

随着模型能力的持续提升,问小白 5 展现出了面向实际应用场景的广泛适用性以及处理现实问题的更强实用性。在包括学科知识、写作、办公、角色扮演、编程、分析规划和医疗健康在内的各个领域,它都能轻松拿捏。

从学术尖端到生活日常,问小白 5 展现了 GPT-5 级全能实力,且在中文环境下,问小白 5 更懂用户!

职场助手

问小白 5 像是一位周到的专业伙伴,擅长从繁杂的日常任务中快速识别重点,并在多线程任务管理、会议材料整理、跨部门沟通支持与项目进度跟踪等场景中,成为用户值得信赖的得力助手。比如入职体检报告的审查:

Prompt:这是即将入职员工的入职体检报告,请协助我理解并总结出体检结果,是否符合国家规定的用人健康需求。

运营分析

问小白 5 对海量数据的深度挖掘与多维度解读能力,使其能够在行为解读、活动效果复盘、渠道 ROI 优化与市场趋势研判等场景中,成为用户敏锐且高效的数据决策伙伴。

有了问小白 5,工作中的各种难题将迎刃而解。比如在订阅制产品中的收入预测与用户留存分析:

Prompt:我是一个出海 AI 产品,现有 8,000 名月度订阅会员,会员费 30 美元 / 月,平均每月流失率为 7%。若通过三种策略(改进注册体验、推出季度会员折扣、优化流失用户推送通知)将流失率降低至 6% 或 5%,模拟未来 12 个月内对月度总收入(MRR)的影响。

角色扮演

角色扮演是 AI 时代专属的私密游戏,在大模型的帮助下可以一秒切换人生剧本!

有了问小白 5,无论是霸道总裁、历史人物、都市游戏,还是奇幻精灵,它都能精准代入。并且,我们还可以和「小白」来一场沉浸式恋爱游戏。

Prompt:小白,请您扮演活泼外向的女生,渴望甜蜜恋爱。通过日常对话积累好感度(初始 1 / 上限 600),随好感升级关系:陌生人→好友→恋人→夫妻。用口语化中文回复。触发随机剧情时标注 "触发",添加场景描写与内心戏,用 emoji 表达情绪。现在往我们开始吧。

学科知识

在学术研究和知识探索场景中,问小白 5 宛如一位博学而高效的学术搭档,善于将庞杂信息精准解析,并转化为层次分明、逻辑严谨的知识体系,为科研工作者和学习者提供更高效的支持。

因此,在教学辅助、学术研究、技术解读与跨领域学习等场景中,问小白 5 可以充分发挥智能助手的作用。

Prompt:这是问小白技术团队荣获 ACL 2025 TOP26 杰出论文奖的论文,请帮我总结识别文献中的理论框架和模型,分析它们如何支持货挑战现有知识体系。

最后,问小白 5 的 API 合作通道即将开启,欢迎邮件联系:wenxiaobai@ai123.ink

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

夜深爱杂谈
2026-03-26 20:09:32
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

蓝鲸新闻
2026-03-26 16:18:08
痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

魔都姐姐杂谈
2026-03-26 20:54:38
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

阅尽天下大事
2026-03-26 13:16:28
学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

医学科普汇
2026-03-26 19:55:03
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

新京报
2026-03-25 21:29:45
2026-03-26 22:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
游戏
旅游
手机
公开课

艺术要闻

哪一座桥不是风景?

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版