网易首页 > 网易号 > 正文 申请入驻

实测“超越GPT-4”的百川超千亿参数模型:医疗问答业内最强?

0
分享至

刚发完Baichuan-NPC还不足月,百川智能又对产品进行了一次大更新,发布了Baichuan 3模型。这次更新后,在多个权威通用能力评测CMMLU、GAOKAO和AGI-Eval中,其英文能力已经逼近 GPT-4,在中文任务表现上甚至超越了GPT-4:

百川智能一直在强调Baichuan 3在医疗场景方面的优化。在预训练阶段,百川智能就为Baichuan3构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。此外,他们在推理阶段进行了系统性的调优,让Baichuan 3在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

而从Baichuan 3在MCMLE、MedExam、CMExam等中文医疗任务的评测的表现来看,这款大模型在中文医疗场景的表现已经超过了GPT-4,而英文相关问题其表现也不错,仅次于GPT-4。

上手实测:医疗能力最强的中文大模型?

当然,跑分只是模型能力的一个剪影,硅星GenAI 选了一些关于医疗行业和中国传统文化相关的问题来让他回答,看看Baichuan 3的实际表现。

对于百川大模型的医疗知识与思考角度进行测试,由简单到更具专业性循序渐进地问了Baichuan 3几个就诊问题:

通过百川的回答可以看到,其“看诊”的逻辑和我们去医院看医生的问诊思路几乎是一致的。都会从引发病症的优先级考虑,对每个答案为何优先考虑和排除会给出专业、科学的解释,至少不会一上来就罗列最坏的情况,让人觉得自己小命不保。

如果遇到一些不太熟悉的药物,Baichuan 3还能够给出详细的介绍和使用方法教程。

百川也会对患者症状的口语描述会做出专业的名词解释再分析,这有利于患者在就医时与医生提高沟通效率与准确性,也会缓解部分患者表述不清症状的焦虑感。

当然,Baichuan 3给出的回答是否真的专业和准确,一般人也很难分辨,感觉目前对 AI 还是缺乏信任感,难以满足人们对于医疗判断权威性和准确性的依赖。

除了医疗领域,中国传统文化中的诗词创作的格式、韵律、表意等方面,也是这次更新的重点方向。

在文学创作方面,中学时代常学到的修辞手法有古诗里的“顶针”、“用典”,下面就先从这两点先测试一下Baichuan 3:

在第一次让Baichuan 3运用“顶针”的修辞手法写一首关于龙年的古诗时,它并没有运用这个修辞手法。

这时,我不禁好奇它到底知不知道这个修辞手法,于是便问了它:

根据百川的回答我看到,对于“顶针”手法的第一词条显示是它的别称“顶真”,基于优先级的关系,我这次选择用“顶真”这两个字来问它。

不错,这次写出来了。

但再次以“顶针”这两个字让Baichuan 3创作,依旧是上文显示没有用到此修辞手法的答案。这就好比知道 1+1=2,但问一加一等于多少就不会算了一样。还是有些相对“死板”。

为了做对比,我们也问了问ChatGPT知不知道“顶针”。

不负众望,ChatGPT也不知道这种说法。

我都开始怀疑是不是至始至终都只有“顶真”一种说法,而“顶针”只是人们的错别字说法了。

但问ChatGPT知不知道“顶真”二字的修辞手法时,ChatGPT给出了回答:

我们试着让 ChatGPT 再用顶真的修辞手法写一首诗出来,它写的诗是:

从形式上来看,确实是“顶真”的格式。先不论这首五言律诗的质量,至少也算 OpenAI 也能完成任务了。要说文采是 OpenAI 好还是百川智能的好,这个交给你们来判断吧。

下面是中国诗词最广博的修辞手法——“用典”的测试。

可惜,Baichuan 3对于典故的理解和大众有些出入,这方面还需要加强。

另外,对对子的平仄规律也是中国文学的独特魅力。我们先问了问Baichuan 3知不知道如何写对联,并让它写了一副对联出来:

百川对于此次指令的完成度极高,并且在词性、结构等方面的十分契合上文提到的对联7个要点。基本上可以直接写出来贴门上了,正好马上过年,可以用到了。

技术亮点

根据百川智能官方介绍,目前Baichuan 3的参数规模已经超千亿,为解决由于参数量巨大导致的在训练过程中出现梯度爆炸、loss跑飞、模型不收敛等问题,百川智能在训练过程中提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等技术手段及方案,来提升Baicuan 3的各项能力。具体更新细节,大家可以看百川官方的文章《 》。

总结一下,Baichuan 3有几个技术要点:

  1. 动态训练数据选择方案:可以在训练过程中动态选择训练数据,提高数据质量。

  2. 重要度保持:可以在训练初期保证模型训练初期的稳定性。

  3. 参数“有效秩”:用于在各项指标上发现训练过程的问题,加速问题定位,确保瘦脸效果

  4. 异步CheckPoint存储机制:保证无性能损失的同时加大存储频率,较少机器故障的影响。

在去年百川智能成立之初,王小川便表示会在年底推出一款对标GPT-3.5的大模型,而现在他们已经超额完成了这个目标。

欢迎加入这个星球,见证硅基时代发展↓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿根廷跟队:若去不成巴萨,小蜘蛛可能要求马竞接受其他报价

阿根廷跟队:若去不成巴萨,小蜘蛛可能要求马竞接受其他报价

懂球帝
2026-06-23 08:14:25
郑丽文对大陆海警船驶入太平岛海域发表评论。

郑丽文对大陆海警船驶入太平岛海域发表评论。

果妈聊娱乐
2026-06-21 08:48:22
赛力斯,我又没忍住!63元先干为敬,剩下的交给工资和问界M8了!

赛力斯,我又没忍住!63元先干为敬,剩下的交给工资和问界M8了!

沙雕小琳琳
2026-06-22 11:34:08
拒绝重返广东队!徐昕完成重磅签约,朱芳雨损失惨重!

拒绝重返广东队!徐昕完成重磅签约,朱芳雨损失惨重!

绯雨儿
2026-06-23 10:15:38
胡锡进:日本真没什么好玩的,大家干嘛要去日本旅游呢?

胡锡进:日本真没什么好玩的,大家干嘛要去日本旅游呢?

映射生活的身影
2026-06-21 19:30:48
记者:阿根廷队友们认为小蜘蛛想走的言论很正常,他压力很大

记者:阿根廷队友们认为小蜘蛛想走的言论很正常,他压力很大

懂球帝
2026-06-23 08:14:25
那个霸占陈圆圆的刘宗敏,作为起义军的主要首领,结局如何?

那个霸占陈圆圆的刘宗敏,作为起义军的主要首领,结局如何?

青史卷中人
2026-06-23 15:33:38
红枣还敢随便吃吗?提醒:以后吃红枣时,一定要多注意了!

红枣还敢随便吃吗?提醒:以后吃红枣时,一定要多注意了!

今日养生之道
2026-06-12 15:57:18
医生强调:身体这5处瘙痒,或是艾滋病的信号!一定要及时检查

医生强调:身体这5处瘙痒,或是艾滋病的信号!一定要及时检查

荆医生科普
2026-06-23 19:15:06
蒯曼遇低谷!国乒连夜紧急出手,父亲不再发声,22岁天才未来成谜

蒯曼遇低谷!国乒连夜紧急出手,父亲不再发声,22岁天才未来成谜

法老不说教
2026-06-23 18:17:02
内塔尼亚胡:至暗时刻

内塔尼亚胡:至暗时刻

西楼饮月
2026-06-22 23:22:06
女演员长相有多重要?看毛晓彤和张佳宁同框,才知剧抛脸的差距

女演员长相有多重要?看毛晓彤和张佳宁同框,才知剧抛脸的差距

一娱三分地
2026-06-22 15:17:03
世界杯最惨门神!俱乐部拿遍所有冠军 国家队巅峰全被坑没了

世界杯最惨门神!俱乐部拿遍所有冠军 国家队巅峰全被坑没了

澜归序
2026-06-23 09:01:18
“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

林林先生
2026-06-21 10:10:03
死亡之组大乱!日本 4-0 血洗对手,出线形势一夜之间全变了

死亡之组大乱!日本 4-0 血洗对手,出线形势一夜之间全变了

十点体坛
2026-06-22 21:44:48
梅西:罚丢点球我感到非常恼火,而且点球踢得很糟糕

梅西:罚丢点球我感到非常恼火,而且点球踢得很糟糕

懂球帝
2026-06-23 03:58:05
51年一特务被捕后语出惊人:杨靖宇不是自杀,害他的人在北京当官

51年一特务被捕后语出惊人:杨靖宇不是自杀,害他的人在北京当官

北海史记
2026-06-23 09:43:51
通州8公园发现7种毒蘑菇!北京将进入蘑菇中毒高发时段,切勿采食野生蘑菇

通州8公园发现7种毒蘑菇!北京将进入蘑菇中毒高发时段,切勿采食野生蘑菇

环球网资讯
2026-06-23 14:19:48
“再走几步,可能就是生离死别!”上海医生突然冲出诊室,拦下一位老人!极易漏诊,高危救活几率只有15%

“再走几步,可能就是生离死别!”上海医生突然冲出诊室,拦下一位老人!极易漏诊,高危救活几率只有15%

环球网资讯
2026-06-23 15:10:28
刚刚,华为宣布:智驾全面兜底

刚刚,华为宣布:智驾全面兜底

大佬灼见
2026-06-23 13:10:42
2026-06-23 19:55:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3179文章数 10508关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

艺术
本地
游戏
公开课
军事航空

艺术要闻

鲁迅毕生珍藏的书法!这才是楷书的“最初样貌”,水平高过唐代大师

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

曾被质疑不配年度游戏的《宇宙机器人》 足够好玩么?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版