网易首页 > 网易号 > 正文 申请入驻

大模型通才来了!百川智能全模态模型亮相,实力碾压GPT-4o mini

0
分享至


智东西
作者 程茜
编辑 漠影

临近年关,国产大模型的春节大礼包让人应接不暇!

就在这几天,从全场景深度推理模型Baichuan-M1-preview医疗增强开源模型Baichuan-M1-14B,百川智能大模型频繁上新。

而今天新鲜出炉的全模态模型Baichuan-Omni-1.5,更称得上是“大模型通才”。

这一全模态模型不仅能同时支持文本、图像、音视频全模态理解,还支持文本、音频双模态生成。与此同时,百川还开源了两个评测集,助力国内全模态模型研发生态蓬勃发展。

从综合的测评结果来看,Baichuan-Omni-1.5的多模态能力整体超越了GPT-4o mini。在百川智能深耕的医疗领域,其医疗图片评测成绩更是大幅领先。

可以看出,百川智能作为国产大模型的明星玩家,在模型本身的技术探索以及深耕医疗行业落地上正一往无前。

模型权重地址:

Baichuan-Omini-1.5:

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omini-1.5-Base:

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

GitHub地址:

https://github.com/baichuan-inc/Baichuan-Omni-1.5

技术报告:

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

一、文图音视频“通杀”,多项测评超越GPT-4o mini

Baichuan-Omni-1.5的亮眼表现可以集中概括为“全面且强大”。

首先,该模型最突出的特点就是拥有全面的理解和生成能力,既包括对文本、图像、视频、音频全模态内容的理解,还支持文本、音频的双模态生成。

图片的理解层面,Baichuan-Omni-1.5在MMBench-dev、MM-Vet等通用图片评测中,其中通用测试集MM-Vet定义了识别、OCR、知识、语言生成、空间感知和数学计算六大核心VL能力,对于模型性能的表现呈现较为全面。图片的理解层面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用图片评测中领先领先GPT-4o mini。

值得一提的是,除了通用文本、图像、音视频能力外,百川智能的全模态模型更是在医疗赛道上一骑绝尘。医疗图片评测数据集GMAI-MMBench、Openmm-Medical的结果显示,该模型已经大幅超越GPT-4o mini。

音频的理解与生成层面,Baichuan-Omni-1.5不仅支持多语言对话,还能基于其端到端音频合成能力,拥有ASR(自动语音识别)和TTS(文本转语音)功能,并且在此基础上支持音视频实时交互。具体的测评指标上,Baichuan-Omni-1.5在lamma question和AlpacaEval数据集上整体表现远超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o 2.6。

视频理解层面,百川智能对该模型在编码器、训练数据和训练方法等多个关键环节进行了深入优化,其整体性能同样大幅领先GPT-4o-mini。

综上,Baichuan-Omni-1.5不仅在通用能力上整体超越GPT4o-mini,并且实现了全模态理解、生成的统一

百川智能同时还开源了两个评测集:OpenMM-Medical、OpenAudioBench

OpenMM-Medical用于评估模型医疗多模态能力,包含了来自42个公开医学图像的数据集,如ACRIMA(眼底图像)、BioMediTech(显微镜图像)和CoronaHack(X 射线),共计88996张图像。

OpenAudioBench则用于高效评估模型“智商”,包含5个音频端到端理解子评测集的平台,其中4个来自公开评测集(Llama Question、WEB QA、TriviaQA、AlpacaEval),还有1个是百川自建的语音逻辑推理评测集,该自建评测集共有2701条数据。

一直以来,百川智能在繁荣国内开源生态上都扮演着重要角色。这类开源模型评测数据集为研究人员和开发者提供了统一的标准数据,方便其对不同模型的性能进行客观、公正的评估,同样有助于催生一系列新的语言理解算法和模型架构。

二、全方位优化数据、架构、流程,破解大模型“降智”难题

从单一模态模型到多模态融合,再到全模态模型的进阶,这一技术发展历程为实现模型在千行百业落地应用提供了更多可能性。

然而,随着AI技术的不断发展,如何实现理解和生成的统一,已然成为当下多模态领域研究的一大热点与难点问题

一方面,理解和生成的统一使得模型能模仿人类交互方式,让计算机与人类的沟通更加自然、高效,这也是通用人工智能(AGI)实现的关键环节;另一方面,不同模态的数据在特征表示、数据结构和语义内涵等方面差异巨大,很难做到既能有效地提取多模态特征,又能实现跨模态的信息交互和融合,这也被业界公认为训练全模态模型的最大难题之一。此次Baichuan-Omni-1.5的发布,意味着百川智能应该已经找到了解决上述难题的有效路径。

训练全模态模型的过程中,为解决全模态模型“降智”难题,其研究团队从模型结构、训练策略以及训练数据等多方面进行了全流程的深度优化,真正实现了理解生成统一。

首先是模型结构方面,模型输入部分支持各种模态通过相应的Encoder/Tokenizer输入到大型语言模型中;输出部分则采用了文本-音频交错输出的设计,其中Text Tokenizer和Audio Decoder可以同时生成文本和音频。

其中,Audio Tokenizer由OpenAI发布的开源语音识别翻译模型Whisper增量训练而来,同时具备高级语义抽取和高保真重建音频能力。

为了让模型理解任意分辨率图片,Baichuan-Omni-1.5还引入了能处理最高分辨率可达4K且支持多图推理的NaViT,使得该模型能全面提取图片信息,准确理解图片上的内容。

其次是数据层面,百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库,并使用1700万条全模态数据进行了SFT(监督微调)。

与其余模型的数据不同,全模态模型不仅数据要丰富,还需要更多元化的交错数据。一般而言,现实生活中的信息通常以多种模态同时呈现,且不同模态的数据包含互补的信息,这类多模态数据的融合有助于模型学习到更通用的模式和规律,增强其泛化能力,这也是构建全模态模型的关键之一。

为了加强跨模态理解能力,百川智能还构建了高质量的视觉-音频-文本交错数据,使用1600万图文、30万纯文本、40万音频数据以及跨模态数据对模型进行对齐。并且为了让模型能够同时实现ASR、TTS、音色切换和音频端到端问答,在对齐数据中还专门构建了相应任务的数据。

第三大技术要点就是训练流程,这是让高质量数据真正提升模型能力的核心。

百川智能在预训练和SFT阶段均设计了多阶段训练方案,以整体提升模型效果。

其训练过程主要分为四个阶段,第一阶段以图文训练为主,第二阶段增加音频预训练,第三阶段加入视频数据,最后一个阶段是对齐阶段,最终实现模型对于全模态内容的理解。

在此基础上,Baichuan-Omni-1.5的能力相比于单一的大语言模型或者多模态模型,实现了质的飞跃。

Baichuan-Omni-1.5的发布标志着AI正在从模型能力向落地应用方向发展,此前,模型能力多侧重于语言理解、图像识别等基础能力的增强,这一模型强大的多模态融合能力,将会让技术与实际场景之间结合更为紧密。

百川智能一方面提升了模型在语言、视觉、音频等多模态信息处理上的能力,使其能够应对更复杂、更多样的任务;另一方面全模态模型强大的理解、生成能力,在医疗行业可以用于辅助医生诊断,提高诊断准确性和效率等,对于将AI落地到医疗场景也是非常有益的探索。

或许在不久的将来,百川智能可以让我们清晰看到AGI时代医疗应用的雏形。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

毅谈生肖
2026-03-26 11:47:20
美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

大风新闻
2026-03-26 15:51:37
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
三亚梦幻同框!钟丽缇夫妇偶遇张纪中一家,现场画面太温馨

三亚梦幻同框!钟丽缇夫妇偶遇张纪中一家,现场画面太温馨

眼底星碎
2026-03-26 11:09:37
近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

钱塘地产
2026-03-26 11:27:56
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

爱意随风起呀
2026-03-26 16:51:41
中国4大通血管食物,洋葱排第4,第1就藏在水果里,中老年要多吃

中国4大通血管食物,洋葱排第4,第1就藏在水果里,中老年要多吃

王二哥老搞笑
2026-03-26 05:50:58
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
以牙还牙,4000人因空袭死伤后,黎巴嫩导弹飞往以色列国防部大楼

以牙还牙,4000人因空袭死伤后,黎巴嫩导弹飞往以色列国防部大楼

音乐时光的娱乐
2026-03-26 17:14:56
多个省级党委组织部部长调整

多个省级党委组织部部长调整

上观新闻
2026-03-26 12:48:05
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
斩草除根!美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

斩草除根!美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

军迷战情室
2026-03-25 07:42:05
麦迪:杨瀚森球商高有注定长期竞争力,打法让我想到约基奇

麦迪:杨瀚森球商高有注定长期竞争力,打法让我想到约基奇

懂球帝
2026-03-26 11:45:09
中方是否仍有意推进与日企经济联系? 商务部回应

中方是否仍有意推进与日企经济联系? 商务部回应

封面新闻
2026-03-26 17:36:14
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
2026-03-26 18:24:52
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11434文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
数码
房产
旅游
家居

教育要闻

中小学家长必看数据,看与不看都会后悔

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

视点|陶然亭公园海棠春花文化节,解锁春日新体验

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版