网易首页 > 网易号 > 正文 申请入驻

豆包发布大模型 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o

0
分享至

   这几天海外科技圈最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI、软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来 4 年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。

   另外就是以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来的震撼,赶超 OpenAI 是所有 AI 公司的课题,但 DeepSeek 只用 2048 块GPU、近 600 万美元在 2 个月时间做到。

   一些外媒将这波国产 AI 的发布视为中国 AI 逼近甚至赶上美国的标志也并不奇怪,而且这股浪潮还在继续。

   今天,字节跳动旗下的豆包大模型 1.5 Pro 正式亮相,不仅全面升级了模型的核心能力,也融合并进一步提升了多模态能力,在多项公开评测基准中也是全球领先水平。

   豆包团队还强调, 模型训练过程中并未使用任何其他模型生成的数据。

   这次发布的豆包大模型 1.5 系列产品线包括:

   Doubao-1.5-pro:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩

   Doubao-1.5-lite:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。

   Doubao-1.5-vision-pro:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806

   Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务

   字节团队告诉 APPSO,Doubao-1.5-pro 目前已经在豆包 APP 灰度上线,由于对话是先接意图识别,所以用户大概率没法确定在使用时是否分流到 1.5 Pro,不过开发者也可在火山引擎直接调用 API。

   附上体验链接:https://www.volcengine.com/

   漂亮的参数背后是否有真材实料?我们也第一时间在火山引擎体验了豆包大模型 1.5 系列。

   先来看看 Doubao-1.5-pro-32k 模型。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经是常规测试环节了,但我们还是要走一遍流程,而模型都顺利通过了考验。

   接下来,我们向模型提出了一个较有挑战性的问题——寻找古代名人中姓名末字与「峰」字发音接近的例子。

   前半部分答案称得上出色,起码「翁」精确识别了与「峰」字发音相近的韵母(eng、ong),但后半段的关联性则较为牵强。

   继续上一道电车难题,这个涉及道德伦理的经典思考题,考验的不仅是模型的逻辑分析能力,更是其对复杂道德议题的理解深度。

   而 Doubao-1.5-pro-32k 并没有简单给出答案,分析深入透彻,指出这类问题并无标准答案,不同的道德观念和个人价值观会导致不同的决策。

   在完成上述测试后,我们将目光转向了更强大的 Doubao-1.5-pro-256k 模型。

   这是一款基于 Doubao-1.5-Pro 全面升级版的模型,整体效果大幅提升 10%,支持 256k 上下文窗口的推理,输出长度支持最大 12k tokens。

   为测试其解题能力,我们提出了一个古早的经典逻辑推理题,它的回答再次展现出了清晰的思维逻辑。

   「据说有人给酒肆的老板娘出了一个难题:此人明明知道店里只有两个舀酒的勺子,分别能舀 7 两和 11 两酒,却硬要老板娘卖给他 2 两酒。聪明的老板娘毫不含糊,用这两个勺子在酒缸里舀酒,并倒来倒去,居然量出了 2 两酒,请问是怎么做到的?」

   那文本功底如何呢?我们也让它创作一出剧本。题材是 2015 年 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇关于「AI 是否最终会取代人类」的对话。

   与 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的剧本创作更加细腻生动,不仅有具体的景别设计、画面描述,还包含了细致的台词和时长安排。

   如果你是一位经常需要编写剧本的创作者,那选谁作为你的剧本创作搭子应该不用多说了吧。

   而这种出色的创作能力,仅仅是豆包实力的一个缩影。实际上,此次更新中,Doubao-1.5-pro 基础模型能力获得全面提升,这一点从其在各大公开评测基准上的表现就可见一斑。

   Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的 3 倍提升至 7 倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。

   在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。

   豆包选择了一条最艰难但最踏实的那条路,这也是这次技术突破值得夸赞的地方。

   据悉,字节研究团队通过高效标注团队与模型自提升相结合的方式持续优化数据质量, 严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。

   并且,在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过 10 个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。

   Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。

   豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。

   在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。

   通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。

   在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。

  

   Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。

   在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。

   最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。

   从这一系列突破性进展来看,豆包无疑交出了一份令人满意的答卷。更何况,在当前「模型喂模型」盛行的环境下,坚持原创的定力和勇气本身就值得赞赏。

   通过始终如一的自主研发、原创数据和持续优化,豆包用实际成果证明了「慢工出细活」的价值。或许我们都应该牢记,AI 赛道最大的弯道超车,应该是坚持不走捷径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!陈丽华葬礼现场,迟重瑞以“当家人”姿态,排在队伍第一位

震惊!陈丽华葬礼现场,迟重瑞以“当家人”姿态,排在队伍第一位

火山詩话
2026-04-09 15:51:43
向比亚迪、小米等发起冲击!大众启动在华最大规模电动化攻势 平均每两周一款新车上市

向比亚迪、小米等发起冲击!大众启动在华最大规模电动化攻势 平均每两周一款新车上市

快科技
2026-04-08 09:29:10
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

芳芳历史烩
2026-04-08 16:28:15
全球第一针逆龄针已注射人体,OSK重编程细胞返老还童!

全球第一针逆龄针已注射人体,OSK重编程细胞返老还童!

时光派长寿观察
2026-04-09 17:48:51
穆杰塔巴·哈梅内伊发文

穆杰塔巴·哈梅内伊发文

南方都市报
2026-04-09 23:10:07
F-15飞行员跳伞情报外泄,美国内鬼被抓

F-15飞行员跳伞情报外泄,美国内鬼被抓

桂系007
2026-04-09 23:59:42
零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

混沌录
2026-04-07 22:00:19
消息称雅迪强制OTA致大量车辆锁死,官方回应

消息称雅迪强制OTA致大量车辆锁死,官方回应

DoNews
2026-04-08 18:52:07
中纪委:禁止机关事业单位在编职工去做这几种副业!

中纪委:禁止机关事业单位在编职工去做这几种副业!

细说职场
2026-04-09 15:34:47
张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

鲁中晨报
2026-04-07 17:13:05
迟先生哭了 ,陈丽华追悼会现场,儿子儿媳接待众人,孙子罕见露面

迟先生哭了 ,陈丽华追悼会现场,儿子儿媳接待众人,孙子罕见露面

生性洒脱
2026-04-10 00:28:01
米切尔单节44分炸场,骑士用一节球把老鹰打懵

米切尔单节44分炸场,骑士用一节球把老鹰打懵

体坛观察猿
2026-04-09 19:45:43
曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

小徐讲八卦
2026-04-02 07:51:08
终于出手!委内瑞拉代总统正式宣布:5月1日起全国迎来上调

终于出手!委内瑞拉代总统正式宣布:5月1日起全国迎来上调

斜烟风起雨未
2026-04-10 04:37:05
“解冻是真实的”!中方证实:5年多来首次访华

“解冻是真实的”!中方证实:5年多来首次访华

第一财经资讯
2026-04-09 14:49:20
原来她已去世4年,曾穿旗袍满身帝王绿,300间商铺345套房随便住

原来她已去世4年,曾穿旗袍满身帝王绿,300间商铺345套房随便住

混沌录
2026-04-09 18:24:16
赛季报销!新疆官宣阿不都跖骨骨折 多主力受伤大概率无缘季后赛

赛季报销!新疆官宣阿不都跖骨骨折 多主力受伤大概率无缘季后赛

醉卧浮生
2026-04-09 19:50:32
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
奉陪到底,中方专机抵朝前,朝鲜亮出集束弹头,日韩防长紧急通话

奉陪到底,中方专机抵朝前,朝鲜亮出集束弹头,日韩防长紧急通话

共工之锚
2026-04-10 01:25:50
汤姆·哈迪带老婆海滩放风!穿“毒液短裤”裸上身,身材明显发福

汤姆·哈迪带老婆海滩放风!穿“毒液短裤”裸上身,身材明显发福

星野娱乐天地
2026-04-09 21:35:10
2026-04-10 07:47:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6289文章数 26818关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

时尚
教育
数码
艺术
家居

越来越流行的松弛感穿搭,照着穿就很好看

教育要闻

中考体育将与语数外同分,国家正式定调,家长必看!

数码要闻

华为多款新品在路上:Pura 90、阔折叠、AI眼镜、平板耳机全都有

艺术要闻

这位清末大家,笔下尽是江南风骨!

家居要闻

清新自然 复古风尚

无障碍浏览 进入关怀版