网易首页 > 网易号 > 正文 申请入驻

豆包发布大模型 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o

0
分享至

   这几天海外科技圈最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI、软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来 4 年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。

   另外就是以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来的震撼,赶超 OpenAI 是所有 AI 公司的课题,但 DeepSeek 只用 2048 块GPU、近 600 万美元在 2 个月时间做到。

   一些外媒将这波国产 AI 的发布视为中国 AI 逼近甚至赶上美国的标志也并不奇怪,而且这股浪潮还在继续。

   今天,字节跳动旗下的豆包大模型 1.5 Pro 正式亮相,不仅全面升级了模型的核心能力,也融合并进一步提升了多模态能力,在多项公开评测基准中也是全球领先水平。

   豆包团队还强调, 模型训练过程中并未使用任何其他模型生成的数据。

   这次发布的豆包大模型 1.5 系列产品线包括:

   Doubao-1.5-pro:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩

   Doubao-1.5-lite:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。

   Doubao-1.5-vision-pro:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806

   Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务

   字节团队告诉 APPSO,Doubao-1.5-pro 目前已经在豆包 APP 灰度上线,由于对话是先接意图识别,所以用户大概率没法确定在使用时是否分流到 1.5 Pro,不过开发者也可在火山引擎直接调用 API。

   附上体验链接:https://www.volcengine.com/

   漂亮的参数背后是否有真材实料?我们也第一时间在火山引擎体验了豆包大模型 1.5 系列。

   先来看看 Doubao-1.5-pro-32k 模型。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经是常规测试环节了,但我们还是要走一遍流程,而模型都顺利通过了考验。

   接下来,我们向模型提出了一个较有挑战性的问题——寻找古代名人中姓名末字与「峰」字发音接近的例子。

   前半部分答案称得上出色,起码「翁」精确识别了与「峰」字发音相近的韵母(eng、ong),但后半段的关联性则较为牵强。

   继续上一道电车难题,这个涉及道德伦理的经典思考题,考验的不仅是模型的逻辑分析能力,更是其对复杂道德议题的理解深度。

   而 Doubao-1.5-pro-32k 并没有简单给出答案,分析深入透彻,指出这类问题并无标准答案,不同的道德观念和个人价值观会导致不同的决策。

   在完成上述测试后,我们将目光转向了更强大的 Doubao-1.5-pro-256k 模型。

   这是一款基于 Doubao-1.5-Pro 全面升级版的模型,整体效果大幅提升 10%,支持 256k 上下文窗口的推理,输出长度支持最大 12k tokens。

   为测试其解题能力,我们提出了一个古早的经典逻辑推理题,它的回答再次展现出了清晰的思维逻辑。

   「据说有人给酒肆的老板娘出了一个难题:此人明明知道店里只有两个舀酒的勺子,分别能舀 7 两和 11 两酒,却硬要老板娘卖给他 2 两酒。聪明的老板娘毫不含糊,用这两个勺子在酒缸里舀酒,并倒来倒去,居然量出了 2 两酒,请问是怎么做到的?」

   那文本功底如何呢?我们也让它创作一出剧本。题材是 2015 年 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇关于「AI 是否最终会取代人类」的对话。

   与 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的剧本创作更加细腻生动,不仅有具体的景别设计、画面描述,还包含了细致的台词和时长安排。

   如果你是一位经常需要编写剧本的创作者,那选谁作为你的剧本创作搭子应该不用多说了吧。

   而这种出色的创作能力,仅仅是豆包实力的一个缩影。实际上,此次更新中,Doubao-1.5-pro 基础模型能力获得全面提升,这一点从其在各大公开评测基准上的表现就可见一斑。

   Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的 3 倍提升至 7 倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。

   在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。

   豆包选择了一条最艰难但最踏实的那条路,这也是这次技术突破值得夸赞的地方。

   据悉,字节研究团队通过高效标注团队与模型自提升相结合的方式持续优化数据质量, 严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。

   并且,在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过 10 个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。

   Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。

   豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。

   在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。

   通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。

   在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。

  

   Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。

   在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。

   最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。

   从这一系列突破性进展来看,豆包无疑交出了一份令人满意的答卷。更何况,在当前「模型喂模型」盛行的环境下,坚持原创的定力和勇气本身就值得赞赏。

   通过始终如一的自主研发、原创数据和持续优化,豆包用实际成果证明了「慢工出细活」的价值。或许我们都应该牢记,AI 赛道最大的弯道超车,应该是坚持不走捷径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长电科技,反败为胜!

长电科技,反败为胜!

投研邦V
2025-11-01 19:38:06
她长那么漂亮,可惜一直没有火起来,非常有实力的

她长那么漂亮,可惜一直没有火起来,非常有实力的

普陀动物世界
2025-11-01 14:39:54
金价11月1日:大家要有心理准备了,下周,金价或将迎来大风暴

金价11月1日:大家要有心理准备了,下周,金价或将迎来大风暴

娱乐八卦木木子
2025-11-01 03:26:58
生孩子上瘾?张柏芝又怀4胎?知情人坦言情况属实,但孩子生父仍是谜

生孩子上瘾?张柏芝又怀4胎?知情人坦言情况属实,但孩子生父仍是谜

八星人
2025-11-01 13:06:12
小米前高管王腾公布新去向:和手机行业说再见,正是闯的年纪

小米前高管王腾公布新去向:和手机行业说再见,正是闯的年纪

南方都市报
2025-11-01 23:10:18
刘强东疑回应和章泽天冷战传闻,几十字曝3点讯息,该和汪峰学学

刘强东疑回应和章泽天冷战传闻,几十字曝3点讯息,该和汪峰学学

古希腊掌管松饼的神
2025-11-01 20:22:08
赵本山到三亚清水湾自家别墅度假,下雨天逛街,专人撑伞悠闲气派

赵本山到三亚清水湾自家别墅度假,下雨天逛街,专人撑伞悠闲气派

小娱乐悠悠
2025-10-31 13:49:17
很快,大家就会自觉交出手里的存款,冲入股市

很快,大家就会自觉交出手里的存款,冲入股市

流苏晚晴
2025-10-28 19:09:42
王家卫好样的,这下全网都知道唐嫣洁身自好了

王家卫好样的,这下全网都知道唐嫣洁身自好了

娱乐故事
2025-11-01 21:36:09
你只是来体验生命的,不是来害怕的

你只是来体验生命的,不是来害怕的

青苹果sht
2025-11-01 05:52:54
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
特朗普说中美关系很好,将来会更好

特朗普说中美关系很好,将来会更好

一个坏土豆
2025-10-31 20:26:47
已确认!是知名演员杨紫

已确认!是知名演员杨紫

鲁中晨报
2025-11-01 10:03:06
知三当三,逼走刚生二胎原配,被央视除名20年后,她如今怎样了?

知三当三,逼走刚生二胎原配,被央视除名20年后,她如今怎样了?

冷紫葉
2025-10-24 15:38:32
特朗普光环下的选战!奥巴马出山救场,两州州长宝座争夺白热化

特朗普光环下的选战!奥巴马出山救场,两州州长宝座争夺白热化

史虇的生活科普
2025-11-02 00:55:15
“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

博览历史
2025-09-10 20:25:07
朱拉尼没想到中国动真格,发现只要中国不答应,美俄支持也没用!

朱拉尼没想到中国动真格,发现只要中国不答应,美俄支持也没用!

头条爆料007
2025-11-01 08:55:22
全运会单打抽签尴尬解了!樊振东陈梦皆列第4 女单争冠更具开放性

全运会单打抽签尴尬解了!樊振东陈梦皆列第4 女单争冠更具开放性

劲爆体坛
2025-11-01 09:34:06
1-0,2-1!皇马志在复仇!姆巴佩率队冲击:西甲4连胜+8连斩

1-0,2-1!皇马志在复仇!姆巴佩率队冲击:西甲4连胜+8连斩

万花筒体育球球
2025-11-01 11:36:17
未来几年,将是微利世界,凯文凯利建议普通人,要守住松鼠法则

未来几年,将是微利世界,凯文凯利建议普通人,要守住松鼠法则

阿胖读书
2025-09-14 14:42:38
2025-11-02 06:31:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5790文章数 26690关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

健康
时尚
手机
房产
艺术

核磁VS肌骨超声,谁更胜一筹?

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

手机要闻

疑似OPPO Find X10被曝光:2亿潜望镜确认加持,其他厂商怎么玩?

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

艺术要闻

郑丰林:中国当代年轻女画家

无障碍浏览 进入关怀版