网易首页 > 网易号 > 正文 申请入驻

查资料做视频写代码甚至画 CAD,豆包这动手能力真有点离谱了

0
分享至

但说句实话,跑分这东西就跟简历一样。纸面上看着好看,真坐到工位上顶不顶用,那是另外一码事。那咱不说废话,接下来直接上强度,看看它到底能做些啥。有的,这模型现在连画复杂的 CAD 图纸,都能硬啃下来。而且,它干这活儿的方式,也强到离谱。



大伙儿有没有发现,现在不管哪家公司发新模型,底下提问最常见的就一种类型:“这事儿到底能不能干?”好像跑分越高越强的思维,已经过时了。



但我说实话,这群 AI 和机器人公司全学坏了,就爱搁春节亮相,搞得世超和同事连春晚都看不进去了。

这不,就在春节放假前,咱大伙最爱用的豆包,先是丢了一个王炸视频模型 Seedance 2.0,接着又在春节来临之际推出了豆包大模型 2.0(Doubao-Seed-2.0)系列。



你别说,这发得真是时候。。世超本来说赶在节前水一篇稿子放假,结果一上手,发现稿子写不完了。

因为这小子,干起活来还真有点东西。。能干的活,两三天根本研究不明白,于是整个春节假期,我基本全耗在研究怎么压榨它的劳动力上了。

现在,这套“压榨流程”总算完工了,今天就来给大伙儿交个作业。咱们不整虚的,一切全从哥们的实际需求出发。

当然了,例行公事的成绩单咱还是得扫一眼。

这次字节的“Seed”家族更新得还蛮全面,除了核心的豆包 Seed 2.0,还有主攻视频生成的 Seedance 2.0,以及搞定图像的 Seedream 5.0 Lite,在火山引擎上都能试用,而且Seed 2.0系列的API已全部上线。



就拿核心的 2.0 Pro 来说,空间理解、运动感知和视频理解这几个科目,直接跑赢了 Gemini 3 Pro。



数学和推理分数拿下了 IMO 等硬核竞赛的金牌水平,全球最高,信息搜索和工具调用能力也拉升了一大截,只输一手 GPT 5.2。



首先,这玩意的 Agent 能力非常强,也就是抄家伙干活的能力。

众所周知,差评编辑部是一个多模态的团伙,文字,图片,视频,样样精通。。所以我们每次用 AI 都挺麻烦的,各种 AI 工具擅长的东西都不一样,有的作图强,有的视频强,我们需要把窗口切来切去,文件传来传去,很影响效率。



但在春节假期期间,我用seed-2.0-pro 再配合 seedance、seedream,搭建了一个多模态的 AI 助手,并把它连接到了飞书。

现在,我只需要把任何格式的东西用飞书发给它,再给它提要求,它就能按要求和文件类型,处理我发过去的文件。

具体实现方法,简单来说,就是本地部署一个 OpenClaw,然后给它接上火山引擎上 Seed-2.0-Pro 的 API,再在飞书开发者后台创建一个机器人,接入我们的 OpenClaw,最后再在飞书给它发消息,让它自己配置个 Skill ,用 Skill能自行调用图片、视频生成能力即可。

只要机器人配置好,咱什么东西都能在里面搓了。比如,你们刚刚看到的切屏表情包,就是我用这个神秘妙妙工具做的。



或者,咱可以对已生成的图片进行修改,也就一句话的事儿。比如我可以给它一张过年期间的全家福,让它改得喜庆一点。



结果。。不对,居然翻车了??不能说是一模一样,只能说是毫无血缘关系。

按说豆包的 seedream 4.5,是很强的生图模型了,难道其中还有什么玄机。。于是我打算盘问一下它的工作流程。



然后它告诉我没把原图传过去,原因是“图生图传base64太大了调用失败”。这我哪听得懂?直接让它自己帮我解决。

结果,它一通操作,检查问题-提出方案-解决问题,一套流程下来,还真给我调试好了。。



这番交互下来,我还是挺满意的。因为一个模型犯错其实是不可避免的,这和用户的提示词、当前的上下文都脱不开关系,而真正重要的是它知错就改的能力,在你需求描述越来越精确后,它能精准捕捉需求,并快速解决错误。

当然除了图片,视频也是可以在同一个对话框生成的。比如我可以发个图片过去,让它转成视频。



这是成品:



如果你需要,还可以一键转成 GIF,它自己调用工具生成:



所以这个机器人,现在不仅能改文案,还能帮美编作图,给后期配素材,还能给编辑配 GIF 图,只能说爽飞了啊,谁还分得清机器人和同事啊?



好了,那如果你需求没那么垂直,只想体验跟 Seed 2.0 对话怎么办?很简单,直接上火山引擎,在模型广场里找到 Doubao-Seed-2.0 全系列,点击立即体验就能用。



对了,刚咱跑分里提到一个 BrowseComp,就是考察大模型搜索犄角旮旯里信息的能力的。刚好世超也蛮需要这个功能的,咱再来试试。

刚好世超最近在研究数学,发现一个很神奇的问题,为什么圆周率π(约 3.14)的平方和g(重力加速度,约 9.8)的值那么近似?我研究了很大篇幅的资料,也没找到令我满意的答案。

于是我把我自己的想法(约 3000 字)一股脑发给了它,让它通过手里的知识库和互联网工具一一解答。



答案真是夯爆了啊,不仅解答了我的疑问,还补充了说明了彩蛋和冷知识,其实就是人类定义的问题,完全不是什么巧合。



有意思的是,我让同样擅长搜索的 Claude Opus 4.6 做了一遍这个题,然后把Seed 2.0 pro答案发了过去,它直接自愧不如了。



对了,不仅能处理文本,Seed 2.0 的多模态能力也是一等一的强。比方说,视频理解这一项,昔日王者是 Gemini 3 pro,现在 Seed 2.0 pro 也能打一打了。

比如我直接传了一个往日最佳视频过去,让 AI 进行笑点解析。



说的确实不赖,每个动作它都看清了,还能看懂乌鸦的神态。甚至能预测接下来的剧情走向。



这是 Gemini 的回答,感觉也大差不差了。



而世超觉得这个是真实用。现在视频的缺点,就是你第一眼不知道它的重点是啥,是夯还是拉你得看完才知道,而现在你能直接下载视频发给豆包,如果视频又臭又长,你也不用浪费你宝贵的时间了。

那,还有其他硬核项目吗,比如,写代码?

这次,字节跟 OpenAI 想到一块儿去了,端出了专精编程的 Doubao-Seed-2.0-Code 模型。 可能他们也统一思路了,想让 AI 成为真正的生产力,就必须专门出一个垂直模型,死磕写代码。

我这不会写代码的也试了试,我拿它撸了个手势控制的飞机小游戏,我只需要在对话框里输入几句大白话需求,Seed 2.0 Code 就像接管了我的键盘一样,唰唰把复杂的摄像头捕捉和运动计算逻辑全写完了。



现在我只要坐在屏幕前,对着摄像头挥挥手,就能直接操纵游戏里的飞机闪转腾挪。一个零基础的人在五分钟内搞定这种交互,只能说非常好用了。



看到这里,你可能以为,它也就搞搞自媒体、写点小游戏了,还有别的活吗?

比如操作 FreeCAD 建模,它不是给你丢一堆代码给你,而是直接夺舍你的鼠标,自己在屏幕上去找菜单、点图标。

最神的是,中间它操作太快没点准,不小心点错工具弹了个报错框。

结果这货在后台触发了一段“自我反思”:“我的,点错了,不小心点到了 Pocket 工具,等我关了重来。。”



这一大圈折腾下来,世超最大的感受就是:豆包这次是真的在往“六边形战士”的方向死磕。

放在以前,大伙儿一聊起多模态体验最牛的,第一反应就只有 Gemini,综合能力强到断层,你放眼望去,甚至连个能稍微抗衡一下的老二都找不出来。

但今天再看豆包,不管是文字、图片还是视频全都能接得住,理解能力也直逼第一梯队。那肉眼可见的差距,正在被进化的速度慢慢填平。

而且最关键的是,它是真会自己动手啊。遇到盲区会搜资料,需要工具会抄家伙,甚至连 CAD 都能硬啃。这就导致在跟它一来一回的拉扯中,你会感觉它越来越像一个坐在你隔壁工位、随叫随到的同事了。

回过头来看看这波 AI 浪潮,从最开始只会陪人聊天的文字窗口,到后来能看图、能听声音,再到现在直接能长出了手和脚,这种从“对话工具”向“干活帮手”的跨越,意味着硅基生命替碳基生命打黑工的齿轮,已经彻彻底底转动起来了。

往后看,各家搞军备竞赛,光靠在 PPT 上吹参数已经唬不住人了。大家真正在意的,到底是谁能替大伙儿扛下那些让人头秃的脏活累活。

所以咱能做的,也只有多配合它踏踏实实干活,继续等它进化完全的那天吧。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

夜深爱杂谈
2026-03-26 20:09:32
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

蓝鲸新闻
2026-03-26 16:18:08
痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

魔都姐姐杂谈
2026-03-26 20:54:38
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

阅尽天下大事
2026-03-26 13:16:28
学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

医学科普汇
2026-03-26 19:55:03
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

新京报
2026-03-25 21:29:45
2026-03-26 22:39:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10468文章数 489521关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
房产
亲子
艺术
军事航空

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

你好,我是馒头,快开门!

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版