![]()
2月17日晚8点,马年春晚准时开场,火山引擎数据中心进入了最为紧张的时刻。
与往年不同,这一次服务器面临的挑战不仅仅是视频流的分发,根据春晚后公布的数据,除夕当天,豆包AI互动总数高达19亿次,直播的某一秒,当舞台上的水墨画随风而动时,或许正有一个观众在豆包上输入了生成一张赛博风格全家福的指令。
算力服务器集群必须在毫秒级内完成数千万亿次浮点运算,确保用户手机上的图片在数秒内生成。
所以,在2026年马年春晚的舞台上,“豆包们”都在做什么?又是怎么做到的?
在节目《驭风歌》中,导演组要求背景中的水墨画必须动态化,画中的马匹不仅要跑起来,且数量、形态不能有任何偏差。
这创意难就难在审美,市面上的海外视频生成模型大多基于写实风格训练,无法理解中国水墨画的留白与晕染逻辑。
直接生成的视频往往像生硬的3D贴图,破坏了原作的二维质感。
豆包Seedance 2.0团队在训练阶段输入了大量中国传统文化语料,模型因此建立了对水墨笔触的理解。
最终呈现在舞台背景上的画面,马匹在奔跑时保留了墨色晕染的动态变化,画面没有出现常见的结构崩坏。
![]()
在视频生成之前,豆包图像创作模型Seedream 5.0 Lite还承担了关键帧的设计工作。
它根据导演的草图布局,生成了兼具原画神韵与新构图的静态图像,为后续的视频生成提供了符合逻辑的蓝本。
除了风格迁移,视频生成技术面临的另一个通病是违反物理规律。在以往的AI视频中,人物或动物在运动时常出现滑步、肢体扭曲或穿模现象,而在《驭风歌》的奔跑画面中,马匹的四肢关节运动、受力反馈十分符合生物学结构。
![]()
这种对物理规律的控制力延续到了《快乐小马》这一节目中。
这一节目把真人的街舞动作安在四足卡通形象上,站在技术角度来看,核心难点在于两者的拓扑结构截然不同,一个是双足直立,一个是四足着地。
传统的动画制作流程需要为每个舞蹈动作进行3D骨骼绑定和手动K帧,工作量以周计算。Seedance 2.0通过对骨架结构的智能匹配,理解了动作背后的运动逻辑,直接让四足卡通形象模仿了双足真人的舞蹈动作,且保持了卡通形象的材质和外观细节不发生劣化。
![]()
这种对动作的理解力同样体现在节目《贺花神》中。
在舞台上,《贺花神》展现了植物缓慢绽放的微观细节,镜头伴随复杂的光影变化,Seedance 2.0很好地执行了这些复杂的视觉指令,画面没有出现噪点和抖动。
![]()
在节目《梦底》中,舞台上出现了数个和主演一模一样的数字分身。
这些分身拥有真实的立体结构,当现场摄像机进行推拉摇移时,观众可以看到分身的侧脸轮廓和光影变化符合透视规律。
![]()
为了实现多人同台渲染的性能优化,技术团队利用字节Seed3D模型提前生成了影子的几何外壳,大幅降低了实时计算量,同时,通过字节DA3模型提供的深度信息,系统实现了虚拟灯光与现场物理灯光的毫秒级同步,确保了数字分身的影子能随现场灯光变化而变化。
![]()
如果说舞台背景的视频生成是事前制作,那么直播期间的AI互动则是对算力基础设施的一场大考。
传统的春晚互动,无论是摇一摇还是抢红包,在技术上属于IO密集型任务,其本质是数据库的读写操作,系统发放的是预设好的库存金额。
今年的AI互动形式发生了质变。
数据显示,仅在除夕当天,豆包面向全国观众送出了10万份科技好礼,“豆包过年”活动帮助用户生成了超过5000万张新春主题头像和超过1亿条新春祝福。
用户在豆包App中上传图片、生成拜年图或祝福语,属于计算密集型任务。这是一条实时创作的链路,先感知用户的开放式指令,再规划执行链路,最后调用多个模型实时生成内容。
面对这种级别的吞吐,火山引擎方舟平台采用了集群联邦技术,将物理隔离的数十个机房打通,在调度系统中,不同机房的资源水位被实时监控。系统感知底层异构硬件的拓扑结构,利用亲和性装箱算法,将任务分配给最合适的芯片,即便在流量波动剧烈时,联邦调度器也能实现秒级跨机房资源平移。
即使模型生成了视频,距离春晚大屏的播出标准仍有差距。目前Seedance 2.0的原生输出规格为720P分辨率和24帧率,而春晚大屏的播出标准是8K分辨率和50帧率。
补齐这一规格差距的是火山引擎视频云技术,基于火山引擎 MIPP 多维度智能画质增强框架,技术团队利用超分算法,在不改变画面内容的情况下提升分辨率,通过插帧服务,将视频帧率提升至50帧。
具身智能是马年春晚的绝对主角,相比起蛇年春晚,马年舞台上出现的机器人展示了更自然的交互能力,以往的机器人语音交互常带有明显的机械感,语气平淡,缺乏情感起伏,而此次登台的机器人接入了豆包语音合成模型2.0。
![]()
该模型具备深度语义理解能力,能够根据文本内容自动调整语气和停顿,机器人在讲笑话和讲故事时,声音的情绪表达截然不同,交互体验接近真实的人际沟通,结合豆包模型的视觉理解能力,马年春晚上的机器人能够实时识别前方人员的衣着颜色并进行避障决策,实现了眼、脑、口的协同。
![]()
在这个除夕夜,舞台上的机器人在表演,它们遵循着既定的程序,为观众提供娱乐,而在看不见的后台,豆包大模型在工作,它处理着数亿万用户实时的请求,支撑着创意的落地。
相比于台前的表演,这种在幕后的实战,或许才是AI技术真正成熟的开始。
(作者 郑晨烨)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.