热门赛道 | 文生视频，科技赋能艺术新业态|算法|模态

分享至

行业定义

文生视频（Text-to-Video）是一种利用人工智能技术将文字描述转化为视频内容的技术。与之前的文本生成图像（文生图）类似，文生视频通过深度学习模型，理解和处理文本描述，然后根据这些描述生成动态的、连贯的视频序列。这种技术的核心在于结合了自然语言处理（NLP）和计算机视觉（CV）领域的最新进展。

国外谷歌和微软等“硅谷巨头”很早就开始投入多模态视频生成的研究。去年，谷歌发布了多模态大模型Gemini和视频生成模型VideoPoet，从实际效果上展示了多模态生成视频的巨大潜力。

而在国内，多模态技术的发展方向展现出了更多的可能性。不仅有百度这样的技术积累深厚的大厂，还有大模型领域的独角兽公司智谱，以及生数科技和智象未来等以多模态大模型为目标的创业公司。

在视频生成模型领域，目前国内的创业公司大致可以分为两类。一类公司，如爱诗科技、生数科技、Morph Studio和智象未来，专注于自主研发基础大模型，致力于开发适用于多种通用场景的视频生成工具。另一类公司则包括右脑科技、李白AI实验室、毛线球科技、布尔向量和MewXAI。这一类公司数量较多，且更具产品化特点，专注于解决特定场景下的问题，更像是提供AIGC在线编辑的平台。

在文生视频技术迅速崛起的背景下，整个产业链逐渐形成，其上游、中游和下游环节各自扮演着不同的角色，共同推动着文生视频技术的发展与应用。

在上游环节，数据和素材供应是重要基础。数据提供商通过提供大规模、多样化的数据集，为文生视频模型的训练提供原材料，而素材库则为模型的生成提供了丰富的视觉元素。与此同时，AI公司专注于算法和模型的开发，致力于提升文生视频的生成效果。云计算服务商和硬件供应商也在这一环节中发挥着重要作用，提供强大的计算能力和硬件支持，确保模型训练和推理的高效进行。

进入中游，AI技术公司承担了文生视频模型训练、调优和部署工作，确保模型能够准确理解文本并生成高质量的视频。平台服务商则通过提供文生视频生成平台，使企业与个人用户可以方便地使用。同时，垂直行业应用开发商根据不同领域的需求，开发出针对性的文生视频解决方案，满足影视制作、广告创作、教育培训等多样化场景的需求。

在下游，视频制作公司开始将文生视频技术应用于实际内容创作中，借此制作广告、电影等作品的效率得到了大幅提升。媒体平台则通过广泛的分发渠道，将这些生成的视频内容传播给更广泛的受众。对于营销和广告公司来说，文生视频技术也为个性化广告的创作带来了新的可能。此外，企业客户和个人用户作为终端受众，直接体验并反馈文生视频应用的效果，这些反馈不仅帮助技术的优化，也为整个产业链的健康发展提供了市场洞察。

文生视频技术的应用场景非常广泛，包括但不限于：

1.内容创作：帮助创作者快速生成视频素材，用于电影、广告或其他形式的数字内容。

2.游戏开发：生成游戏中的动态场景或角色动画。

3.教育和培训：制作教学视频，展示复杂的概念或流程。

4.虚拟现实（VR）和增强现实（AR）：创建更为逼真的沉浸式体验。

虽然技术目前还在持续发展中，生成的视频质量和真实性可能目前也有待提升，但该项技术展现了巨大的潜力，尤其是在自动化内容生成和节省创作成本方面。

睿兽分析整理文生视频近年来的融资情况，截止2024年9月，有57家未上市公司发生融资事件166起，参与机构达280多家。文生视频近两年技术落地加速，于2023年融资事件数与融资金额都达到历年最高，其金额高达802.14亿人民币，而今年仅前8个月，融资事件数也达到25起之多。在融资轮次方面，文生视频相关公司的融资轮次多处于早期阶段。

相关企业

生数科技

北京生数科技有限公司成立于2023年3月，是一家产业级多模态大模型研发商，基于自研产业级多模态大模型，生数科技目前正面向图像创作、3D资产创建等细分场景打造垂类应用，服务范围覆盖C、B两端。

2022年，生数科技提出了全球首个融合Diffusion和Transformer架构的U-ViT模型，仅仅半年后便实现了重大突破，开源了基于这一融合架构的多模态扩散模型UniDiffuser，成功验证了大规模训练融合架构的可行性与其涌现能力。

2023年初，生数科技开源了基于Transformer架构的多模态扩散大模型UniDiffuser，这是首次在Diffusion Model（扩散模型）上应用U-ViT的Transformer架构，从而使得一个底层模型能够高质量地完成文生图、图生文、图文联合生成、图文改写等多种生成任务。

2024年4月，生数科技联合清华大学正式发布了国内首个全自研视频大模型Vidu，该模型在性能上全面对标OpenAI的Sora，在国内外引发了广泛关注并获得高度认可。

2024年6月，生数科技完成数亿元Pre-A+轮融资，此次融资由顺禧基金与百度战略投资部联合领投，中关村科学城公司等跟投，启明创投、卓源亚洲老股东持续加码，华兴资本担任本轮融资的独家财务顾问。同年3月，其完成Pre-A轮的数亿元融资，由启明创投领投，达泰资本、智谱AI、老股东BV百度风投和卓源亚洲跟投。该轮融资主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。去年8月，其完成了数千万元天使+轮融资，该轮融资由锦秋基金独家投资，资金主要用于算法研发、产品开发和团队扩充。

爱诗科技

北京爱诗科技有限公司成立于2023年4月，其致力于打造一个聚焦AIGC的视觉多模态算法平台，覆盖视觉相关的各种垂直应用场景。该平台能够支持AIGC新内容，帮用户解决内容生成、安全、版权、分发、商业化等几乎全生命周期的各项问题。爱诗科技团队成员来自清华、北大、中科院等顶级学府，曾任职于字节、快手、腾讯、微软研究院等核心技术团队。

2024年1月，爱诗科技正式推出了文生视频产品 PixVerse 的网页版，并迅速获得了全球用户的广泛关注。PixVerse 通过其出色的表现，迅速建立了稳固的创作者生态系统。该产品页面的月访问量已突破百万，并在2月份登顶全球AI产品榜（aicpb.com）的增速榜首。目前，PixVerse 的视频生成总量已超过千万次，被广泛应用于影视、广告、动漫等多个内容创作领域。爱诗科技始终以用户需求为核心，持续优化产品功能和交互体验。

2024年4月，爱诗科技正式推出了基于自研视频大模型的 C2V（Character to Video 角色一致性）功能，并已在 PixVerse 网页端上线。该功能通过精准提取人物特征，并将其深度融合到视频生成模型中，使得 PixVerse 能够锁定角色，实现连续且可控的视频生成。此功能初步解决了AI视频创作中的一致性挑战，为创作者提供了更加高效、灵活的工作流程。

2024年4月，爱诗科技完成A+轮过亿元融资，由蚂蚁集团领投。本轮融资将用于进一步迭代自研视频生成大模型，并升级团队，加快实现AI视频生成技术的行业应用。今年3月，爱诗科技完成亿级人民币A轮融资，该轮融资由国内一线投资机构达晨财智领投，光源资本担任独家财务顾问。

RightBrain AI

北京右脑科技有限公司成立于2022年9月，是一家专注于研发AI图像和视频创作工具的初创公司，致力于将AIGC技术应用于图像视频领域，以AI赋能创作。

创始团队成员均毕业于清北，是女娲、智源悟道等大模型核心成员，团队拥有业内最前沿的图像视频生成大模型的研发和落地经验。

目前，右脑科技创始团队包括多模态预训练模型女娲系列 NUWA、NUWA Infinity 的模型一作，智源悟道·文生图模型、国画模型核心贡献者和前商汤视频生成算法研究员，具备优秀的多模态、大模型技术能力，能通过模型技术持续优化，获得长期突出优势。

其中女娲（NUWA）是2021年推出的突出的多模态预训练大模型，提供了高质量的文本到图像、文本到视频以及视频预测等视觉生成能力，在 8 种跨模态合成模式下效果超过同期最好的 DALLE 等模型，成为当时多模态领域 SOTA。

目前，右脑科技是少数具备视频生成算法研发能力的公司之一，面向创作者和视觉生成的巨大需求，公司未来将持续实现更高难度的技术攻克。

2023年6月，右脑科技宣布完成数千万元天使轮融资，本轮投资方为光速光合和奇绩创坛。此次融资资金将主要用于算法研发、产品开发和团队扩充。2022年9月，其获得奇绩创坛的种子投资。

热点讯息

2024年8月，MiniMax低调发布首款文生视频模型

8月31日，MiniMax低调发布首款视频生成大模型，同时发布一条由MiniMax大模型生成的2分钟视频《魔法硬币》。值得注意的是，目前MiniMax并未公布模型的具体参数和技术要点。当天，其创始人闫俊杰在接受媒体群访时表示，“我们确实在视频模型生成方面取得很大的进展，根据内部评测以及跑分，我们比Runway的（生成视频）效果更好。”据其透露，目前的视频生成模型只是第一版，很快会有新版本，后续还会在数据、算法本身、使用细节等方面继续迭代，现在只提供文生视频。未来图生视频、文+图生成视频都会陆续出来。

2024年6月，潞晨Open-Sora开源大升级：单镜头16秒720p高清任意视频一键生成

潞晨Open-Sora团队在720p高清文生视频质量和生成时长上实现了突破性进展，支持无缝产出任意风格的高质量短片，并且，该版本继续全部开源，为开源社区带来亿点点震撼。自OpenAI Sora发布以来，业界对Sora的开放性期待值爆表，但现实却是持续的等待游戏。潞晨 Open-Sora 的开源，为文生视频的创新和发展注入了强劲的活力。访问其的github地址，即可零门槛免费获得模型权重和全套训练代码，这使用户从被动的内容消费者转变为积极的内容创造者。

2024年4月，全面对标Sora 生数科技联合清华推出国内首个纯自研视频大模型

4月27日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。据悉，该模型采用Diffusion（扩散概率模型）与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。生数科技方面介绍，与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。生数科技方面介绍，其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion（扩散概率模型）与Transformer融合的架构，完全由团队自主研发。

2024年3月，中国首部文生视频AI系列动画片《千秋诗颂》英文版发布

3月10日，由中央广播电视总台打造的中国首部文生视频AI系列动画片《千秋诗颂》英文版在总台CGTN正式上线发布，这是总台利用AI技术赋能国际传播的最新尝试。《千秋诗颂》系列动画片英文版同样采用总台最新AI技术译制配音完成。总台CGTN运用AI语言模型对中文脚本进行翻译润色，配音过程使用文生声、声线克隆、AI视频处理等技术，出色还原了中文配音的音色和情感。

2024年2月，奥特曼再放大招！OpenAI发布首个文生视频模型Sora

2月16日，全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型，命名为Sora。此前在2023年轰轰烈烈的多模态AI模型竞赛中，谷歌、Meta和初创公司Runway、Pika Labs都发布过类似的模型。但本次OpenAI展示的视频仍然以高质量获得关注。Sora能够从文本说明中生成长达60秒的视频，并能够提供具有多个角色，特定类型的动作和详细的背景细节的场景。Sora还能在一个生成的视频中创建多个镜头，体现人物和视觉风格。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.