梅涛的“全模态”野心：站在科创高地，打造世界模型第一梯队|智能体|多模态|人工智能

分享至

编者按

十年来，合肥发生了翻天覆地的变化，而诞生于这片热土的科大硅谷也走过了从0到1的头三年。十年间，安徽加快科技创新和产业转型升级，发挥高能级科创平台作用，推动创新链产业链资金链人才链深度融合，因地制宜发展新质生产力，推动安徽从“科教大省”迈向“科创高地”。

科大硅谷正是合肥科创生态中一块重要的试验田。成立三年来，这片以“创新”为基因的科创沃土，汇聚了一批敢闯敢干的科技企业——从打破国外垄断的电感式传感器，到赋能千行百业的量子安全智能印章，再到大模型技术创新公司智象未来，它们用硬核技术和真实场景，回应着“原始创新如何转化为新质生产力”的时代之问。

为此，我们特别推出系列报道，走进科大硅谷园区企业智象未来，透过它落子安徽、在科交会上发布新一代全模态世界模型的成长故事，一窥合肥依托高能级平台培育新质生产力的生动实践。

四月的合肥滨湖国际会展中心，第四届中国（安徽）科技创新成果转化交易会正在举行。开幕式上，一段长达数分钟的科幻风格短片让不少观众误以为是专业团队的作品——从梦幻的巨鲸入水，到宏大的星际穿越，画面质感丝毫不输实拍。

很少有人知道，这部片子是在智象未来的AI平台上生成的。“如果是传统方式，起码一个月起步。”智象未来品牌负责人说。而AI生成让“所见即所得”成为可能——昨天提出的修改意见，今天上午就能看到成片。

这正是智象未来想要在科交会上展示的核心能力。当天，这家位于合肥科大硅谷的AI公司一口气发布了新一代原生全模态世界模型架构HiDream-O1、图像大模型HiDream-O1-Image，以及三款AIGC智能体新品：面向影视专业团队的专业级AI影视创作协作智能体“帧赞”、商业营销工具“HiBurst”和OPC创作工具“vivago”。

在科交会现场，智象未来创始人兼CEO、加拿大工程院外籍院士梅涛接受了专访。他身上叠加了多重硬核身份：加拿大工程院外籍院士，ACM、IEEE、IAPR及CAAI四会Fellow，早年供职于微软亚洲研究院，后出任京东集团副总裁。三年前，他选择离开大厂，开启第一次创业。

“在安徽落子，这一步走对了”

2023年，梅涛做了一个在外界看来颇为大胆的决定：将公司的业务与研发力量进一步布局到安徽，落在科大硅谷片区。

“我们原来在安徽的布局不算多，这几年逐步加大投入，这一步走得挺对的。”梅涛直言。在他看来，安徽对人工智能的认知水平“从领导层到执行层高度一致，行动非常快”，企业得到了从省市区三级联动的大力支持。

“人工智能这个领域，认知是最重要的。你的认知水平到了，才能制定跟得上形势、甚至比行业更快的政策。”梅涛说。他观察到，安徽不仅出台了“人工智能+”行动计划，而且执行力强——省人工智能专班、科技厅、市科技局与智象未来保持常态联动，在数据、模型备案、应用场景等方面持续对接。

就在科交会前夕，智象未来完成超5亿元新一轮融资，由东方富海、安徽省投资集团旗下省产业投资公司，峰华资本等新股东联合投资，合肥产投、兴泰集团、安徽省人工智能母基金等老股东持续加注。资金将主要用于下一代原生全模态世界模型研发、企业服务智能体产品建设以及全球市场拓展。

资本的持续加注，源于对技术路线的认同。在访谈中，梅涛系统阐述了他对世界模型的理解：“大语言模型不可能走向AGI，因为它无法指导机器与真实世界的交互。”他认为，真正的世界模型必须能够对物理世界进行表达、建模、推理和反馈。AI行业经常说“model the world”，而梅涛认为更应该是“mold the world”——塑造世界。

他进一步解释，下一代大模型竞争的关键，不是单一模态能力的叠加，而是能否从多模态走向全模态，以原生统一架构对真实物理世界进行统一建模。在他看来，当前市面上的多数模型仍停留在“理解”层面，而真正的世界模型要能够“生成”和“交互”。“视频是通向世界模型的最佳入口，”梅涛说，“因为它包含了时间维度和物理规律，比静态图像更接近真实世界的运行逻辑。”

正是基于这一判断，智象未来选择了差异化的技术路线。梅涛明确表示，公司不做通用大模型的正面PK，不拼大语言模型，而是聚焦视觉生成和多模态。他解释道，图像是世界建模的空间基底——定格了真实世界瞬时时刻的完整状态信息。以图像为支点，才能向视频、3D乃至具身智能等全模态方向逐步延伸。这是智象未来“以图入视、以视入世”的核心逻辑。

过去三年，公司沿着这一方向持续迭代。本次科交会上发布的千亿参数级HiDream-O1-Image，在六个国际标准评测中均达到SOTA，超过多家国际主流模型。但梅涛坦言，技术的突破只是起点，“我们希望能持续保持在全球第一梯队，不能掉队。”

聚焦“生产力场景”

在梅涛看来，当前AI行业竞争格局可以分为三个层次：第一层是大流量平台（字节、Google等），第二层是底层大模型研发（OpenAI、DeepSeek等），第三层是应用层。智象未来选择了跨越第二层和第三层——既做差异化的底座模型，也做行业应用，形成“双轮驱动”。

基于这一理念，智象未来构建了“1+1+3”的业务架构：一个HiDream系列原生全模态大模型底座，一个HiHarness Hub平台提供标准化模型能力输出，在此之上延伸出三大场景应用——影视创作的“帧赞”、商业营销的“HiBurst”、社媒创作的“vivago”。

商业化的起点是用户规模。梅涛在采访中透露，公司的专业创作者工具已覆盖全球4000万用户，服务100多个国家和地区。在营收上，2025年他们全年收入超过1 亿元，而2026年收入在倍数级增长

为什么能做到高API占比？他解释道，智象未来的产品定位是“生产力场景”而非纯娱乐。“周一到周五使用频率更高，用户把它当成工作流工具，而不是刷着玩的。”这种定位让用户愿意为效率付费，而非仅为消遣买单。

在产品层面，三大智能体各有清晰的商业逻辑。面向专业创作者的社媒创作工具，目前海外用户占比70%至80%，“今年单月新增用户就超过千万”。梅涛特别提到一个趋势：“UGC（普通用户）向PUGC（专业用户）的迁移越来越明显，是我们要重点争夺的市场。”

对于主攻商业内容营销的HiBurst，梅涛给出了一个关键细节：“我们是TikTok前五大AI合作伙伴，也支持Meta、抖音、小红书等主流平台。”他解释，电商卖家最大的痛点是视频制作慢、成本高、转化率不确定。HiBurst通过AI批量生成营销视频，同时提供软硬件一体化方案——智能终端HiDreamFans“一季度卖了超过万台，预计今年实现倍数级增长”。“线上+线下、软件+硬件”的模式，在AI公司中并不多见。

服务专业影视创作的“帧赞”，梅涛的思考更为深入。他反复强调，产品设计必须尊重行业原有流程：“影视创作几百年沉淀下来的——剧本、分镜、拍摄、后期——不可能被颠覆。我们要做的是加速它、协作化它。”因此，“帧赞”不是单兵工具，而是一个团队协作平台：导演、制片、分镜师、后期师可以在同一系统里分工协作，系统自动记录每个人的效率和成本，同时沉淀版权素材供复用。“我们希望用户把更多时间放在创意本身，而不是等别人拍出来。”

他举例说，采用“帧赞”技术支持的短剧《秦岭青铜诡事录》，“上线12小时就冲到腾讯视频竖屏热播榜”。目前“帧赞”已完成5000分钟AI剧集制作，有1000多家专业创作团队入驻。

当下，图像视频是AI应用竞争最为激烈的市场之一。面对海内外的对手们，梅涛的策略清晰且务实：“海外竞争拼的是产品创新力，国内竞争拼的是商业化速度和成本控制。”

他透露，智象未来不做“大而全”，而是聚焦“生产力场景”；在产品迭代上，沿着“长视频、实时交互、画质提升”三个方向持续投入。当被问及具体目标时，梅涛给出了一个明确的数字：“特别是图片模型，要做到全球前三。”

“未来3到5年，我们的目标是服务超过100万家企业，日活用户达到百万级别。”他表示。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

梅涛的“全模态”野心：站在科创高地，打造世界模型第一梯队