对刚经历“6·18”的电商而言,AI生图代替棚拍已不稀奇:复杂的工作流都被浓缩进对话框里,几分钟就能搞定。不过它也常“弄巧成拙”,出现货品细节失真、手部关系错乱等硬伤。
“目前大部分视觉模型精确度不足,更多只能用于娱乐。”深圳兔展智能科技有限公司创始人、董事长兼CEO董少灵解释,这是因为视觉理解、生成、编辑这三个核心环节由不同模型独立完成,相当于模型只处理了图像却不理解内容,导致画面主体和结构很容易漂移。
针对这一痛点,兔展智能的解法是让模型先“看懂”再“动手”。其UniWorld系列将上述三个环节统一到一个架构中,让模型先吃透物体结构、材质与空间关系,再精准生成,保证信息准确。目前,该系列产品已在电商等场景中形成规模化应用。
回看公司创立至今,兔展智能几乎每一步都踩在技术变革节点上。
2015年,它定义了移动端的H5,推出的零代码编辑器风靡微信朋友圈;2023年切入视觉大模型赛道,发布多模态大模型“兔灵”;2025年推出国内首个开源视觉理解与生成统一模型UniWorld-V1,如今已迭代至V2.5并在业内规模化落地,还形成“AI大模型+应用工具”的技术出海模式。
更大范围来看,兔展智能的转向也与广东人工智能产业发展同频。2015年广东发布《广东省智能制造发展规划(2015—2025年)》,将智能化作为制造业升级的主攻方向。到2025年,广东人工智能核心产业规模已突破3000亿元,总量约占全国1/4;122个大模型通过国家备案,430余个行业模型落地应用。
视觉大模型需要“精确美学”
今年4月,兔展智能在广东省人工智能应用对接大会上正式发布了UniWorld-V2.5,这是UniWorld系列第三代产品,即将进入公测阶段。
董少灵介绍,UniWorld-V2.5在物体一致性、局部可控编辑、复杂文字生成、结构化画面生成等方面更适合商业生产,适用于日常创意、财经报告等多个场景。用户能发语音或参考图,驱动其生成并编辑。有趣的是,它还能在输入信息不足时主动追问,更像一位设计师助理。
“UniWorld不是在‘画’一张看起来像的图,而是在理解并构建一个完整的信息体系。”在董少灵看来,用户真正需要的不是一次性的随机出图,而是可编辑、可复用、可批量生产、可商用的内容资产。
近几年,视觉大模型赛道的主流趋势正在改变。据了解,OpenAI的GPT-Image系列、DeepMind与何恺明团队合作的Nano Banana/Vision Banana,都在尝试打通理解与生成之间的壁垒。“这是视觉大模型从‘玩具’走向‘工具’的必经之路,已成为业界共识。”董少灵表示。
UniWorld是这条路上起步较早的模型之一。据介绍,2023年启动研发的V1版本早于Nano Banana三个月推出;V2版本的综合性能超越OpenAI的GPT-Image-1,而V2.5在物理一致性和复杂场景的生成控制上实现质的飞跃,与GPT-Image-2生成能力持平,且基础功能定价远低于GPT-Image-2。
同时,面对OpenAI、谷歌等巨头,兔展智能坚持错位竞争,聚焦商业确定性更强、交付链条更深的ToB和ToG场景,将十多年企业服务经验、真实客户场景和可落地产品相结合,形成闭环。
“兔展智能从一开始就把视觉大模型定位为效率工具,而非泛娱乐产品。”董少灵将其技术追求概括为“精确美学”。
正是这一务实定位,让UniWorld系列得以快速走向商业落地。例如,兔展智能依托UniWorld推出AI商品图工具AnyReal。品牌方只需提供产品环拍素材,即可生成还原度达95%至98%的商品图,直接上架亚马逊等平台,成本直降80%,目前已服务数十个品牌。据悉,2025年,兔展智能AI商业化年签约额突破1亿元,月复合增长率超60%。
兔展智能的技术创新及规模化应用,与广东人工智能产业的生态优势密不可分。
“深圳完整的制造业、消费电子和跨境电商生态,提供了大量真实的商品与需求数据,可用于喂养和打磨视觉AI模型。广东的产业链数据则为‘精确美学’提供了天然土壤,帮助模型在细分品类上持续优化。”董少灵说。
他还提到,大湾区创新人才的高度集聚,也为公司搭建AI人才培养体系提供关键助力。据悉,兔展智能被评为广东省首个“AI国家级高技能人才培训基地”,重点培养AI设计师和AI前沿部署工程师。基地从真实项目切入,让学员接触真实订单和交付标准,达到商业要求后以“一人公司”或“超级个体”的方式接入生产网络。
“在视觉基础大模型这一决定未来AI走向的赛道上,来自深圳及广东的团队不仅没有缺席,而且正处于领跑的第一阵营。”董少灵表示,只要坚持面向真实产业需求,广东完全有机会持续保持这一地位。
AI进入“边聊边办”实用逻辑
广东省人工智能应用对接大会上,兔展智能同时发布了SkillsUI交互体系。董少灵打了个比方:它不是一个只会接话茬的聊天框,而是一个在所有智慧屏上都能跑的“任务型原生AI交互助手”。用户一句话交代需求,它一边实时生成操作界面,一边帮用户把事情办完。
为什么一家专注视觉大模型的公司,要做一个“能办事”的交互平台?
这主要源于兔展智能对于人机交互演进的判断。在董少灵看来,人机交互正经历根本性转变:从图形用户界面(GUI)走向意图界面(IUI)。“过去是人学习机器,需要理解菜单、找到按钮、填写表单;未来则是机器理解人,能听懂指令、看懂环境、理解意图。相应地,AI也从基于文本生成的‘Chat’时代迈向基于任务执行的‘Action’时代。”
能看懂环境、理解意图的前提,是AI具备视觉与空间智能。视觉大模型的能力远不止于生图,更是AI感知世界、进而完成指令的基础。
因此,兔展智能将战略从UniWorld延伸至SkillsUI。“UniWorld是‘眼睛’,赋予AI理解物理世界的能力;SkillsUI是‘双手’,将感知结果通过动态生成可操作界面等方式,无缝输出至终端。两者协同,构成‘理解—生成—执行’的闭环。”董少灵表示。
具体来看,SkillsUI的运行逻辑是,把传统App、小程序的功能拆解成原子化Skill和标准化工作流,让用户通过自然语言调用底层服务,把多步跳转变成“边聊边办”。
今年4月,广东发布《广东省加快推进人工智能全域全时全行业高水平应用行动方案》,围绕“人工智能+”科学研究、传统产业、新兴产业、治理能力、民生福祉等七大方向作出系统部署,其中提到推动“人工智能+”医疗卫生、教育教学、养老、托育等各行业发展。
“广东AI产业的竞争,正在从生成能力转向解决问题的能力。”董少灵表示,过去大家关注的是AI能生成什么、能回答什么;现在更多客户关心的是AI能否真正降本增效,能否进入到各领域具体的工作流。
其SkillsUI系列产品已在多个领域跑通。在政务领域,平台与“i深圳”对接。市民办理“灵活就业参保登记”,不用再面对20多步的固定表单,而是通过几轮对话和AI生成的动态卡片,边聊边办、全程得到指引。在医疗领域,通过对试点医院挂号系统的解构,患者只需描述症状,AI即可调用“科室推荐”“预约取号”“在线支付”等功能,动态生成一张综合服务卡片,一站式完成就医流程。
就在去年,兔展智能还随政府代表团走访卡塔尔与科威特,回国不到一个月,订单便追了过来:阿联酋国家安全委采购识别AI造假的解决方案,卡塔尔电视台有意引入视频生成和自动化剪辑产品。董少灵透露,公司已在中东落地分公司。
“相比传统SaaS(Software as a Service)出海将标准化软件翻译后销售的模式,我们实现了‘AI大模型+AI应用工具’的技术出海,以AI原生应用参与客户业务流程重构。”董少灵说。
这套逻辑的落地能力,在资本市场得到了验证。今年5月,兔展智能宣布连续完成E、F轮数亿元人民币融资,嘉道资本、龙岗金控、中国风投、南山战新投等十余家机构参与。公司已服务超4100万家企业用户。此次融资后,企业将正式进行股份制改革,并计划于今年赴香港上市。
董少灵表示,当前资本市场对AI的判断越来越理性,真正有价值的AI公司必须回答一个更本质的问题:能不能把AI能力转化为企业真实可用、可交付、可复购、可规模化的生产力系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.