广东视觉模型精细化突围：先“看懂”再“动手”，设计降本80%|工作流|全模态|人机交互

广东视觉模型精细化突围：先“看懂”再“动手”，设计降本80%

分享至

对刚经历“6·18”的电商而言，AI生图代替棚拍已不稀奇：复杂的工作流都被浓缩进对话框里，几分钟就能搞定。不过它也常“弄巧成拙”，出现货品细节失真、手部关系错乱等硬伤。

“目前大部分视觉模型精确度不足，更多只能用于娱乐。”深圳兔展智能科技有限公司创始人、董事长兼CEO董少灵解释，这是因为视觉理解、生成、编辑这三个核心环节由不同模型独立完成，相当于模型只处理了图像却不理解内容，导致画面主体和结构很容易漂移。

针对这一痛点，兔展智能的解法是让模型先“看懂”再“动手”。其UniWorld系列将上述三个环节统一到一个架构中，让模型先吃透物体结构、材质与空间关系，再精准生成，保证信息准确。目前，该系列产品已在电商等场景中形成规模化应用。

回看公司创立至今，兔展智能几乎每一步都踩在技术变革节点上。

2015年，它定义了移动端的H5，推出的零代码编辑器风靡微信朋友圈；2023年切入视觉大模型赛道，发布多模态大模型“兔灵”；2025年推出国内首个开源视觉理解与生成统一模型UniWorld-V1，如今已迭代至V2.5并在业内规模化落地，还形成“AI大模型+应用工具”的技术出海模式。

更大范围来看，兔展智能的转向也与广东人工智能产业发展同频。2015年广东发布《广东省智能制造发展规划（2015—2025年）》，将智能化作为制造业升级的主攻方向。到2025年，广东人工智能核心产业规模已突破3000亿元，总量约占全国1/4；122个大模型通过国家备案，430余个行业模型落地应用。

视觉大模型需要“精确美学”

今年4月，兔展智能在广东省人工智能应用对接大会上正式发布了UniWorld-V2.5，这是UniWorld系列第三代产品，即将进入公测阶段。

董少灵介绍，UniWorld-V2.5在物体一致性、局部可控编辑、复杂文字生成、结构化画面生成等方面更适合商业生产，适用于日常创意、财经报告等多个场景。用户能发语音或参考图，驱动其生成并编辑。有趣的是，它还能在输入信息不足时主动追问，更像一位设计师助理。

“UniWorld不是在‘画’一张看起来像的图，而是在理解并构建一个完整的信息体系。”在董少灵看来，用户真正需要的不是一次性的随机出图，而是可编辑、可复用、可批量生产、可商用的内容资产。

近几年，视觉大模型赛道的主流趋势正在改变。据了解，OpenAI的GPT-Image系列、DeepMind与何恺明团队合作的Nano Banana/Vision Banana，都在尝试打通理解与生成之间的壁垒。“这是视觉大模型从‘玩具’走向‘工具’的必经之路，已成为业界共识。”董少灵表示。

UniWorld是这条路上起步较早的模型之一。据介绍，2023年启动研发的V1版本早于Nano Banana三个月推出；V2版本的综合性能超越OpenAI的GPT-Image-1，而V2.5在物理一致性和复杂场景的生成控制上实现质的飞跃，与GPT-Image-2生成能力持平，且基础功能定价远低于GPT-Image-2。

同时，面对OpenAI、谷歌等巨头，兔展智能坚持错位竞争，聚焦商业确定性更强、交付链条更深的ToB和ToG场景，将十多年企业服务经验、真实客户场景和可落地产品相结合，形成闭环。

“兔展智能从一开始就把视觉大模型定位为效率工具，而非泛娱乐产品。”董少灵将其技术追求概括为“精确美学”。

正是这一务实定位，让UniWorld系列得以快速走向商业落地。例如，兔展智能依托UniWorld推出AI商品图工具AnyReal。品牌方只需提供产品环拍素材，即可生成还原度达95%至98%的商品图，直接上架亚马逊等平台，成本直降80%，目前已服务数十个品牌。据悉，2025年，兔展智能AI商业化年签约额突破1亿元，月复合增长率超60%。

兔展智能的技术创新及规模化应用，与广东人工智能产业的生态优势密不可分。

“深圳完整的制造业、消费电子和跨境电商生态，提供了大量真实的商品与需求数据，可用于喂养和打磨视觉AI模型。广东的产业链数据则为‘精确美学’提供了天然土壤，帮助模型在细分品类上持续优化。”董少灵说。

他还提到，大湾区创新人才的高度集聚，也为公司搭建AI人才培养体系提供关键助力。据悉，兔展智能被评为广东省首个“AI国家级高技能人才培训基地”，重点培养AI设计师和AI前沿部署工程师。基地从真实项目切入，让学员接触真实订单和交付标准，达到商业要求后以“一人公司”或“超级个体”的方式接入生产网络。

“在视觉基础大模型这一决定未来AI走向的赛道上，来自深圳及广东的团队不仅没有缺席，而且正处于领跑的第一阵营。”董少灵表示，只要坚持面向真实产业需求，广东完全有机会持续保持这一地位。

AI进入“边聊边办”实用逻辑

广东省人工智能应用对接大会上，兔展智能同时发布了SkillsUI交互体系。董少灵打了个比方：它不是一个只会接话茬的聊天框，而是一个在所有智慧屏上都能跑的“任务型原生AI交互助手”。用户一句话交代需求，它一边实时生成操作界面，一边帮用户把事情办完。

为什么一家专注视觉大模型的公司，要做一个“能办事”的交互平台？

这主要源于兔展智能对于人机交互演进的判断。在董少灵看来，人机交互正经历根本性转变：从图形用户界面（GUI）走向意图界面（IUI）。“过去是人学习机器，需要理解菜单、找到按钮、填写表单；未来则是机器理解人，能听懂指令、看懂环境、理解意图。相应地，AI也从基于文本生成的‘Chat’时代迈向基于任务执行的‘Action’时代。”

能看懂环境、理解意图的前提，是AI具备视觉与空间智能。视觉大模型的能力远不止于生图，更是AI感知世界、进而完成指令的基础。

因此，兔展智能将战略从UniWorld延伸至SkillsUI。“UniWorld是‘眼睛’，赋予AI理解物理世界的能力；SkillsUI是‘双手’，将感知结果通过动态生成可操作界面等方式，无缝输出至终端。两者协同，构成‘理解—生成—执行’的闭环。”董少灵表示。

具体来看，SkillsUI的运行逻辑是，把传统App、小程序的功能拆解成原子化Skill和标准化工作流，让用户通过自然语言调用底层服务，把多步跳转变成“边聊边办”。

今年4月，广东发布《广东省加快推进人工智能全域全时全行业高水平应用行动方案》，围绕“人工智能+”科学研究、传统产业、新兴产业、治理能力、民生福祉等七大方向作出系统部署，其中提到推动“人工智能+”医疗卫生、教育教学、养老、托育等各行业发展。

“广东AI产业的竞争，正在从生成能力转向解决问题的能力。”董少灵表示，过去大家关注的是AI能生成什么、能回答什么；现在更多客户关心的是AI能否真正降本增效，能否进入到各领域具体的工作流。

其SkillsUI系列产品已在多个领域跑通。在政务领域，平台与“i深圳”对接。市民办理“灵活就业参保登记”，不用再面对20多步的固定表单，而是通过几轮对话和AI生成的动态卡片，边聊边办、全程得到指引。在医疗领域，通过对试点医院挂号系统的解构，患者只需描述症状，AI即可调用“科室推荐”“预约取号”“在线支付”等功能，动态生成一张综合服务卡片，一站式完成就医流程。

就在去年，兔展智能还随政府代表团走访卡塔尔与科威特，回国不到一个月，订单便追了过来：阿联酋国家安全委采购识别AI造假的解决方案，卡塔尔电视台有意引入视频生成和自动化剪辑产品。董少灵透露，公司已在中东落地分公司。

“相比传统SaaS（Software as a Service）出海将标准化软件翻译后销售的模式，我们实现了‘AI大模型+AI应用工具’的技术出海，以AI原生应用参与客户业务流程重构。”董少灵说。

这套逻辑的落地能力，在资本市场得到了验证。今年5月，兔展智能宣布连续完成E、F轮数亿元人民币融资，嘉道资本、龙岗金控、中国风投、南山战新投等十余家机构参与。公司已服务超4100万家企业用户。此次融资后，企业将正式进行股份制改革，并计划于今年赴香港上市。

董少灵表示，当前资本市场对AI的判断越来越理性，真正有价值的AI公司必须回答一个更本质的问题：能不能把AI能力转化为企业真实可用、可交付、可复购、可规模化的生产力系统。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.