![]()
![]()
![]()
周叔最近翻了不少2025年下半年的行业动态,发现一个趋势越来越清晰:多模态AI正从实验室走向产品决策的核心。
![]()
它不再是算法工程师闭门调参的玩具,而是产品经理必须参与设计的能力底座。
比如,阿里巴巴千问APP在12月初集成Wan 2.5视频生成模型和Qwen-Image 2511生图模型后,日均调用量突破3亿次,单日用户创作量达到ChatGPT视频功能的17倍。
![]()
再看教育领域,天立启鸣的AI学伴系统通过分析学生答题时的表情、书写速度、语音反馈等多模态数据。
![]()
在高考冲刺营中实现81%的能力提升率,平均提分50分,甚至助力云南彝良县打破百年清北录取零纪录。
这背后,不是模型更“聪明”,而是它终于学会了像老师一样“观察”。
![]()
从另一个角度看,多模态的本质,是让AI拥有接近人类的感知结构。
![]()
很多人以为多模态就是“能看图+能听声”,但周叔告诉你,真正的难点不在技术,而在判断力。
![]()
举个例子:商汤科技12月发布的Seko2.0多模态生成智能体,能制作短剧《婉心计》,登顶抖音AI短剧榜。
它厉害在哪?不只是生成画面,而是通过SekoTalk技术实现多人对话的声型同步,用负参考图解决角色一致性问题。
![]()
这意味着模型必须知道“哪些细节要保留,哪些可以忽略”。
![]()
模型看到“红色圆形物体”,不用查字典就知道可能是苹果,而不是靠后期拼接模块硬凑。
说白了,多模态产品拼的不是参数量,而是对真实场景的理解深度。
用户要的不是“高清画质”,而是“这张图能不能打动客户”;不是“语音识别准确”,而是“这句话听起来是不是真诚”。
![]()
这些判断,必须由产品团队和AI共同完成。
更关键的是,评测标准也在变。
2025年9月,国内四家权威机构联合发布《通用大模型评测体系2.0》,将评测任务从481项猛增至1186项,重点考核AI能否看懂CT片、听懂课堂讲解、理解视频叙事逻辑。
![]()
上海人工智能实验室的“司南评测”甚至要求模型在医疗场景中模拟医患对话——错一句用药建议,直接一票否决。
这说明什么?AI不能再靠刷题拿高分,必须真刀真枪“下场干活”。
![]()
![]()
它不再满足于复述知识,而是试图理解光影中的情绪、声音里的犹豫、动作背后的意图。
这场变革的核心,不是让机器更强大,而是让技术更谦卑——谦卑到愿意用人类的方式去感知世界。
当AI学会“看”红灯、“听”语气、“读”表情,它才真正有资格成为我们生活中的伙伴,而非工具。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.