![]()
人类认识世界,从来都是从"看见"开始,而非"提问"。
但过去两年,主流AI交互偏偏反着来——用户得先在输入框里组织语言,AI才肯开口。这种对话式交互效率不低,却像逼着一个视觉动物退化回文字时代。
2025年成立的Chance AI想把这个顺序颠倒回来。它不做聊天机器人,而是做Visual Agent(视觉智能体):打开摄像头,AI直接"看"你眼前的东西,实时推理。
创始人曾熙的产品履历横跨一加、OPPO、字节三家公司。在Flow部门参与豆包从0到1的经历,让他看清一个缺口:大模型擅长生成和回答,但对"人类如何用视觉理解现实"几乎空白。
今年1月离职,3月注册,7月运营,9月上线。节奏快得像手机行业的迭代周期。
实际用起来,Chance AI的场景散得惊人:逛展解读艺术品、购物分析穿搭、识别卡牌版本、检测皮肤状态、拍菜单、识植物、看宠物。曾熙说,团队预设的功能不到三成,剩下全是用户自己"发明"的用法——有人拿它拍皮肤,有人用它吐槽,纽约大学一个潮流社团甚至6小时内就等到了特定卡牌的识别功能。
技术上,其Visual Agent在MMMU-Pro多模态推理评测中拿了86.07分,目前世界第一。
今年3月,Chance AI成为Art Central官方AI合作伙伴,AI首次介入国际大型艺术展的"观看过程"。观众对准艺术品,AI边"看"边聊。支撑这套体验的是刚推出的Live模式——把知识检索、内容对比、上下文理解、多能力调度打包成一个实时响应的系统,不是简单的"识别这是什么",而是"看懂并参与"。
全球下载量20万,月活4-6万,几乎零投放。核心用户是25岁以下的年轻人。
曾熙的下一步是北美学生群体,但不是砸钱买量,而是扎进社群找真实场景。这位硬件出身的产品人,产品路线图里始终写着"软硬一体"——他认为终极形态应该是一颗包揽所有视觉信息的摄像头,"起点没有输入框,起点就是看"。
被问到与Google、OpenAI的差异化时,他的回答很产品经理:护城河不是模型参数,而是跟用户的距离。"你要做到6小时响应一个大学社团,巨头做不到。"
商业模式有三条线在跑:高级订阅、硬件授权、谨慎尝试的广告推荐。但优先级最高的是养成习惯——让用户看到什么都先拍一拍。成为入口,钱会自己来。
至于自研硬件?曾熙说等供应链成熟会"奋不顾身杀进去",但不为做而做。"我们的本质是视觉推理,Live只是其中一种形态。"
一位纽约大学用户在App Store留言:以前逛展要查半天资料,现在举着手机就像带了个懂艺术的朋友。这个反馈被团队截图发在了内部群——对他们来说,这比评测分数更实在。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.