
2025,AI眼镜元年。
Meta 在 9 月发布了首款带显示屏的智能眼镜 Ray-Ban Display,小米也在 6 月推出了售价 1999 元的“年轻人第一副智能眼镜”。更不用说,早已深耕多年的雷鸟、Rokid,以及跃跃欲试的百度、阿里。
几乎所有人,都在“卷视觉”。但就在行业向 AR 显示一边倒时,有一家公司却反其道而行:不强调看得见,而是押注“听得懂”。
它叫 Sesame,不仅专注语音技术打造AI眼镜,还刚刚拿下红杉领投的 2.5 亿美元融资。
相比市面上 AI 眼镜多以语音作为功能入口(如翻译、通话、问答),Sesame则希望通过更真实的语音交互,打造成为真正具有陪伴感的 AI 伙伴。
它的路线分为两条:一条是自研拟人化的语音模型,另一条是探索轻量化硬件形态,两者最终将融合为一种全新的智能眼镜交互范式。
这种差异化的路线也被红杉看好。红杉给出的评价是:“这种体验,与我们此前使用过的任何产品都不同。”
今天,我们就来聊聊这家从“听”而非“看”切入 AI 眼镜战场的公司,它为何值得关注。
打造“声音人格”与沉浸式陪伴
在做 AI 眼镜之前,Sesame 做了一件更难但更关键的事:自研语音模型。
它开发了一个完整的语音技术平台 Sesame AI,目标不是做一个能回答问题的语音助手,而是构建一个能真正对话的数字伴侣。这个伴侣要有情绪、有记忆、听得懂上下文、说话有个性,甚至能让人忘记这是一台机器。
核心技术叫 Conversational Speech Model(CSM),基于 Llama 架构构建,参数规模为 10 亿,并使用超过 100 万小时音频数据训练。模型支持实时生成带情绪、节奏、停顿和个性化特征的语音,不再是过去那种“逐句播报”的感觉。
2025 年 3 月,Sesame 将这套 CSM 系列开源。你可以在 Sesame 的演示页面选择两个 AI 语音人格:
Maya,女声,温柔平稳,语气细腻;Miles,男声,轻快富有表情,有点像一个老朋友。
它们不像一个工具,更像一个会说话、有呼吸的人。语气轻快、节奏得当、能被打断、也会主动补话——那一刻,你甚至会忘了这是机器在回应。
▲X网友Tanvi与Maya的15分钟的随机对话
Sesame不仅能“听懂”字面意思,还能“听出”字里行间的情绪和背景信息。一位用户分享说,加班到深夜时,Miles会根据他疲惫的语气主动说“需要帮你整理明天的会议提纲吗”。这是一种强大的情境感知能力。
用户与之交流是有连续性的、被理解的、有收获的,自然愿意花更多时间与它相处。某用户称,和Maya聊起上周提到的演唱会,她能准确接话“你说的那支乐队下周有加场,要帮你查购票链接吗?”
主动、记忆、情感、流畅——这些特征,让语音AI第一次接近“人格”的边界。而Sesame想做的,不是更聪明的Siri,而是一个真正会开口思考的伙伴。
这种能力的跃进,本质上源于技术路径的根本性变革。与此形成鲜明对比的是,传统语音助手依赖一个多步骤的链路:先将语音转为文字,再生成文本,最后由TTS读出。
Sesame的创新在于,整个流程被压缩到一个模型中完成。
流程的简化带来了体验的质的飞跃。与传统TTS不同,Sesame不是把文字“读出来”,而是直接生成语音本身,语气、停顿、呼吸都由模型实时控制。其背后基于自研模型CSM,该模型能直接跳过语音转文字再生成的环节,同时处理文本与音频,让机器的思考转成声音。
这种高度拟人的交互,给Sesame带来了惊人的用户黏性:首月吸引100万用户,累计对话超500百万分钟,人均日交互17次,是行业平均的三倍还多。
语音之所以迷人,在于它能传递文图难以承载的情绪。声音里的呼吸、语气与微妙顿挫,都是“人味”的体现。全球AI情感陪伴市场正快速增长,2024年规模已达281.9亿美元,预计未来五年年复合增速将超30%。
韩国AI聊天应用LoveyDovey已验证这一趋势。它通过“好感度”系统模拟恋爱,支持性格定制,年收入超1.2亿美元。其商业模式的核心并非功能,而是“声音的真实感”。
Sesame的AI语音技术广受好评,其表现甚至被评价为“显著超越Meta的新全双工技术”。
All in语音,寻求AI眼镜的差异化路径
目前,AI眼镜落地主要有两种路径:
一种是视觉路线,产品功能更侧重于视觉交互、增强现实显示。典型的就是Rokid,显示能力是Rokid Glasses最大的特点。Rokid Glasses 不仅能在眼前直接显示翻译,还能直接把导航把规划路线投影在眼镜上。
另一种是语音路线,包括Ray-Ban Meta和小米AI眼镜都是这种路线,核心是不带显示。
视觉和听觉两种路线的核心差异是,体验和成本。从重量上看,带显示的AI眼镜普遍都在49g以上,而不带显示的AI眼镜的重量都普遍小于49g。
从价格上看,带显示的AI眼镜价格普遍都在2500元以上,而不带显示的AI眼镜价格区间则更低,比如小米的AI眼镜价格为1999元。
不过随着AI眼睛的发展,视觉和语音技术开始融合,比如今年9月Meta 就发布了首款带显示屏的智能眼镜 Ray-Ban Display。
当所有人都在向视觉靠拢的时候,Sesame却像是个“另类”,坚定地迈向了语音路线。与普遍的语音交互不同,Sesame的做法是把个性化的AI Agent 做进AI眼镜里,打造一款富有人味 AI 伙伴的智能眼镜。
具体来说,Sesame 的目标是持续对话的伙伴:能被打断、会接话茬、有情绪、有记忆挂钩(在产品侧)。在眼镜形态下,就是“随时有人在你耳边回应”,不依赖屏幕才成立的核心体验。
在Sesame团队看来,自研语音模型带来的低交互延迟和声音风格、对话节奏真实感,能够使其打造出真正的产品“人格”,进而在竞争激烈的AI眼镜领域形成差异化优势。
目前,Sesame 已经向部分特定用户开放了其 iOS 应用,为其 AI Agent 做早期测试,官方称其具备“搜索、发短信和思考”功能。
这种差异化的路径,也是红杉看好Sesame 的重要原因。用红杉的说法,他们花了几个小时与Maya和Miles交流,这种体验与我们以往使用过的任何产品都截然不同。Sesame的对话层感觉很不一样。
除了差异化的语音路线,团队在硬件方面也有丰富的开发经验。
Sesame的联合创始人兼CEOBrendan Iribe,曾在2012年联合创办Oculus,通过Kickstarter众筹筹集了超过240万美元,成为虚拟现实领域的先驱。
2014年,Oculus被Facebook以20亿美元的价格收购,他担任CEO至2016年,随后领导PC VR组。2018年,Brendan Iribe因反对Rift系列转向一体机而离开Oculus。
当时,他坚持“高性能、深体验”的PC VR路线,而Meta则选择以轻量化、独立化的设备推动主流化,最终取消Rift 2、全力发展Quest。
公司CTOAnkit Kumar曾多次创业,还在Discord担任过Clyde AI工程负责人,有着丰富生产化语言和语音模型的经验。
这次拿下2.5亿美元融资后,Sesame计划把这笔资金用于AI语音眼镜的规模化生产、供应链建设与硬件团队扩张。这意味着,Sesame也将进入新的发展阶段。
Sesame发展路径背后,其实是一种对人机关系的新的探索,通过更好的语音交互,赋予硬件人格化的特征,进而催生一种新的可能性。
这或许才是Brendan Iribe当年追求的“深体验”的另一种形态:不是通过像素和分辨率去还原现实,而是通过声音与理解,让机器真正成为“在场的存在”。
文/朗朗
PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.