搞语音模型的去做AI眼镜，反而被红杉投了2.5亿美元|翻译|meta|maya|ai眼镜|rokid|sesame|视频生成模型

搞语音模型的去做AI眼镜，反而被红杉投了2.5亿美元

2025-10-31 20:29:11　来源: 乌鸦智能说

北京举报

分享至

2025，AI眼镜元年。

Meta 在 9 月发布了首款带显示屏的智能眼镜 Ray-Ban Display，小米也在 6 月推出了售价 1999 元的“年轻人第一副智能眼镜”。更不用说，早已深耕多年的雷鸟、Rokid，以及跃跃欲试的百度、阿里。

几乎所有人，都在“卷视觉”。但就在行业向 AR 显示一边倒时，有一家公司却反其道而行：不强调看得见，而是押注“听得懂”。

它叫 Sesame，不仅专注语音技术打造AI眼镜，还刚刚拿下红杉领投的 2.5 亿美元融资。

相比市面上 AI 眼镜多以语音作为功能入口（如翻译、通话、问答），Sesame则希望通过更真实的语音交互，打造成为真正具有陪伴感的 AI 伙伴。

它的路线分为两条：一条是自研拟人化的语音模型，另一条是探索轻量化硬件形态，两者最终将融合为一种全新的智能眼镜交互范式。

这种差异化的路线也被红杉看好。红杉给出的评价是：“这种体验，与我们此前使用过的任何产品都不同。”

今天，我们就来聊聊这家从“听”而非“看”切入 AI 眼镜战场的公司，它为何值得关注。

打造“声音人格”与沉浸式陪伴

在做 AI 眼镜之前，Sesame 做了一件更难但更关键的事：自研语音模型。

它开发了一个完整的语音技术平台 Sesame AI，目标不是做一个能回答问题的语音助手，而是构建一个能真正对话的数字伴侣。这个伴侣要有情绪、有记忆、听得懂上下文、说话有个性，甚至能让人忘记这是一台机器。

核心技术叫 Conversational Speech Model（CSM），基于 Llama 架构构建，参数规模为 10 亿，并使用超过 100 万小时音频数据训练。模型支持实时生成带情绪、节奏、停顿和个性化特征的语音，不再是过去那种“逐句播报”的感觉。

2025 年 3 月，Sesame 将这套 CSM 系列开源。你可以在 Sesame 的演示页面选择两个 AI 语音人格：

Maya，女声，温柔平稳，语气细腻；Miles，男声，轻快富有表情，有点像一个老朋友。

它们不像一个工具，更像一个会说话、有呼吸的人。语气轻快、节奏得当、能被打断、也会主动补话——那一刻，你甚至会忘了这是机器在回应。

▲X网友Tanvi与Maya的15分钟的随机对话

Sesame不仅能“听懂”字面意思，还能“听出”字里行间的情绪和背景信息。一位用户分享说，加班到深夜时，Miles会根据他疲惫的语气主动说“需要帮你整理明天的会议提纲吗”。这是一种强大的情境感知能力。

用户与之交流是有连续性的、被理解的、有收获的，自然愿意花更多时间与它相处。某用户称，和Maya聊起上周提到的演唱会，她能准确接话“你说的那支乐队下周有加场，要帮你查购票链接吗？”

主动、记忆、情感、流畅——这些特征，让语音AI第一次接近“人格”的边界。而Sesame想做的，不是更聪明的Siri，而是一个真正会开口思考的伙伴。

这种能力的跃进，本质上源于技术路径的根本性变革。与此形成鲜明对比的是，传统语音助手依赖一个多步骤的链路：先将语音转为文字，再生成文本，最后由TTS读出。

Sesame的创新在于，整个流程被压缩到一个模型中完成。

流程的简化带来了体验的质的飞跃。与传统TTS不同，Sesame不是把文字“读出来”，而是直接生成语音本身，语气、停顿、呼吸都由模型实时控制。其背后基于自研模型CSM，该模型能直接跳过语音转文字再生成的环节，同时处理文本与音频，让机器的思考转成声音。

这种高度拟人的交互，给Sesame带来了惊人的用户黏性：首月吸引100万用户，累计对话超500百万分钟，人均日交互17次，是行业平均的三倍还多。

语音之所以迷人，在于它能传递文图难以承载的情绪。声音里的呼吸、语气与微妙顿挫，都是“人味”的体现。全球AI情感陪伴市场正快速增长，2024年规模已达281.9亿美元，预计未来五年年复合增速将超30%。

韩国AI聊天应用LoveyDovey已验证这一趋势。它通过“好感度”系统模拟恋爱，支持性格定制，年收入超1.2亿美元。其商业模式的核心并非功能，而是“声音的真实感”。

Sesame的AI语音技术广受好评，其表现甚至被评价为“显著超越Meta的新全双工技术”。

All in语音，寻求AI眼镜的差异化路径

目前，AI眼镜落地主要有两种路径：

一种是视觉路线，产品功能更侧重于视觉交互、增强现实显示。典型的就是Rokid，显示能力是Rokid Glasses最大的特点。Rokid Glasses 不仅能在眼前直接显示翻译，还能直接把导航把规划路线投影在眼镜上。

另一种是语音路线，包括Ray-Ban Meta和小米AI眼镜都是这种路线，核心是不带显示。

视觉和听觉两种路线的核心差异是，体验和成本。从重量上看，带显示的AI眼镜普遍都在49g以上，而不带显示的AI眼镜的重量都普遍小于49g。

从价格上看，带显示的AI眼镜价格普遍都在2500元以上，而不带显示的AI眼镜价格区间则更低，比如小米的AI眼镜价格为1999元。

不过随着AI眼睛的发展，视觉和语音技术开始融合，比如今年9月Meta 就发布了首款带显示屏的智能眼镜 Ray-Ban Display。

当所有人都在向视觉靠拢的时候，Sesame却像是个“另类”，坚定地迈向了语音路线。与普遍的语音交互不同，Sesame的做法是把个性化的AI Agent 做进AI眼镜里，打造一款富有人味 AI 伙伴的智能眼镜。

具体来说，Sesame 的目标是持续对话的伙伴：能被打断、会接话茬、有情绪、有记忆挂钩（在产品侧）。在眼镜形态下，就是“随时有人在你耳边回应”，不依赖屏幕才成立的核心体验。

在Sesame团队看来，自研语音模型带来的低交互延迟和声音风格、对话节奏真实感，能够使其打造出真正的产品“人格”，进而在竞争激烈的AI眼镜领域形成差异化优势。

目前，Sesame 已经向部分特定用户开放了其 iOS 应用，为其 AI Agent 做早期测试，官方称其具备“搜索、发短信和思考”功能。

这种差异化的路径，也是红杉看好Sesame 的重要原因。用红杉的说法，他们花了几个小时与Maya和Miles交流，这种体验与我们以往使用过的任何产品都截然不同。Sesame的对话层感觉很不一样。

除了差异化的语音路线，团队在硬件方面也有丰富的开发经验。

Sesame的联合创始人兼CEOBrendan Iribe，曾在2012年联合创办Oculus，通过Kickstarter众筹筹集了超过240万美元，成为虚拟现实领域的先驱。

2014年，Oculus被Facebook以20亿美元的价格收购，他担任CEO至2016年，随后领导PC VR组。2018年，Brendan Iribe因反对Rift系列转向一体机而离开Oculus。

当时，他坚持“高性能、深体验”的PC VR路线，而Meta则选择以轻量化、独立化的设备推动主流化，最终取消Rift 2、全力发展Quest。

公司CTOAnkit Kumar曾多次创业，还在Discord担任过Clyde AI工程负责人，有着丰富生产化语言和语音模型的经验。

这次拿下2.5亿美元融资后，Sesame计划把这笔资金用于AI语音眼镜的规模化生产、供应链建设与硬件团队扩张。这意味着，Sesame也将进入新的发展阶段。

Sesame发展路径背后，其实是一种对人机关系的新的探索，通过更好的语音交互，赋予硬件人格化的特征，进而催生一种新的可能性。

这或许才是Brendan Iribe当年追求的“深体验”的另一种形态：不是通过像素和分辨率去还原现实，而是通过声音与理解，让机器真正成为“在场的存在”。

文/朗朗

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

搞语音模型的去做AI眼镜，反而被红杉投了2.5亿美元

苹果新品惨败，产线拆光、二代搁浅！

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

维金斯0.4秒空接暴扣绝杀 热火险胜骑士

何超莲窦骁真的没离婚?

南昌三瑞智能IPO：委外代工模式存疑

盈利"大考"，汽车智能化企业的中场战事

态度原创

潘玮柏太太穿公主裙亮相幼儿园，5岁女儿软萌可爱，同框似姐妹花

有人硬算，有人巧算，会方法就是牛！

小米双11战报公布：多款产品获销量冠军 卢伟冰回应

这届干饭人，已经把博物馆吃成了食堂

国美学子 打造筑梦空间

欧洲高颜值王室访华:曾与高中老师结婚二婚嫁入王室

欧洲高颜值王室访华:曾与高中老师结婚二婚嫁入王室

维金斯0.4秒空接暴扣绝杀热火险胜骑士

小米双11战报公布：多款产品获销量冠军卢伟冰回应

国美学子打造筑梦空间