网易首页 > 网易号 > 正文 申请入驻

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

0
分享至

机器之心原创

编辑:杜伟、大盘鸡

算起来,距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间,AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

不过,由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难,因此这个赛道的玩家并不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今,这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能,并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能,并于近日支持 iOS 用户与该语音助手交流。

与此同时,国内一些厂商陆续推出了类似的实时语音对话大模型及应用,比如智谱、科大讯飞等,填补了一些空白。如今,这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

声音听起来还不错吧!Skyo 内置了非常清亮、爽朗的男声。

Skyo 基于背后的天工大模型 4.0 4o 版(Skywork 4o)打造。从名称上看,Skyo 中的「o」同样代表了 omni 的意思,并落在语音对话场景,直接对标了 GPT-4o。从定位和功能上看,作为一个智能语音互动产品,Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。

可以说,用户想要在 AI 语音对话中体验的场景和功能,Skyo 基本上都能 hold,还针对当前 AI 语音助手存在的一些痛点进行了优化。

实时对话 AI

一要准、二要快

与传统语音助手的主要区别在于,基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务,并开始从「工具」的属性过渡到「人类伴侣」。

自 GPT-4o 之后,语音交互场景的 AI 具备了前所未有的感知能力,在更智能化、更多面手之外,不仅响应延迟明显降低了,还能准确读懂用户的情感语调,如兴奋、高兴或悲伤,并以逼真的方式模仿和回应。

不过,随着更多用户体验到 GPT-4o 语音功能,它的一些缺点陆续显露了出来,比如不擅长识别自然停顿、无法准确响应要求的话题等。

同样地,此后出现的一系列对标 GPT-4o 的产品,如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等,虽然都宣称要打造自然流畅的 AI 对话,但从用户反馈来看,依然存在着一些直接影响对话体验的短板,比如可用性差、中断频繁和延迟严重等。

当然,面对 AI 实时语音对话助手的常见通病,Skyo 也需要尽力去克服。究竟效果怎么样呢?我们还是得看它的现场表现。

一手实测

会念诗、还拿捏住了拟人化

在与 Skyo 来了场面对面的交谈后,我们收获了一些小惊喜。

首先,我们来咨询 Skyo 一些健康常识问题,他回答的比较合理、全面,也有侧重性。当中,我们在他没有回答完上个问题的时候,就开始了下个问题,他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景,并在两个问题之间顺滑地切换。

我们还发现,Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」,这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰,会出现「哎呀」等感叹词,拟人化属性很强

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

其次,情感化反应已经成为现阶段语音交互 AI 追求的主要目标之一,在对话中要有能力识别出用户的情绪波动并给予准确的反馈。

Skyo 在这方面做得也不错,他能够理解用户情绪,并使对话更具人性化。当我们跟他说一些烦心事时,他会安慰我们,情绪价值给得很足,还给出了一些建议。

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

我们接着让 Skyo 讲个小笑话,结果「冷翻了全场」。

既然他不擅长讲笑话,那就换个最近网络上的热门话题,问他知不知道小米雷军在汽车工厂摆拍,看起来他对这件趣事挺门清的。

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

再让 Skyo 对最近李子柒的回归做一个评价,从结果来看,他的语言组织和总结能力还是不错的。如果放在现实世界中,他写作文应该是把好手。

这同时也意味着 Skyo 具备了一定的实时资讯获知和知识拓展能力,借助外部知识库来强化自己。

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

最后,让 Skyo 切换成英姿飒爽的女声,并让她念了一首诗。她第一时间选择了李白的《静夜思》,看样子是有点浪漫基因在身上的。

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

再以男声朗诵徐志摩的《再别康桥》,感情充沛,节奏把握得也很好

视频链接:https://mp.weixin.qq.com/s/E-JeevvyPLYd43ey69lD5Q

这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子,如何炼成的呢?

以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术,其中框架链路自研并保持业界领先。这样一来,在高精度理解用户语音输入内容(即听得准)的基础上,做出比较快速的响应(即答得快),响应时间一般在 1 秒左右。

另外,得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发,Skyo 还能够在高强度对话中保持稳定性和流畅性,并在情绪表达、实时交互等方面更加契合用户需求。

不过,我们也得承认,现阶段 Skyo 的功能并不完善,在回复的过程中偶尔也会出现声音的扭曲失真,但这都是进化路上所要经历的。

未来,Skyo 将继续修炼自己,并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。

当 Scaling Law 放缓

多模态 AI 应用势在必行

最近,Scaling Law「撞墙」的消息开始在 AI 社区传播,领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难,比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。

虽然之后这一观点遭到了一些人的驳斥,但不可否认的是,随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响,大模型开发速度的放缓似乎是必然的。

奥特曼:「墙」不存在。

相反,基于大模型的 AI 应用正在走向百花齐放,比如搜索引擎、音乐生成、语音交互、智能体,可以拓展生成式 AI 的落地场景并重塑人机交互范式,带来多样化 AI 体验和生产力提升。因此,在保证基座模型性能「不掉队」的前提下,形成完整的应用矩阵,对于想要持续站稳脚跟的厂商来说尤为重要。

在这方面,昆仑万维可以说布局较早且合理。一方面,自研天工系列基座大模型已经发展到 4.0 版本,性能处于全球领先水平。另一方面,构建了清晰、多元的 AI 业务矩阵,在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓,两手都要硬。

此次,Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样,也将成为构筑全栈式大模型能力堆栈的重要一环。

我们了解到,Skyo 实时语音对话助手将于近期上线天工 App,并接入天工搜索以获取更准确的实时资讯。可以预见,此举将进一步丰富天工平台的功能,让用户打开手机就能体验到 AI 原生实时对话的乐趣。

回望年初,昆仑万维提出了「实现通用人工智能,让每个人更好地塑造和表达自我」的全新使命。为此,该公司以天工 AI 平台为主阵地,对其上的 AI 应用不断进行功能上的迭代更新,深拓大模型能力释放出口,将新世代的人机交互贯穿文本、图像、语音等更全模态。

未来,昆仑万维还将继续发力实时图像与视频理解等领域,并形成开箱即用的 AI 应用,从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
几十个家庭垄断一座城:县城婆罗门的闭环游戏,正在逼走年轻人

几十个家庭垄断一座城:县城婆罗门的闭环游戏,正在逼走年轻人

黑噪音
2026-03-21 19:33:08
疯了!孙怡《乘风2026》封神现场:盘腿坐喝奶茶怼刘芸

疯了!孙怡《乘风2026》封神现场:盘腿坐喝奶茶怼刘芸

小椰的奶奶
2026-04-06 18:18:30
欧美高管访华后集体失眠:中国凭什么让百年巨头慌了?

欧美高管访华后集体失眠:中国凭什么让百年巨头慌了?

奇思妙想生活家
2026-04-07 03:12:08
不惜一切!东契奇赴欧“黑科技”疗伤,干细胞+高压氧,真拼了啊

不惜一切!东契奇赴欧“黑科技”疗伤,干细胞+高压氧,真拼了啊

球童无忌
2026-04-07 01:30:06
不说话,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛来了?

不说话,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛来了?

往史过眼云烟
2026-04-05 16:45:07
一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

忠于法纪
2026-04-06 15:10:31
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
1-0胜南美劲旅,中国男足在法国获国际赛事第7名,刘凯源远程炮制胜

1-0胜南美劲旅,中国男足在法国获国际赛事第7名,刘凯源远程炮制胜

侧身凌空斩
2026-04-06 18:17:35
销量超一半出口海外!中国“智”造,全球爆单

销量超一半出口海外!中国“智”造,全球爆单

中国能源网
2026-04-07 10:44:08
女演员晒出多张亲密照!从马略卡游艇到沙发,知情人士:没抓马

女演员晒出多张亲密照!从马略卡游艇到沙发,知情人士:没抓马

观察鉴娱
2026-04-07 11:35:13
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
于谦被曝成老赖,坐拥北京 60 亩马场,巨额债务真相藏不住了

于谦被曝成老赖,坐拥北京 60 亩马场,巨额债务真相藏不住了

橙星文娱
2026-04-06 13:09:46
曹智跨市履新宿迁市委常委、市政府党组副书记

曹智跨市履新宿迁市委常委、市政府党组副书记

环球网资讯
2026-04-06 14:32:44
震惊!约在星巴克见面,女生喝冰咖啡后在厕所报警,怀疑男方下药

震惊!约在星巴克见面,女生喝冰咖啡后在厕所报警,怀疑男方下药

火山詩话
2026-04-06 07:26:53
Deepseek提醒:从小允许玩手机和禁止玩的孩子,长大后差距明显!

Deepseek提醒:从小允许玩手机和禁止玩的孩子,长大后差距明显!

户外阿毽
2026-04-06 18:09:59
张万年傅全有等站两边,中间那位老人是谁?

张万年傅全有等站两边,中间那位老人是谁?

文史茶馆2020
2026-03-31 17:08:36
抓紧将“鼓励生育”确立为基本国策,对公职人员带头生育列入考核

抓紧将“鼓励生育”确立为基本国策,对公职人员带头生育列入考核

星空区块链
2026-04-06 19:57:31
印媒:巴基斯坦,再次进口70架歼10CE,凑齐100架编队?

印媒:巴基斯坦,再次进口70架歼10CE,凑齐100架编队?

万里繁华
2026-04-06 11:23:16
少跟孩子生气,因为这一世的相遇,背后藏着你看不见的因果

少跟孩子生气,因为这一世的相遇,背后藏着你看不见的因果

杏花烟雨江南的碧园
2026-04-03 15:15:03
业绩暴增!300821,“20cm”涨停

业绩暴增!300821,“20cm”涨停

数据宝
2026-04-07 10:43:16
2026-04-07 12:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12690文章数 142616关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

教育
健康
房产
游戏
公开课

教育要闻

孩子躺平,就让他颓废封闭一年能变好吗?

干细胞抗衰4大误区,90%的人都中招

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

卡普空小萝莉来了!《识质存在》倒计时10天:月球等你

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版