网易首页 > 网易科技 > 网易科技 > 正文

对话科大讯飞高建清:何为极速超拟人交互技术

0
分享至
星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破。

今年5月,OpenAI发布GPT-4o,展现出强劲的语音交互能力。科大讯飞不甘示弱,于近日发布了星火极速超拟人交互技术,据称这是国内首个对标GPT-4o语音的大模型产品。

根据官方介绍,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

据悉,“端到端”技术框架是实现极速响应的重点。目前在全世界范围内,框架模型算法持续演进,国外以GPT-4o、特斯拉FSD等为代表的多模态端到端方案,已被证实可进一步提升技术效果和用户体验。

而科大讯飞极速超拟人交互作为业界首个端到端极速超拟人交互,通过将此前级联方案升级为统一神经网络,直接实现语音到语音的“端到端”建模,大幅缩短响应时间,做到了真正的极速。

科大讯飞研究院常务副院长高建清表示:“以往语音交互系统都是不同的模块,比如语音识别、语音合成和大语言模型。而科大讯飞星火极速超拟人交互技术基于端到端大模型框架,并结合讯飞多维度语音属性解耦表征训练模块,实现情感、方言、韵律、音色等的可控,实现了对语音交互的拟人化升级。”

面对与OpenAI的差距,高建清很乐观:“目前我们与他们的差距在变小。”高建清认为,我们在产品方面反而更快。虽然GPT-4O是最先发出的Demo概念,但将Demo变成产品需要解决很多问题。“在这方面,国内的工程能力和执行能力发展非常快。”

比如,星火极速超拟人语音的情绪感知能力,能够感知到数十种音频事件与情绪,比如喜怒哀乐、害怕、困惑等,AI会以“感同身受”的方式进行语言组织和情绪表达。

再比如,打断一直以来都是语音交互的难点。比如你入住酒店问前台客服,如果对方答非所问肯定当即打断;同理,没耐心听AI讲一大堆话,或者回答跑偏,立即打断是人的生理本能。

“这是个极其复杂的工程问题,需要去判定何时打断、何时不应打断,我们通过技术创新与强化底座认知能力,解决了打断和响应时间平衡的问题。”高建清说道。

与几年前的语音交互系统相比,高建清最深切的体会是,认知大模型本身的语言理解能力,包括基础交互能力、知识问答能力、信息查询能力、闲聊能力等已经有了大幅度的提升。

针对星火极速超拟人交互的未来发展,高建清谈到,星火极速超拟人交互的未来计划是“三个更多”——即融入更多模态,具备图片视频模态输入与超拟人虚拟人输入;融入更多语言,增加更多语言、方言的语音交互能力和翻译能力;以及持续拓展情感、人设种类,继而实现诸如口技、唱歌等更多能力与更好体验。

根据中金企信国际咨询测算的数据,我国对话式人机交互核心产品的市场规模将在2025年达到237亿元,直接带动相关产业规模达到1525亿。同时语音语言技术与大模型结合将赋能更加广阔的应用场景,下游领域包括家电、汽车、消费电子、金融、物流、房产、政务、医疗等,预计智能语音语言技术在垂直行业应用的核心产品规模将在2025年达到159.1亿元,带动相关产业规模达到875.1亿元。

科大讯飞研究院常务副院长高建清与媒体对话精华:

问:星火极速超拟人交互技术定义是国内首个全新语音交互方式,其他公司也有类似的语音产品。你认为与其他产品差异化的特点是什么?

高建清:体现在三个方面,第一个是快速,第二个是支持情感感知和表达,它的共情能力更强。第三个是目前其他公司没有的能力,我们是唯一支持用户指令控制的公司,你可以控制情感、风格、空格、方言和人设,具体来说就是这三个大特点。

问:可以介绍下和OpenAI的GPT-4o的区别或者不同之处?

高建清:OpenAI方面的技术框架尚未公布,我们并不清楚具体的语音框架,因此我们只是参考其表现形式。

我们已经具备语音表现和GPT-4o发布部分的语音能力,例如声音控制、情感共鸣等。从最后的系统分析,我们还完成了很多创新性工作,比如打断部分。目前可以看出何时应该打断,何时不应该打断,这对于响应时间非常重要。

问:如果想把“打断”这件事情解决好,这背后究竟在解决什么事情?

高建清:仍在解决理解问题,例如人与人之间的聊天,我应该打断你说话。他认为你的语义完整,表达完毕后,我应该打断你的发言。但是认知问题源于底座的能力,我们需要针对这个问题单独设计,而非仅依靠原有的认知大模型就能解决,这是效果和响应时间的平衡问题。任务定义是判断何时应该打断我的讲话,核心点是判断语义是否完整。

问:在展示中给它发出声音调大的指令,它并没有将声音调大,而是发出类似喊的情绪,背后的原因是我们发出的指令词不准确吗?

高建清:它在处理对话过程中生成了自己的理解,并将我们的话理解为这样。在传统语音领域也存在这种问题,尤其在行业应用上,包括车机系统和智能家居。我给语音发一个指令词,它并不能完全理解我的话,导致他无法回答或者答非所问。

问:您认为未来多长时间内会达到人与人之间非常交互的情况?以及通过什么手段突破情感交流障碍?

高建清:实际上在这次单交互系统之前,业界的交互系统里基本没有情感,都是以中性的声音回复,或者个别系统可能有这种情感,都是纯文本层面的情感,通过模型生成的文本,他会给出一个情感的回复。我认为现在这个框架可能会实现情感共鸣。这次系统升级的最大特点是快,第二个是情感的共鸣。

虽然目前的框架可能存在不完美和许多瑕疵,但是它的一个显著优势是保留了人与机器交互过程中的完整信息。当人在感受和回复时,既能感受到你说话的内容,也能感受到你的声音内容,甚至还有表情。在实践过程中,我们认为现在的情感共鸣已经具备了一定能力,虽然不能说已经做得非常好,但是这一定在未来是一条可行的路径。

问:根据目前公布的GPT-4o,底座大模型可能已经完全通用。未来我们会朝这种方向发展,还是会衍生出不同的分支?

高建清:目前我认为这两个方向尚未达成定论,它们都会在未来演进。它们的性价比和研发过程以及使用过程都很高。如果这个东西是高频应用,我们现在整体的大框架是朝着落地去做的,因此我们不会使用一个非常巨大的认知智能大模型,否则最后的成本可能是不可接受的。

问:之前OpenAI也发布了Demo,但是一直没有推出产品。目前我们与国外的技术只差一个产品的距离,技术已经接近了吗?还有其他差距?

高建清:如果是产品级的,我们反而会更快。我认为从技术角度来看,端到端的算法,例如GPT-4O是最先发出的Demo概念,大家非常认可。从算法本身来看,我认为大家能够掌握这个算法以及领先性。国内的算法与GPT搜索处于同等水平,核心在于将端系统从Demo变成产品。这个过程中存在很多问题,这些问题可能不是真正意义上的科学术问题或者科学问题,而是工程上的问题。

工程问题极其复杂,要将Demo变成产品集需要解决很多问题。在这方面,国内的工程能力和执行能力发展非常快,其中有很多关键问题,例如响应时间快,我需要解决打断和响应时间平衡的问题,以及解决语音识别的准确性和响应时间平衡的问题。国内在这方面做得相当出色。

问:您如何看待目前国内一直在追ChatGPT的信息?在大模型方面,您认为中国大模型行业未来变道超车的关键点在哪里?

高建清:从整个行业发展来看,无论是大公司创业公司还是大厂,互联网公司在模型方面一直都在对标ChatGPT。我们之所以一直追赶,是因为在过去的2到3年里它一直走在前列。我们首先需要承认这个事实。我总体认为,先不论是否可以超越,至少目前差距在变小。

我们的基础模型是否可能超越美国?这个问题很难给出明确的答案,我们业界共同努力,包括学术界和工业界都非常强大。我们可以与工业界一起探讨是否可能在某个地方实现突破。

(作者|王文华)

延伸阅读
相关推荐
热点推荐
中国武器又打胜仗,FK-2000首战即首杀,击落土耳其先进无人机

中国武器又打胜仗,FK-2000首战即首杀,击落土耳其先进无人机

闫树军论评
2025-09-19 18:26:54
为什么赌博最后只会输,因为你永远无法战胜“凯利公式”?

为什么赌博最后只会输,因为你永远无法战胜“凯利公式”?

小莜读史
2025-07-27 23:02:11
688270,董事长被留置!

688270,董事长被留置!

中国基金报
2025-09-21 20:51:47
调整!长春市紧急通知

调整!长春市紧急通知

吉刻新闻
2025-09-21 14:20:51
张文宏呼吁:60岁后千万别做这几项健康检查,做了可能会害你

张文宏呼吁:60岁后千万别做这几项健康检查,做了可能会害你

霹雳炮
2025-09-11 23:13:49
警方道歉,撤回处罚决定并赔偿!

警方道歉,撤回处罚决定并赔偿!

FM93浙江交通之声
2025-09-20 19:30:36
同志加兄弟:京族三岛归中国,白龙尾岛归越南,谁获利更大?

同志加兄弟:京族三岛归中国,白龙尾岛归越南,谁获利更大?

牛马搞笑
2025-09-11 05:39:28
越南新娘嫁到浙江15年,第一次回娘家,丈夫只让带回去一台旧彩电

越南新娘嫁到浙江15年,第一次回娘家,丈夫只让带回去一台旧彩电

温情邮局
2025-09-02 13:20:52
公告:多名国家杰青、优青被处理!撤销5人所获奖章、证书并追缴奖金

公告:多名国家杰青、优青被处理!撤销5人所获奖章、证书并追缴奖金

材料科学与工程
2025-09-20 21:40:24
姆贝乌莫闪耀老特拉福德,映照出曼联当年引进安东尼的致命失误

姆贝乌莫闪耀老特拉福德,映照出曼联当年引进安东尼的致命失误

星耀国际足坛
2025-09-21 12:25:23
中科院隐身飞翼惊艳长春航展,似乎在引领无人机技术新纪元!

中科院隐身飞翼惊艳长春航展,似乎在引领无人机技术新纪元!

阿芒娱乐说
2025-09-22 03:32:33
莫雷诺离开申花后近况曝光!坐拥大别墅和私人球场,让球迷羡慕

莫雷诺离开申花后近况曝光!坐拥大别墅和私人球场,让球迷羡慕

梅亭谈
2025-09-21 16:58:52
安徽男子怀疑自己是释永信私生子,母亲30年前怀孕,两人五官神似

安徽男子怀疑自己是释永信私生子,母亲30年前怀孕,两人五官神似

不八卦掌门人
2025-08-22 14:15:10
中国导弹亮相塞尔维亚阅兵式

中国导弹亮相塞尔维亚阅兵式

环球网资讯
2025-09-21 09:59:31
入秋,10斤莲藕不如1斤它,正大量上市,多吃滋养润肺,呼吸顺畅

入秋,10斤莲藕不如1斤它,正大量上市,多吃滋养润肺,呼吸顺畅

阿莱美食汇
2025-09-21 18:40:06
香港菜市场偶遇谢霆锋虽然个不高但巨帅,他看女粉丝的眼神太宠了

香港菜市场偶遇谢霆锋虽然个不高但巨帅,他看女粉丝的眼神太宠了

失宠的小野猪
2025-09-21 13:02:44
后续!武大撤销对图书馆事件男生处分,网友评论区炸锅!

后续!武大撤销对图书馆事件男生处分,网友评论区炸锅!

醉求梦想
2025-09-22 00:05:11
女演员孙菲菲被前夫指责害死公公:愿接受刑事立案调查,一周前宣布离婚

女演员孙菲菲被前夫指责害死公公:愿接受刑事立案调查,一周前宣布离婚

极目新闻
2025-09-21 12:19:11
85年我在新疆救下一名藏族女子,退伍前夜,首长突然叫住了我

85年我在新疆救下一名藏族女子,退伍前夜,首长突然叫住了我

今天说故事
2025-07-21 17:26:36
运力过剩,成中国航空市场巨大挑战

运力过剩,成中国航空市场巨大挑战

环球旅讯
2025-09-21 09:06:19
2025-09-22 04:52:49

科技要闻

蔚来全新ES8正式上市:售价40.68万元起

头条要闻

赖清德:台湾享受和平要归功于"安倍晋三的高瞻远瞩"

头条要闻

赖清德:台湾享受和平要归功于"安倍晋三的高瞻远瞩"

体育要闻

在意甲最草根的球会 创造新的"莱斯特奇迹"

娱乐要闻

西安街头邂逅赵露思,美到让人不敢认

财经要闻

OpenAI想杀入苹果“腹地”

汽车要闻

全系华为+宁德时代 阿维塔07 26款售21.99万元起

态度原创

房产
旅游
教育
手机
军事航空

房产要闻

全民撑广州,不止于赛场!与“有态度”者共筑城市骄傲

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

教育要闻

围观:南京零模均分出炉!六大均分遥遥领先!

手机要闻

苹果折叠屏iPhone Fold细节曝光:钛合金机身,售价超2000美元

军事要闻

爆破试验带你看巡飞弹飞龙-60A有多强

无障碍浏览 进入关怀版
×