网易首页 > 网易号 > 正文 申请入驻

未来的人机交互如何落地?NVIDIA 研究团队给出了答案

0
分享至

作者 | 程茜
编辑 | 漠影

对话式人工智能(AI)这个词听起来可能有些陌生,但它其实已经渗透到了我们生活的方方面面。语音助手、智能客服、聊天机器人等都是它的应用载体,涵盖金融、交通、通信、购物等多个领域。

随着技术发展和人们生活习惯的变化,对话式 AI 也在不断改变着众多行业,随之而来,企业对于对话式 AI 部署的需求激增。然而,对话式 AI 服务在开发、部署过程中,企业往往会面临很多难题。

如何拥有数据庞大且高度精确的训练模型?如何快速部署复用?如何保障用户的数据隐私和安全?都是横亘在企业落地对话式 AI 服务面前的大山。

因此,对话式 AI 这一浪潮正在席卷各行各业的背景下,NVIDIA 研究团队通过研发、实践,不断寻找助力企业落地对话式 AI 服务的新解法。

一、对话式 AI 正在拓宽人机交互的边界

NVIDIA 创始人兼首席执行官黄仁勋曾说:“对话式 AI 是终极 AI。”可以看到,对话式 AI 的出现与普及正在彻底改变越来越多的行业,如金融、电信等以对话为主要形式的通信即服务行业(UCaaS)。再加上新冠疫情暴发以来,灵活多变的混合办公模式兴起,线上场景下的对话需求越来越多,使得对话式 AI 的重要性逐渐凸显,但在人机交互的部署和实际效果上,企业仍面临许多难题。

首先,企业想要对话式 AI 的效果能够更加自然,就需要高度精确、经过预训练的模型和迁移学习,并且,“实时性”也是用户体验自然的一个关键因素,大多数人会在 100~120 毫秒左右感知到明显的通信滞后,因此实时交互需要精确到 100 毫秒以内。

其次,对于需要广泛部署对话式 AI 服务的企业来说,它们需要混合使用云、内部部署和边缘部署,并且将系统支持扩展到数十万并发用户中,这对于企业而言仍是一大难题。举例而言,平安科技原有的传统模式是单个服务器部署模型,但在实际场景下,每个智能客服的通话数量会发生变化,无法与业务需求量同步并进行资源调配,就使得部分业务空闲导致 GPU 资源浪费。

最后,备受用户的数据隐私和安全问题也是对话式 AI 开发的难点之一,例如在本地或可信任的云中进行安全数据处理。

即便有这些难题,但对话式 AI 正在席卷各行各业的浪潮不可阻挡。

二、端到端模型工具,GPU 加速运行

应用而生的NVIDIA 对话式 AI 架构 Riva,在解决上述难题时,就能为开发者提供经过预先训练的先进深度学习模型和软件工具,快速、高效地将算法模型应用到更多业务场景中,帮助企业创建面向不同行业的对话式 AI 服务。

Riva 采用了语音的端到端工作流,与传统语音识别系统不同,其只分为输入端的语音特征和输出端文本信息。

在语音和文字转化方面,Riva 包含自动语音识别(Automatic Speech Recognition,ASR)和文字转语音(Text to Speech,TTS)。

首先,Riva 提供的自动语音识别软件工具,可以针对不同领域或部署平台进行定制。

其次,Riva 拥有使用频谱图生成和声码器模型的类人文本转语音神经语音,并且其管道可以进行定制和优化,在 GPU 上实时高效运行。利用文字转语音工具,用户将原始文本输入,在流模式下生成音频块后立即返回,也可以在批处理模式下在整个序列结束时返回。

Riva 从模型到软件再到硬件全堆栈持续优化提供的增益是上一代产品的 12 倍,基于此,企业可以进一步提高自己对话式 AI 系统的准确性以及快速部署能力。

三、快速部署+优质效果,下载量已超25万次

作为企业满足对话式 AI 服务的有力武器,Riva 在帮助企业提高部署效率和服务效果中拥有以下几大优势:

1、预训练模型:十亿文本+六万小时语音数据

对话式 AI 往往需要高度精确、准确的训练文本,帮助 AI 理解文字和语音的意思。

Riva 提供的预训练模型,经过十亿多页的文本、六万小时的语音数据训练,并且还接受了不同的语言、口音、专业术语和环境上数百万个小时的 GPU 训练,这保证了其预训练模型的准确性。

2、实时交互:100 毫秒内轻松响应

在对话中,想要更加自然真实,低延时、实时交互是其中的关键。Riva 借助 GPU 加速,使得端到端语音流程运行时间可达到 100 毫秒内,也就是包括听、理解和生成响应在内的全流程速度,而正常人眨眼时间为 0.2~0.4 秒左右。

此外,Riva 还借助了适用于低延迟和高吞吐量通信的 gRPC 的微服务器,能够进一步减少识别时间。

3、拿来即用:几行代码就可成功部署

开发者在部署 Riva 时可使用 NVIDIA TAO 工具包,对不同行业、任务、系统的模型训练、适配和优化,并且还能使用自己的数据对模型进行微调,使其在实际场景中提供实时语音服务时能达到更稳定的效果。

值得一提的是,在部署 Riva 时,开发者不需要深度 AI 专业知识,只需要几行代码就可以成功部署模型。与此同时,Riva 还整合了 ASR、TTS、NLP(自然语言处理)三个智能算法引擎,使得企业的对话式 AI 服务能在技术底层上实现统一。

4、定制服务:不同专业+个性声音均可实现

不同于我们日常交流中常用的词语、句子,专业性较强的对话式 AI 就需要特定训练,才能与相关专业进行适配。Riva 自动语音识别管道就针对不同行业、领域的数据进行了训练,帮助企业进行个性化定制,并快速复用到实际应用场景中。

为了提高对话式 AI 服务的表现力,2021 年 9 月,Riva 还推出了定制语音功能,可以帮助企业在一天之内打造类似真人的定制语音,该功能支持微调口音、音高、声音细粒度等,Riva 2.0 也已于 2022 年 3 月已上线。

Riva 从 2020 年 5 月发布以来,截至 2021 年 9 月,已实现 25 万次以上的下载量,并广泛应用于视频会议、聊天机器人等场景。现在点击文末“阅读原文”就可以试用Riva的互动式Demo。

四、结语:掀起企业对话式 AI 应用落地潮

人工智能技术发展正在改变很多行业,对话式 AI 正在一些场景下取代人工客服,并且随着语音识别、语义理解等技术的发展,语音 AI 已经从“傻瓜式”、“机器人式”变得更加智能化,未来,更自然的人机对话可能会很快实现。

作为 NVIDIA 研究团队的重要成果之一,Riva 帮助企业构建可定制的对话式 AI 应用程序,将掀起对话式 AI 应用落地的浪潮。不仅如此,NVIDIA 的研究团队也在不断探索 AI 等前沿科技的新应用场景,在加快前沿技术落地的同时,为更多场景应用提供底层技术支持。

之后,我们还将陆续介绍 NVIDIA 研究团队推出的计算机视觉、深度学习模型以及有意思的交互式Demo,如 NVIDIA Audio2Face:仅需一个音频来源即可快速生成表情丰富的面部动画;NVIDIA Canvas:使用 AI 将简单的笔触变成逼真的风景图等。体验更多人工智能和深度学习互动 Demo,请复制https://t.cn/A6aDExGB到浏览器打开“NVIDIA AI 广场”。

声明:本文与 NVIDIA 产品相关的图片,版权均归 NVIDIA Corporation 所有。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天热了,遇到这肉别手软,比鸡鸭鱼便宜,比牛羊肉鲜美,营养解馋

天热了,遇到这肉别手软,比鸡鸭鱼便宜,比牛羊肉鲜美,营养解馋

阿龙美食记
2026-05-19 12:26:36
《给阿嬷的情书》中“嬷”被教授正音mà后,央视依旧读mó,广东侨联工作人员:两种读音没有绝对对错,只是适用场景不同

《给阿嬷的情书》中“嬷”被教授正音mà后,央视依旧读mó,广东侨联工作人员:两种读音没有绝对对错,只是适用场景不同

大象新闻
2026-05-20 18:58:05
26.98万起售的小鹏GX豁出去!12小时狂卖24863台

26.98万起售的小鹏GX豁出去!12小时狂卖24863台

快科技
2026-05-21 09:40:37
内娱唯一发腮逆袭!黄灿灿:别人发腮垮脸,我发腮美成草莓...

内娱唯一发腮逆袭!黄灿灿:别人发腮垮脸,我发腮美成草莓...

孤城落日
2026-05-20 01:04:12
江苏卫视黄金档大剧今晚开播,演员阵容强大必爆

江苏卫视黄金档大剧今晚开播,演员阵容强大必爆

夸大其词的说
2026-05-21 12:48:11
广东男篮休赛期暗流涌动:徐杰国家队报到成谜,萨林杰降薪水求留无人问,朱芳雨犹豫

广东男篮休赛期暗流涌动:徐杰国家队报到成谜,萨林杰降薪水求留无人问,朱芳雨犹豫

去山野间追风
2026-05-21 17:09:53
伊朗做出两大重要让步!沙特媒体曝光,伊朗做出巨大让步

伊朗做出两大重要让步!沙特媒体曝光,伊朗做出巨大让步

刘拕说体坛
2026-05-21 00:47:59
汪小菲一家520游大观园!马筱梅做风筝,画工相当了得,儿子出镜

汪小菲一家520游大观园!马筱梅做风筝,画工相当了得,儿子出镜

民宿体验志
2026-05-21 10:40:08
张雪要把冠军53号车卖了!买家还没定,钱先捐给韩红

张雪要把冠军53号车卖了!买家还没定,钱先捐给韩红

东方不败然多多
2026-05-21 16:37:01
史上最大价差:正式售价比预售价便宜13万,小鹏GX只能往下卷吗?

史上最大价差:正式售价比预售价便宜13万,小鹏GX只能往下卷吗?

EV世纪
2026-05-21 14:15:05
原国防科工委第27基地副司令员戴维镛逝世

原国防科工委第27基地副司令员戴维镛逝世

澎湃新闻
2026-05-21 18:42:26
芯片工程师“瑟瑟发抖”!陈立武铁令:二次流片失败直接开除!

芯片工程师“瑟瑟发抖”!陈立武铁令:二次流片失败直接开除!

EETOP半导体社区
2026-05-21 14:31:45
惨烈!NBA西决3大球星倒下!争冠格局骤变,东部真要捡漏了

惨烈!NBA西决3大球星倒下!争冠格局骤变,东部真要捡漏了

铿锵格斗
2026-05-21 13:49:52
马刺晋级概率跌至40%:福克斯归期未定 哈珀大腿拉伤或休1周以上

马刺晋级概率跌至40%:福克斯归期未定 哈珀大腿拉伤或休1周以上

颜小白的篮球梦
2026-05-21 12:14:23
深夜,国际油价大跳水!霍尔木兹传来大消息:26艘船已通过!特朗普:在伊朗问题上,内塔尼亚胡“听我的”

深夜,国际油价大跳水!霍尔木兹传来大消息:26艘船已通过!特朗普:在伊朗问题上,内塔尼亚胡“听我的”

每日经济新闻
2026-05-21 01:12:04
俞灏明罕见520亲口认了有小家庭!主持人小心翼翼,女方会不会又否认?

俞灏明罕见520亲口认了有小家庭!主持人小心翼翼,女方会不会又否认?

今古深日报
2026-05-21 09:58:19
东决G1五大疑点实锤,这场比赛有很大猫腻!哈登或许只是棋子

东决G1五大疑点实锤,这场比赛有很大猫腻!哈登或许只是棋子

老梁体育漫谈
2026-05-20 23:34:00
英格兰4队同时夺得欧冠+欧联 分别是维拉、蓝军、红军、红魔

英格兰4队同时夺得欧冠+欧联 分别是维拉、蓝军、红军、红魔

智道足球
2026-05-21 15:50:02
一场闹剧!香港顶流“忘年恋”彻底崩塌,往日恩爱变血色屠场...

一场闹剧!香港顶流“忘年恋”彻底崩塌,往日恩爱变血色屠场...

港港地
2026-05-21 10:04:21
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
2026-05-21 19:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11870文章数 117078关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

特朗普称将与赖清德交谈 外交部表态

头条要闻

特朗普称将与赖清德交谈 外交部表态

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

小鹏正在研发"高达" 融合机器人技术的主动悬架

态度原创

旅游
房产
亲子
本地
公开课

旅游要闻

陕西佳县白云山“四月八”旅游最靓丽的风景:“志愿红”

房产要闻

顺德澐璟楼王『澐冠』启幕|一场高阶共鸣的静奢美学之约

亲子要闻

向宝妈“表白”,南山妇幼为每个家庭提供母乳喂养支持

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版