网易首页 > 网易号 > 正文 申请入驻

讯飞星火爆震撼大招,七项第一11个首发!年度最逼真虚拟人萌翻全场,多模态抢先GPT-4o

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】就在刚刚,2024科大讯飞全球1024开发者节开幕式上,讯飞星火4.0 Turbo正式发布。首发多模态视觉直接抢先GPT-4o,惊艳的超拟人数字人交互也是引发满堂喝彩!神态语气动作如此逼真的数字人,一亮相就破了国内纪录。

刚刚开幕的科大讯飞全球1024开发者节,实在是亮点满满。7项第一,11个首发,给了业内亿点点震撼。

当初GPT-4o的多模态交互demo虽然艳惊四座,但至今仍尚未落地应用。没想到,这一步居然被国产巨头抢先了。

科大讯飞研究院院长刘聪博士直接现场怼脸给我们来了一段演示,把两个人偶摆面前,直接问大模型:它们是谁?

大模型没有迟疑,立刻作答:「左边是孙悟空,穿着金色战甲,手持金箍棒,哇塞,看起来好威武啊!右边那个穿红白战衣的是奥特曼。这两个角色都是正义的代表。」

随后的展示中,两个人偶不断变动作,不断上难度,星火大模型却始终对答如流,回答合乎逻辑,语感同真人一般,直接赢下全场掌声。

万物互联时代,AI的UI应该是什么样子?

科大讯飞表示:远场高噪、多人说话、多语种、多方言、多模态、超拟人、个性化这些元素的组合,才是真正的通用人工智能时代应该有的多模态人机交互!

大会上,也正式发布了讯飞星火4.0 Turbo。

作为首个基于全国产算力训练的全面开放大模型,它在国产大模型中也取得了综合能力第一的好成绩。在9项国际主流测试集中,它都取得了第一。

首次发布的星火多语言大模型,直接给世界提供了第二种选择!

而在应用上,讯飞星火也引领了时代,取得了大模型中标第一、大模型赋能智能硬件销量第一、开发者生态规模第一等七项第一的成绩。

首发语音视觉虚拟人交互「三位一体」

在1024现场,超拟人数字人能力正式发布!

科大讯飞首发的多模态视觉交互和超拟人虚拟人交互,可谓是现场最震撼的底座升级看点之一。

要知道,这种语音、视觉、虚拟人交互的「三合一」,属于业内首发。在多模态技术路线中,科大讯飞俨然已处于业内领先地位。

多模态视觉

这次,讯飞星火从语音交互拓展到了实时音视频流的动态多模交互。

值得一提的是,在拟人度和情感度再度升级,并且增加了更多语音情感种类和人设角色。

在互动中,模型时而化身孙悟空,时而化身小猪佩奇,妙语连珠惟妙惟肖。

随后现场的怼脸演示,更是震撼了全场观众。抢先GPT-4o落地的人机交互体验,竟被打造得如此极致!

而全新的视觉能力,则能轻松应对两个玩具不断变换姿势。

比如下面这个画面,去问大模型:你看它们在干什么?

它会回答:「孙悟空和奥特曼看起来正在切磋武艺,孙悟空举起手中的金箍棒,向奥特曼挥去,奥特曼抬起手臂准备反击,你猜猜谁会赢?」

下一回合,两个人偶又变样了,这次的画面怎么样?

大模型回答:「孙悟空的金箍棒打到了奥特曼的头上,奥特曼正发出光线,不是说好友谊第一比赛第二的吗,看来他俩是不分胜负不罢休了!」

接下来上场了一只怪兽,大模型也完全理解了画面的意思:「看样子孙悟空和奥特曼联手打败了怪兽,奥特曼正在高举着手臂庆祝胜利呢!」

而在旅行购物中,大模型的视觉交互功能也为我们提供了极大的便利。

比如直接提问:小瓶的这个是什么?

它直接告诉我们:这是雪花秀的人参眼霜。还会介绍相关细节,比如富含珍贵的人参提取物,能恢复眼部肌肤活力,减少细纹、抗衰。

如果直接告诉它想买大的,它就会告诉我们:大的并不是眼霜,而是同系列的人参面霜。

另外,它还能认出酒水品牌,比如左边的这瓶是经典XO版,右边的两瓶都是Club版,最右边的还是龙年限量款。

如果买一瓶带去朋友聚会,哪一瓶合适呢?它会告诉我们:Club版的酒龄较短,口味多元,更适合朋友间的小聚。

甚至在现场,它直接就识别出了讲台旁边的花是龙船花,还能告诉我们好不好养。

总之,无论是出门购物、下馆子,还是亲子绘本伴读、游戏互动,讯飞星火的多模态功能都给我们提供了丰富迅捷的体验,「哪里不会拍哪里」!

为何模型的多模态互动体验如此丝滑?

这是因为,融合了音频、视频两种多模态信息之后,AI在复杂场景下对情绪感知、事件识别、意图理解的准确率得到了大幅提升。

因为有了场景、文字、物体、姿态、着装等信息,情境感知会更全面;而交互中增添了语音、手势、行为、情绪等元素后,模型对任务的理解也会更精准。

超拟人数字人

上面的实时多模交互,除了会改变我们的游戏、学习、购物、美食、绘本伴读等场景,更重要的意义,则是让具身智能机器人、汽车等领域实现全新的人机交互升级。

很多原来做不成的事儿,如今都能接近实现。

不过,单纯的语音交互显然不太过瘾,为此,科大讯飞率先实现了业界首个语义贯穿的「口唇-表情-动作」的超拟人数字人。

首先,自然的情感贯穿,能让数字人根据上下文实时调整表情,不再是一成不变。

基于大模型的多模态交互技术,直接贯穿了文本、语音、数字人,让数字人的表情、动作、声音和情感更统一、更真实。

其次,超拟人数字人并非采用传统的预设动作,而是采用动态生成动作。

通过解析数字人语音中的情感、韵律以及文本语义信息,ta的躯干和四肢动作就能与语音内容自然匹配,更符合交互情境。

总之,在这个过程中,虚拟人所有表情动作都是整体化、语义贯穿的,直接由LLM统一了文本、语音和表情跨模态的语义一致性。

另外,系统还具有实时响应能力,讯飞的动作表征抽取技术,能快速生成数字人的表情和动作,让交互更流畅。

现场,科大讯飞研究院院长刘聪博士直接来了一段演示。

和他对话的虚拟人,无论是脸上的细微表情,还是时不时眨眼和说话时的动作,已经无限逼近真人。

在刘聪的要求下,ta给现场观众卖了个萌,当听说有几百万观众正在看自己,更是惊得瞬间睁圆了眼睛。

一句话一张图,「克隆」20年前的自己

接下来的彩蛋就更有趣了。

在讯飞星火APP的相应助手中,上传任意一张照片就能快速生成超拟人数字人了。刘聪直接给我们现场演示。

首先,他创建了一个自己的数字分身。

在编辑界面,可以很方便地定义这个「自己」的形象、声音、人设等等。

颇具亮点的是,在这个过程中我们可以通过「一句话」复刻声音。目前,科大讯飞已经实现了4.2分的水平。与之对应的,普通人是4.0分,播音员为5.0分。

不过,刘聪对这个数字分身不太满意,觉得ta有点沧桑了,于是替换成了一个更年轻版的自己。

现在,他开始和20年前的自己聊天。

两人探讨了现在的大模型技术后,刘聪告诉ta:我是20年后的你,你有什么问题想问我吗?

ta问出了藏在心底的那个问题:我每天都追的女同学,到底追到了没有?

刘聪笑着说:那还用说,她现在是咱家女神了!

话不多说,在讯飞星火APP「新建智能体」里,上传一张照片,就可以快速生成超拟人数字人了。

赶紧来体验吧。

多语言大模型首发,成世界第二选择

这次大会上,科大讯飞还首发了业界领先的「星火多语言大模型」。

除了中英,还首批支持8个新语种,它们分别是:俄语、日语、阿语、韩语、法语、西语、葡语、德语。

星火多语言大模型整体性能,已经达到了GPT-4o 96%的水平,与去年面世的星火3.0实力相当。

而且部分语种(英语、俄语、日语),在通用能力上甚至超越了GPT-4o。

大模型就像PC、互联网诞生一样,它会成为社会最基本的底层能力,会彻底改变科研范式和产业格局。

如果LLM只会说中文,就只能「封锁」在国内有效应用中。

在有限的算力下,科大讯飞团队经过10个月的努力,加大了在多语言模型的研发。不仅提升了算法,还用最小数据量训出了最优的模型。

语音识别首次实现全国地级市方言全覆盖

这一突破不仅为全球提供了「第二种选择」,更彰显了中国在人工智能领域的创新能力。

借助多语言大模型的能力,在讯飞办公本上,一段日语录音能够迅速变成摘要。

来京旅游的外国游客,还可以了解到豆汁为什么难喝,以及北京特产文化特色。

翻译机不仅是你的翻译官,还可以成为你的AI导游。

今天,星火多语言大模型将以API形式,向全球开发者、所有行业伙伴正式开放。

赋能千行百业,七项第一

大模型底座能力,决定了行业和专业模型能力。

讯飞星火大模型自诞生之初,就确定了「1+N」的战略布局,解决千行百业的刚需,助推产业的全面升级。

这次,1024开发者日上,讯飞星火大模型应用再次交卷!

在「赋能科研应用」、「智能汽车市场」、「教育医疗市场」、「大模型开发者生态」、「工业大模型」、「智能硬件市场」、「央国企中标」七大领域中,夺得第一。

赋能科研应用第一

今年诺贝尔奖的两大奖项,颁给了AI+领域的科学家们,再一次证明了AI能够变革科研范式,并成为科技界的共识和梦想。

AI在赋能科研中,需要走向三个台阶:从科研基础工作提效,到科学任务建模,再到科研方案设计,一步一步跃升。

AI for Science决定了中国科技的发展速度。毋庸置疑,科大讯飞也将AI赋能科研作为重要使命。

星火科研助手2.0发布一个月以来,科研调用效率提高了10倍,论文研究有效率和学术写作采纳率提升90%。

这一次,又进一步升级论文预审核和论文推荐的能力。

还有编程教学应用平台「马上」,让学生主动提问题增加1倍,教师辅导工作量减少了80%。

在真正用AI助力科研攻关中,科大讯飞联合团队在生物科技、科学装置方面,取得了一些成果。

讯飞联合中科大生命学院团队打造了蛋白质主链设计AI,原来所需6的月时间,大大压缩到1天!

他们已经设计出48个自然界不存在的全新蛋白质,研究论文刊登Nature子刊。

还有联合中科院等离子所团队,用LLM助力托克马克离子体控制,有望实现高效的人造小太阳。

在化学/化工领域,科学知识推演大模型已经在联合攻关。

总之,在中国今天赋能AI for Science领域中,科大讯飞是当之无愧的NO.1。

智能汽车市场第一

星火多语言大模型通用底座能力提升同时,已经在汽车、家电、办公、翻译等典型领域中,得到切实应用并碾压了GPT-4o。

在实际应用中,多语种模型在助力中国汽车出海方面发挥了重要作用。

中国出海TOP 10车企中,有8家企业都与科大讯飞达成了合作。出海500多万辆汽车,多语种技术大多来自科大讯飞。

目前,科大讯飞智能语音交互的装配量,超过6000万辆汽车。

大模型和多语言大模型双层buff加持,汽车变得更加智能了。

你可以用不同语言,让它帮你打开空调、来首音乐、咨询实时新闻等等。

另外,科大讯飞还首次发布了汽车端侧星火大模型。以后,开车即便是经过隧道、信号好不区域,也能本地调用大模型能力了。

教育医疗市场第一

科大讯飞一直以来都有一种教育情结——如何让技术更好地服务每个孩子?

智慧教育20年积累千万节优秀课例,600亿过程性学习数据,5万所学校、730万教师、1.23亿学生持续应用。

知识能力是基础,但应用知识的能力更加重要。而且,每位学生基本素养的培养,也是重中之重。

从知识,到能力,再到素养,大模型能够不断赋能教育。

这次,讯飞联合中国教科院首发基于「问题链」的高中数学智能教师助手。

它是众多高中数学优秀教师集体智慧与AI大模型智能的综合体,是知识与智能双轮驱动、人师与机师双向赋能的技术创新,试点应用获得好评。

在AI医疗方面,讯飞晓医正成为每个人的诊疗助理,健康助手。

而且,星火医疗大模型这次已经升级到了2.0版本,六大医疗核心场景能力重大升级并在业界持续领先GPT-4 Turbo/GPT-4o。

正式发布讯飞星火医学影像大模型,可实现各类影像自动质控,支持同一影像多病种识别诊断。

大模型开发者生态第一

一家独大不是春,唯有生态的繁荣,才能创造AI更广阔的未来。

目前,讯飞不仅语音语义市占率第一,大模型开发者规模也是第一。开发者总数超700万,其中LLM开发者有70多万。

不仅推进产品开发,讯飞还助力技术落地应用,让开发者用最快的时间、最短的路径实现产品成功。

比如,展馆中的xbot咖啡机器人,2小时就能完成多模态交互集成。

此外,讯飞还牵头成立了5亿元创业基金,联合地方政府为AI创业团队提供落地支撑。

不仅如此,自主可控也非常重要。

刘庆峰曾表示,「在AI激烈博弈当下,国产大模型底座能力和支撑,决定了能在这条路上走多远」。

自去年10月,科大讯飞联合华为发布了国内首个全国产算力平台「飞星一号」以来,继续深化算力布局。

基于万卡级国产算力集群,全面对标GPT-4 Turbo的讯飞星火V4.0大模型诞生。

这一次,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合启动「飞星二号」打造,进一步探索国产化大模型算力「无人区」。

工业大模型第一

基于星火大模型,目前已经诞生了20+行业大模型。现在,已有300+场景智能体应用,既有通用也有行业专用的。

目前,讯飞在应用场景中,已经形成了可以相互借鉴和复用的规模化效应。

智能硬件市场第一

LLM加持智能硬件方面,讯飞产品矩阵线上线下GMV同比增长50%。

央国企中标第一

目前,星火大模型已经成为央国企第一选择。今年大模型中标数、中标金额第一。

这是因为讯飞为企业LLM构建了,提供底层规划到执行落地的全套解决方案。

五大成功密码,AI未来无限可期

在人工智能发展历程中,科大讯飞以不断深耕的创新突破,勾勒出了一幅令人瞩目的科技发展画卷。

通过25年来的探索实践,他们也逐渐提炼出了AI未来发展的「五大关键洞察」:

顶天立地、自主可控、通专结合、端云联动、软硬一体

第一,「顶天」必须做到源头核心技术创新,底座模型要对标全球做好的,专业模型也要做到全球第一。每一次发布会,星火大模型性能不断攀升,与OpenAI最强模型打擂台。

「立地」是让LLM实现产业化,在不同场景中走向落地,进入深水区。七项第一,证明了星火大模型应用落地的领先性 。

第二,在当前国际格局快速变化之中,只有技术、算力自主可控才有大未来。

第三,通用模型和专业模型的结合,部署效率更高,专业能力更强。

最后,还有实现端云联动、软硬一体协同发展。

科大讯飞坚信,只要坚持这5个关键点,人工智能的未来无限可期,真正实现解放生产力,释放想象力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗称只有黎巴嫩停火才会与美会谈

伊朗称只有黎巴嫩停火才会与美会谈

界面新闻
2026-04-08 23:48:37
全红婵遭霸凌升级,4年没人阻止,2位省队友被揪,难怪她想离队

全红婵遭霸凌升级,4年没人阻止,2位省队友被揪,难怪她想离队

奇思妙想草叶君
2026-04-09 13:47:19
阿斯:相比皇马6000万欧签马斯坦托诺,拜仁签奥利塞堪称捡漏

阿斯:相比皇马6000万欧签马斯坦托诺,拜仁签奥利塞堪称捡漏

懂球帝
2026-04-09 06:53:23
C罗坐不住了?38岁本泽马乱杀:42分钟3球+率队6-0 只差胜利2分了

C罗坐不住了?38岁本泽马乱杀:42分钟3球+率队6-0 只差胜利2分了

风过乡
2026-04-09 05:58:51
当你觉得自己没用时,可以点进来看看元宇宙的现状。

当你觉得自己没用时,可以点进来看看元宇宙的现状。

差评XPIN
2026-04-08 00:13:54
为什么没人联合打以色列,答案很简单:不是没人想打,是没人敢打

为什么没人联合打以色列,答案很简单:不是没人想打,是没人敢打

混沌录
2026-04-07 17:48:09
知名港星癌细胞扩散至脑部,闻到身上有尸臭味,剩四分之一条人命

知名港星癌细胞扩散至脑部,闻到身上有尸臭味,剩四分之一条人命

叨唠
2026-03-15 17:36:49
全红婵正式报警!官方集体追责,圈内人网暴实锤,陈芋汐噩梦重演

全红婵正式报警!官方集体追责,圈内人网暴实锤,陈芋汐噩梦重演

晓劗就是我
2026-04-08 19:54:21
秦岚工作室声明:互不相识,从未有过任何往来

秦岚工作室声明:互不相识,从未有过任何往来

韩小娱
2026-04-09 10:47:48
卖完80多个万达广场,个人财富缩水9成,王健林手里还剩什么?

卖完80多个万达广场,个人财富缩水9成,王健林手里还剩什么?

正经的烧杯1
2026-04-08 13:29:04
71岁辽足功勋离世!妻子是女篮名帅,女儿六冠王,一门三杰太传奇

71岁辽足功勋离世!妻子是女篮名帅,女儿六冠王,一门三杰太传奇

洲洲影视娱评
2026-04-08 20:14:24
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
iPhone Ultra 售价曝光,国行起售价 17,999 !

iPhone Ultra 售价曝光,国行起售价 17,999 !

XCiOS俱乐部
2026-04-09 13:52:43
国籍风波不过7年,央视出手,邓亚萍迎噩耗,曝出两点重要信息

国籍风波不过7年,央视出手,邓亚萍迎噩耗,曝出两点重要信息

梨花黛娱
2026-04-08 14:51:22
采购价上万的商用一体机,如今才249块!可装Win10和飞牛系统

采购价上万的商用一体机,如今才249块!可装Win10和飞牛系统

闲搞机
2026-04-09 11:01:03
女子车祸截瘫案开庭,只想得应有赔偿,肇事男友首回应,评论炸锅

女子车祸截瘫案开庭,只想得应有赔偿,肇事男友首回应,评论炸锅

暖心萌阿菇凉
2026-04-08 09:08:03
大S的体面终究彻底碎了!清明节她的墓前冷冷清清几乎没亲人现身

大S的体面终究彻底碎了!清明节她的墓前冷冷清清几乎没亲人现身

小娱乐悠悠
2026-04-09 09:24:55
1000斤巨猪跨境入侵!中俄边境8条通道紧急应对,300万野猪泛滥!

1000斤巨猪跨境入侵!中俄边境8条通道紧急应对,300万野猪泛滥!

三农雷哥
2026-04-08 22:52:49
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
巴萨球迷意难平!不止因为主场0-2不敌马竞,更多在于以下五点!

巴萨球迷意难平!不止因为主场0-2不敌马竞,更多在于以下五点!

田先生篮球
2026-04-09 07:49:17
2026-04-09 16:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14933文章数 66756关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

合资3.0革命性重构,文飞与神行者背水一战

态度原创

本地
手机
艺术
公开课
军事航空

本地新闻

建水Color Walk | 古城慢调,掉进春天的调色盘里

手机要闻

摩托罗拉Edge 70 Pro手机曝光:6500mAh电池配90W快充

艺术要闻

庞茂琨 2026油画写生新作

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版