![]()
划重点:
1、第八届世界声博会暨全球1024开发者节上,科大讯飞董事长刘庆峰判断,AI产业红利兑现需聚焦自主可控、软硬一体、行业纵深和个性化四大核心。作为2025年讯飞新出品的AI翻译软件,讯飞翻译APP的迭代焕新尤为引人关注。
2、一个革命性的技术突破,在于非自回归语音大模型架构。这种端到端架构与传统的级联翻译方案形成了鲜明的技术代际差异。
3、讯飞翻译APP迭代的核心,是同声传译功能的全面进化。包括四大核心优化点:引擎焕新、实时分享、记录留存、悬浮字幕,使其从一个单纯的翻译工具,进化为支持协作的新范式。
4、科大讯飞的战略并非局限于APP,软硬一体是其AI在真实世界应用落地的关键。翻译功能,正是软硬一体战略的最佳实践场。同时,科大讯飞此前还推出了讯飞翻译SaaS平台,提供了从专业翻译服务到数据聚合管理的一站式解决方案。
5、科大讯飞正在利用自主可控的底层大模型技术,软硬一体和更懂你的AI,从根本上重塑实时翻译的体验。
作者 林易
编辑重点君
2025年,全球人工智能产业正集体迈过技术奇点,进入红利兑现时刻。大模型的发展焦点,已从参数竞赛转向解决真实世界问题的规模化落地。
在日益紧密的全球化协作、旅行和信息消费中,跨语言沟通始终是最高频的刚需之一,也是一道难以逾越的屏障。传统的翻译工具在处理实时对话、高噪环境和专业领域时,长期面临延迟、失准和体验割裂的挑战。
行业需要更根本的解决方案。11月6日,科大讯飞在第八届世界声博会暨全球1024开发者节上,给出了自己的答案。在这场以《更懂你的AI》为主题的发布会上,科大讯飞董事长刘庆峰判断,AI产业红利兑现需聚焦自主可控、软硬一体、行业纵深和个性化四大核心。
在这一战略框架下,科大讯飞发布了深度推理大模型讯飞星火X1.5,以及一系列AI产品。其中,作为2025年讯飞新出品的AI翻译软件,讯飞翻译APP的迭代焕新尤为引人关注。
科大讯飞的路径十分清晰:利用自主可控的底层大模型技术,软硬一体和更懂你的AI,从根本上重塑实时翻译的体验。
为翻译而生的根技术
任何一款颠覆性的应用,都源于底层根技术的突破。讯飞翻译APP体验革新的背后,是科大讯飞在AI翻译技术和基础模型两条战线上同时取得的进展。
一个革命性的技术突破,在于非自回归语音大模型架构。实时翻译的瓶颈不仅在翻译的准度,更在语音识别的速度。传统的自回归模型需要逐字顺序生成文本,天然存在延迟。
科大讯飞此次全球首发的非自回归语音大模型架构(即端到端语音同传大模型的核心技术之一),能够并行、一次性输出整个文本序列,带来了推理效率的大幅阶跃:效果相对提升16%,而推理成本下降了520%。这项新技术也为讯飞翻译APP实现“语音秒译”提供了坚实的技术前提。
![]()
这种端到端架构与传统的级联翻译方案形成了鲜明的技术代际差异。传统方案将任务拆解为“识别、翻译、合成”三个独立模块,串行处理导致时延叠加、信息损失和错误累积。
科大讯飞的端到端同传大模型则彻底颠覆了这一流程,它使用统一大模型模仿人工口译思维链,实现了全局最优的翻译质量,能深度整合上下文、传递源语言韵律,并达到2秒的极致响应,为实时交流提供了坚实的技术保障。
技术路线的选择决定了未来。科大讯飞选择了更具挑战性的端到端路线并成功实现商业化,而传统级联方案的性能上限已被固有缺陷锁定。
科大讯飞的领先优势不仅在于技术先进性,更是全方位的:从率先发布抢占时间先机,到9个月内3次升级的快速迭代;从服务百万用户与超42万场会议积累的海量数据,到全线产品应用端到端技术的完整布局,再到与产业链紧密合作的深度生态。这些综合优势共同叠加,使其在AI翻译领域建立了稳固的地位。
如果说领先的端到端架构解决了“快”与“准”的全局体验,那么垂直领域的深度则依赖专业的同传大模型。星火语音同传大模型已升级至2.0版本,覆盖超8万个专业词汇,大幅提升了专业领域的准确性。
而承载上述所有翻译技术突破的坚实底座,则源于自主可控的星火X1.5大模型。自主可控是科大讯飞的基石。刘庆峰在发布会上表示,讯飞星火是目前中国主流大模型中,唯一基于全国产算力训练的通用大模型。在国产算力平台上训练先进的MoE(Mixture of Experts)架构,科大讯飞已攻克全链路训练效率等难关。
此次发布的讯飞星火X1.5,推理效率相比X1提升了100%,更重要的是,它为翻译应用提供了强大的多语言能力,目前可支持130多种语言,在拉美、东盟等地区的14个重点语言上效果领先。
根据国际数据公司(IDC)发布的《中国AI翻译技术评估》,科大讯飞在AI翻译速度、效果、专业度等八大核心维度评测中均为行业第一,其中六项斩获满分。坚实的技术底座,让讯飞翻译APP的体验重塑成为可能。
所听即所译的实时体验
利用自研的先进技术,讯飞翻译APP 旨在从两个核心的实时场景——同声传译和音视频翻译出发,彻底改变用户的跨语言沟通工作流。
本次1024开发者节期间,讯飞翻译APP迭代的核心,是同声传译功能的全面进化。
在传统认知中,同传是高度专业化的服务,或依赖昂贵的人力,或受限于复杂的硬件。而讯飞翻译APP则希望将“如译员在侧”的高效同传体验,赋能给每一个需要进行跨语言会议、课堂学习和演讲的普通用户。
![]()
此次焕新,讯飞翻译APP围绕同传功能构建了四大核心优化点,使其从一个单纯的翻译工具,进化为支持协作的新范式,比如:
引擎焕新:搭载全新的语音同传大模型,带来更准、更快、更流畅的实时翻译体验。
实时分享:支持一键分享实时同传内容。这意味着,即便同事或朋友在远程参会,也能通过分享卡片打造的同传频道,同步查看实时译文,确保关键信息不再遗漏。
记录留存:同传内容(包括音频与文本)会自动保存并支持导出,历史记录可随时回看。这解决了实时会议中信息易挥发、难追溯的痛点,便于后续复盘和整理。
悬浮字幕:用户无需停留在APP界面,即可通过悬浮字幕查看同传内容。这使得“边听译边处理其他事务”成为可能,大幅提升了多任务处理效率。
在1024开发者节的直播演示中,讯飞翻译APP产品经理展示了全球化办公的典型场景:面对全英文会议,打开“同声传译”功能,发言人话音刚落,精准的译文便实时呈现于屏幕。
如果说同传功能解决了主动沟通的难题,那么沉浸式翻译则攻克了被动接收信息的壁垒。
用户在日常生活中,面临大量无字幕的外文音视频内容,如外文播客、海外影视剧、国际直播或应用。科大讯飞的解决方案是沉浸式翻译,其核心是“所听即所译,沉浸不中断”。
该功能启动后,讯飞翻译APP会保持后台运行,实时翻译手机上正在播放的任何音频或视频内容,并以悬浮字幕窗的形式呈现译文。用户可以灵活调整字幕窗口,选择双语对照或只看译文,真正实现边看边译的无缝体验。
在11月6日的1024发布会直播期间,讯飞翻译APP就为全球观众免费提供了这一功能,支持中文与英、日、韩、法、俄等15种语种的互译,让全球观众无障碍观看。
从解决会议痛点的同声传译,到打破信息茧房的沉浸式翻译,讯飞翻译APP正在借助大模型的能力,将翻译体验推向一个更实时、更无缝的新高度。
软硬一体的战略纵深
科大讯飞的战略并非局限于APP。刘庆峰在发布会上强调,软硬一体是AI在真实世界应用落地的关键。大模型需要从手机、电脑走向机器人和更多的智能终端。
翻译功能,正是“软硬一体”战略的最佳实践场。要实现精准的实时翻译,第一步是解决嘈杂环境下的“听清”问题。为此,科大讯飞发布了“AI+麦克风阵列技术”,并将其应用到一系列硬件中:
讯飞智能办公本X5:首创上4下4环麦克风大阵列,根据现场视频演示结果,在高分贝和远距离环境下的转写效果远超iPhone17 pro。
讯飞AI翻译耳机:首创单耳三麦多感融合降噪系统,采用“骨导+气导”双拾音,在地铁等嘈杂环境准确率达97.1%,远超AirPods 3。
讯飞双屏翻译机2.0:实现1米以内穹顶式隔音降噪,适应轰鸣工厂等极端环境。
同传麦克风:此次发布的业界首个软硬一体同传麦克风,置于会议桌即可使用,支持10种语言免切换自动翻译,且支持私有化部署,保障数据安全。
![]()
与此同时,科大讯飞此前还推出了面向企业和专业团队的讯飞翻译SaaS平台。它整合了文本、文档、同传、音视频译制、人机协同五大核心翻译能力,通过打通多端设备的数据链路,为企业提供了从专业翻译服务到数据聚合管理的一站式解决方案。
这些硬件与讯飞翻译APP,共同构成了科大讯飞在翻译领域的生态护城河。软件APP负责高频、便捷的C端应用;专业硬件则攻克高噪、远场、B端安全的特定场景;SaaS平台则将软硬能力整合,为企业级应用提供了统一入口。
![]()
从自主可控的端到端语音同传大模型,到重塑体验的APP同传与沉浸式翻译,再到“软硬一体”的硬件与SaaS生态布局,科大讯飞正在AI翻译这条核心赛道上,完成从技术红利到产品红利和市场红利的兑现。
正如讯飞翻译APP在东盟博览会作为指定翻译软件的实战检验,这场聚焦AI生态落地的1024盛会,最终指向的是一个明确的价值——“让跨语言沟通像母语聊天一样简单”。
而这,才是科技进步的意义!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.