网易首页 > 网易科技 > 网易科技 > 正文

在技术浪潮中求生:语言桥的实践和探索

0
分享至

(原标题:在技术浪潮中求生:语言桥的实践和探索)

本文记录了语言桥从2000年成立至今的技术发展历程,从CAT工具的应用,到自研机器翻译系统的突破,再到大语言模型时代的转型探索。作者以亲历者的视角,分享了在AI技术浪潮中,一家传统语言服务企业如何通过持续的技术创新和"AI系统+专家系统"的理念实现转型升级的经验。文章为语言服务行业在AI时代的发展提供了有益的思考。

2017年冬,我去了一趟沈阳,约见了东北大学的朱靖波老师,他也是小牛翻译的创始人,朱老师为人比较爽快,交谈之中得知我们两个竟然是同年出生,又是本家都姓朱,朱老师就很爽快地请我吃上了东北菜。饭桌上,我们约定2018年春天在成都召开一次机器翻译论坛。

过了几年之后,再回想此事,才明白那是因为机器翻译的春天到了。2017年由 Google Brain 等研究团队(Vaswani et al.)提出的一篇重要论文《Attention Is All You Need》,阐述了一种全新的序列到序列(sequence-to-sequence)模型架构,也就是后来广泛使用的 Transformer。

它最大的创新点在于彻底抛弃了以往在自然语言处理(NLP)中常用的循环神经网络(RNN)和卷积神经网络(CNN),只使用基于注意力机制(Attention Mechanism)的模块来完成建模。这篇论文之所以重要,在于它极大地改变了之后的 NLP算法设计思路,并在各类语言任务上取得了极好的效果。

可以说,这是一篇跨时代的文章,成为当今自然语言处理(NLP)的基石,催生了BERT、GPT、T5等划时代模型,并逐步扩展到计算机视觉、语音、多模态等领域。这篇文章就如同那星星之火,点亮了今天各种大模型的燎原之势。

语言桥是2000年成立的,主要为客户提供翻译服务,所以我日常就比较关注翻译技术的发展,从各类电子词典,到后来的各种CAT系统,应该说各类软件都试用过。2005年左右,Trados在国内翻译圈开始普及,它是一款专业的计算机辅助翻译软件(CAT,Computer-Aided Translation),由原先的 Trados 公司开发。其中的一个主要功能是翻译记忆库(Translation Memory,TM),即在翻译过程中,软件会将已经翻译过的内容(原文与译文)存储到数据库中,下一次遇到相同或相似的句子时,会自动匹配并提供建议,提高翻译效率与一致性。

对于专业译员来说, CAT工具可以极大地提高工作效率和质量,所以类似Trados的CAT工具在译员中间比较常见。但由于Trados定价较高,且操作比较复杂,我们在2015年着手开发自己的CAT系统,当时组建了一支30多人的技术团队,大概用了两年多的时间,开发了语言桥的LanCAT平台,到2017年底,LanCAT已经在语言桥内部全面部署和使用了。

在此之前,大家对机器翻译(MT)了解并不多,因为不管是基于规则的机器翻译系统(RBMT)和还是基于统计的机器翻译系统(SMT)的翻译质量都很差,很难被译员接受,大家也就很少关注。直到2016年,Google、微软、Facebook等公司开始将 RNN+Attention或类似的神经网络模型应用到在线翻译服务中,让大众体验到NMT在翻译质量与流畅度方面显著优于传统的统计机器翻译(SMT)。

2017年,Google团队推出了完全基于注意力(Attention)机制的 Transformer 模型,彻底抛弃了 RNN,Transformer在翻译任务上的表现更好、训练速度更快。正是因为翻译质量的明显提升,神经网络机器翻译(NMT)才开始被广泛提及和应用。

2018年成都会议之后,我认识到技术的发展势不可挡,并开始加大对技术的投入,一方面招兵买马,把技术团队从原来的30多人,扩大至50多人,另一方面加强和科研机构的合作。2019年我们和电子科技大学闫明明老师的团队签订了一个横向合作项目即《基于模糊类聚的神经机器翻译算法系统》。

2020年,我们又和西湖大学张岳老师的团队合作签订了三年的技术研发委托协议,旨在打造我们自己的机器翻译系统,直到2021年底,语言桥推出了自己的机翻系统LanMT,并于2022年参加了WMT国际机器翻译大赛,在训练数据少、训练难度高的8个小语种方向,取得了所有参赛队伍中的最好成绩,荣获2项冠军和8项亚军的优异成绩。

为了提升LanMT在主流语种(中英-英中)方面的表现,LanMT机器翻译团队提升了数据质量并优化了训练方法,在2023年WMT的比赛中,斩获英中赛道第一名和中英赛道第二名的好成绩。

至此,我们把LanMT集成到LanCAT中,并在公司内部广泛使用,得到众多译员的一致好评。基于公司自研的LanCAT和LanMT,我们又先后开发了LanOCR、MH(Machine Human人机共译系统)、Doc-Trans(文档快译系统)、PBLT(Project Based Language Training翻译教学实训系统)、以及Dtranx AI Dubbing、AI Live等工具和平台。并针对语言桥的客户,推出了SaaS和私有化部署服务。从2015年算起,我们在技术上的投入已累计上亿元,目前已经有不少行业客户订阅或者部署了语言桥的各类系统,我们在技术上的投入也算得到了内部和外部的认可,并取得了一定的回报。

LanCAT

LanMT

DTRANX AI

PBLT

文档翻译

LanOCR

在LanMT的立项和研发过程中,充分利用了语言桥的优势,一方面是我们有大量的高质量的语料积累,另外一方面是我们有将近500人的专职翻译和审校团队,技术团队和审校团队密切合作,形成了一个闭环,即机器和专家协作的闭环(Expert-in-the-loop),这样可以做到人机交互的及时反馈,技术团队可以快速优化数据和训练方法,我想这也是为什么我们能在三年之内推出自己的机翻系统,并取得优异成绩的原因之一吧。

另外,还有一个来自于业内的观点值得一提,在莱博智2023年度《机器翻译报告》中提到,“MT 这项技术在2022年期间没有显著改进,到2023年初,主流引擎之间的差距变得微乎其微。假设NMT 范式继续占主导地位,并且 MT 提供商继续以类似的速度进行投资。在这种情况下,尽管不同语言对和领域之间可能会存在一些差异,但我们预计 MT引擎的性能最终将在本年内趋于一致。”,看到这里,我想这也是为什么语言桥的机翻引擎LanMT能在这个时间点上取得优异成绩的另外一个原因吧。

从2016年到2022年,NMT的质量迅速提升,但也遇到进一步提升的瓶颈,NMT范式的发展是否达到了平台期?而大语言模型(Large Language Models) 在2022年取得了重大进展,特别是Open AI在2022年11月30日推出的ChatGPT后,迅速获得广泛关注,成为主流大众认知的里程碑事件。

记得是2023年初的春节期间,ChatGPT在国内大火(尽管在国内大部分人还用不上),好像世间出现了一个新物种,大家都用新奇的眼光打量着它,拿来各种问题去问它,甚至是故意刁难它,它好像是个无所不知的万能博士,不急不慢的回答着来自世界各地用户提出的各种各样的问题。第一批用户急不可耐地把自己的体验分享到互联网平台上,又有更多的用户涌进来,根据公开报道,ChatGPT仅用了两个月的时间就达到了月活跃用户上亿的规模。

记得我也在第一时间分享了自己的使用经验,并在语言桥之声公众号上发表了两篇文章,一篇是《和ChatGPT谈翻译:技术、职业及行业发展》,另外一篇是《和ChatGPT谈搜索:搜索、问答系统及聊天机器人》,两篇文章都收到了广泛的阅读和关注。

如果说神经网络机器翻译(NMT)是在原来基于规则的机器翻译(RBMT)和基于统计的机器翻译(SMT)基础上,取得了很大的进展,但也仅仅是在学术圈和翻译圈大家才有广泛的认知,普通大众知道的并不多,使用的则更少。但ChatGPT的横空出世,打破了人工智能的研究及成果仅在学术圈和相关行业圈传播的界限,打开了普通大众对人工智能的期待和幻想,越来越多的人开始相信人工智能,也开始把它作为一种工具来使用。

语言桥的LanMT成熟以后,我们就开始在内部系统上部署并优化了原来的工作流程,提出来MT+PE的概念,即机器翻译(Machine Translation)+人工审校(Post-editing)。但后来,随着大模型翻译质量的提升,我们又提出新的模式,即打造两个系统:AI系统+专家系统。我们用“让AI系统更智能,让专家系统更可靠”的理念来指导我们的技术研发方向以及专家的工作目标。

AI系统包括CAT,MT,OCR,LLMs等各种工具和平台,我们把这些工具有效整合,并根据不同的应用场景对工具和模型进行调优。专家系统按不同的领域和专业,不同的语种和背景进行分类。专家要懂得使用和驾驭AI系统,AI系统借助专家系统不断迭代升级,专家系统借助AI系统不断提高效率和能力。

AI系统和专家系统相互依存、协同工作,形成公司核心竞争力。凭借先进的理念,以及扎实的基础,语言桥的业务并未受到技术引发的太大的冲击和影响,我们的专家队伍不仅没有减少,反而随着业务的发展还在不断增加。

每当我在外参加活动,见到一些新朋友,在介绍自己的时候,我说我是做翻译的,总会有些朋友上来就问,现在机器都翻译的挺好的,还需要你们专业的人工翻译吗?我对朋友们说,大模型来了,我们是最早被洪水冲到河里的一拨人,如果我们随波逐流,而不奋力搏击,那很快就会被冲到大海里,等到了大海里面,你就再也找不到自己了。

我还会耐心的给朋友们解释语言的多样性和场景的复杂性。我认为,翻译还是一个非常复杂的工作,不管技术如何进步,也很难达到完全取代人的地步,为了更好的完成任务,人机协同还会长期存在。

的确,对于一般性质的、日常交流的语言,机器已经翻译的很好了,你能明白机器翻译所表达的意思。但对于质量要求较高的资料,如法律文书、合同、规范、标准、专利、产品说明书、营销材料等,若仅用机器翻译,客户是无法放心去使用或者对外发布的。

ChatGPT问世之后,大家的关注点开始从NMT转向LLM,技术公司对 LLM 技术表现出很浓厚的兴趣,并不断加大投入。尤其是在中国出现了“百模大战”的局面,呈现出各种“大规模深度学习模型”竞相发展的态势,主要表现为科技公司、研究机构等竞相推出参数庞大、计算需求高的AI模型,以争夺技术优势和市场主导地位。

两年之后,又是在春节期间,DeepSeek 火速出圈,掀起了一波新的浪潮。DeepSeek在2025年1月20日发布R1模型后,在短短7天内突破了1亿用户,创造了新的记录。DeepSeek以低成本、高效率、开源等特点出圈,并震惊世界,仿佛是一夜之间,家家户户都用上了DeepSeek,极大地推动了人工智能技术在中国的落地和普及。

从ChatGPT到DeepSeek,当然中间还有很多大模型,我们的技术团队都是在第一时间跟进并评估其翻译质量,并在必要的时候,接入我们的LanCAT系统,供我们内部译员和外部用户使用。相比机器翻译,大模型在语感和上下文理解方面比较擅长,但时不时会有幻觉出现,难以觉察和控制。相比大模型,机器翻译反应速度快、效率高、不会有幻觉,并且针对小语种或特定的专业领域,比较容易定制化训练。

当前,根据不同的应用场景,我们会采用不同的技术方案,有用机器翻译的,也有用大模型的,也有两者结合的。但是不管用什么样的机器翻译或者大模型,都很难达到精准翻译的目的,最终还是需要专家来把关。对很多专业的译员来说,CAT是工作界面、是文本效率工具(解决了很多文本格式的问题),NMT是翻译效率工具,LLMs则是问答系统(比google和百度好用太多)。当然,也有译员用NMT做翻译,然后用LLMs做问答和审校。随着LLMs技术的发展,其质量还可能会进一步提升,大家也可能会直接用LLMs做翻译,再调用LLMs的能力做审校。

站在2025的节点回望,从CAT技术在国内的普遍使用,到今天有NMT和LLMs的加持,技术的每一次进步都在重新定义人机工作的内容和边界。在技术浪潮的推动下,翻译行业正经历前所未有的变革。无论是计算机辅助翻译(CAT),还是神经网络机器翻译(NMT)和大模型(LLM),技术的进步永远是双刃剑:它既带来了效率的飞跃,也对人类译员提出了更高的要求。

未来的翻译行业,不再是单纯依赖机器或人类,而是“人机协同”的深度融合。译员不再是单纯的翻译者,而是技术的驾驭者、内容的把关者、文化的桥梁搭建者。技术可以提供速度和规模,但只有人类才能赋予语言以温度和深度。

在新一轮的技术革命中, 随着大模型的基础能力不断提升,Agent、通用智能、模型上下文协议(Model Control Protocol, MCP)等概念陆续出现,AI已经可以进行浏览器控制(Browser Use)甚至是电脑控制(Computer Use),可以想象,技术又将推动我们现有的人机交互模式进入全新的时代,开启翻译行业的新篇章。Translator Agent将超越传统的机器翻译工具,从一个需要我们主动使用的工具,到一个具备深度学习能力的智能翻译伙伴。

正如我常对团队说的那样:技术的洪流不可阻挡,但我们可以选择如何游泳。与其随波逐流,不如主动拥抱变化,用技术赋能专业,用专业反哺技术。未来的翻译行业,属于那些既懂技术又懂语言、既懂专业又懂文化的人。而我们,正在用“AI系统+专家系统”的理念,为这个行业探索一条可持续发展的道路。

文 / 语言桥集团董事长 朱宪超

本文源自语言桥集团官方公众号,文中提及相关链接及技术产品还请移步公众号获取。

相关推荐
热点推荐
H200芯片还未运抵中国,美科技巨头放大招,英伟达被资本制裁了?

H200芯片还未运抵中国,美科技巨头放大招,英伟达被资本制裁了?

法老不说教
2025-12-18 00:37:25
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

春秋论娱
2025-09-09 07:26:27
全国小学生流行的18句口头禅,第一句就让我气炸

全国小学生流行的18句口头禅,第一句就让我气炸

上海女性
2025-12-08 18:41:03
国籍严查打响第一枪!华人被拦机场,“双面人”中国坚决不要!

国籍严查打响第一枪!华人被拦机场,“双面人”中国坚决不要!

青仔的世界
2025-12-07 05:16:52
回天乏术!卫星图像证实俄潜艇遭重创:码头现9米混凝土弹坑!

回天乏术!卫星图像证实俄潜艇遭重创:码头现9米混凝土弹坑!

军迷战情室
2025-12-17 21:26:46
事到如今,日本人还是没有办法接受,中国的综合实力竟远超自己

事到如今,日本人还是没有办法接受,中国的综合实力竟远超自己

阿器谈史
2025-12-16 15:00:52
美国人的疑问:本拉登对多国发起袭击,为何唯独放过中国?

美国人的疑问:本拉登对多国发起袭击,为何唯独放过中国?

珺瑶婉史
2025-11-19 19:20:06
出大事了,铜管换成铝管了,觉得以后想买个好的空调都困难了!

出大事了,铜管换成铝管了,觉得以后想买个好的空调都困难了!

达文西看世界
2025-12-16 15:58:55
最快女护士张水华涉嫌虚假宣传国际健将头衔,白岩松都被她唬住了

最快女护士张水华涉嫌虚假宣传国际健将头衔,白岩松都被她唬住了

杨华评论
2025-12-17 19:56:10
12345不能瞎打了!刚落地的新规,到底是管我们还是帮我们?

12345不能瞎打了!刚落地的新规,到底是管我们还是帮我们?

今朝牛马
2025-12-17 22:04:44
日本媒体称,在中国赴日提醒一个月后,日本的旅游业担忧长期化

日本媒体称,在中国赴日提醒一个月后,日本的旅游业担忧长期化

深度报
2025-12-16 23:31:07
80岁老太感染上艾滋,女儿查看监控后瞠目结舌,连捅男保姆43刀

80岁老太感染上艾滋,女儿查看监控后瞠目结舌,连捅男保姆43刀

民间精选故事汇
2025-05-12 08:01:12
保时捷男打女人后续:女方伤情严重拒绝和解,打人原因曝光太可笑

保时捷男打女人后续:女方伤情严重拒绝和解,打人原因曝光太可笑

奇思妙想草叶君
2025-12-11 02:44:02
马克龙撰文:欧盟对华加征关税是“非合作性的应对方式”,继续沿用可能引发严重贸易争端

马克龙撰文:欧盟对华加征关税是“非合作性的应对方式”,继续沿用可能引发严重贸易争端

环球网资讯
2025-12-17 18:32:07
黎智英被定罪,儿子:希望各国权衡与中国关系时,再提释放父亲。

黎智英被定罪,儿子:希望各国权衡与中国关系时,再提释放父亲。

南权先生
2025-12-17 16:51:04
郭晶晶没想到,移居美国惨遭丈夫抛弃的高敏,已走上另一条上坡路

郭晶晶没想到,移居美国惨遭丈夫抛弃的高敏,已走上另一条上坡路

科学发掘
2025-12-17 14:59:03
1934年哥萨克骑兵与马家军在新疆交锋,马家军杀疯了,大呼过瘾!

1934年哥萨克骑兵与马家军在新疆交锋,马家军杀疯了,大呼过瘾!

百年历史老号
2023-12-23 16:06:25
被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

夜深爱杂谈
2025-12-02 20:51:10
继海南之后,广西和云南多地也开始驱赶房车,究竟为哪般?

继海南之后,广西和云南多地也开始驱赶房车,究竟为哪般?

趣味萌宠的日常
2025-12-17 00:13:52
小卡21分3盖帽助快船止连败,哈登表现不佳

小卡21分3盖帽助快船止连败,哈登表现不佳

郭夷包工头
2025-12-17 23:02:51
2025-12-18 07:40:49

科技要闻

Gemini3 Flash来了:性能不输Pro 成本仅1/4

头条要闻

马克龙发文:欧盟必须对中国开放 但有个前提

头条要闻

马克龙发文:欧盟必须对中国开放 但有个前提

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重大改革,身关14亿人的政策彻底变了!

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

数码
手机
亲子
教育
军事航空

数码要闻

内核调试工具显示苹果曾测试搭载 A15 芯片的 MacBook

手机要闻

屏下Face ID首次落地?苹果iPhone 18 Pro正面设计或迎关键变化

亲子要闻

近视风险可预测,首个儿童“远视储备”国家标准今在沪发布

教育要闻

影响成绩好坏的因素都有哪些?

军事要闻

最新现场:山东舰完成年度最后一次海上训练

无障碍浏览 进入关怀版
×