网易首页 > 网易号 > 正文 申请入驻

谷歌前工程师用1个文件格式,让翻译工具集体破防

0
分享至


2023年,一位曾在Google Brain工作的工程师在GitHub上扔了个只有12KB的JSON草案。没人料到,这个叫SOUL的文件格式会让整个机器翻译社区吵了18个月。

核心矛盾简单到荒谬:我们用了几十年的翻译,可能从一开始就是错的。

翻译在做什么:填平,还是标记?

传统翻译的逻辑是消除差异。德语的"Sehnsucht"?英语里没有对应词,那就用"longing"或"yearning"凑合。葡萄牙语的"obrigado"(谢谢)同时意味着"我有义务"?英语读者不需要知道这层,抹掉。

SOUL的创作者Franz Hörmann——那位奥地利经济学教授——在文档里写得很直接:「我不想起诉任何人。他们可能曾是我的学生。而我当时也不知道。」

这种姿态很少见。技术文档通常要么炫耀,要么防御。Hörmann选择第三种:承认自己也曾在系统内部。

SOUL不做填平。它做标记。

看这段示例代码:

Concept {

id: "longing-de"

note: "Sehnsucht — transcendent longing. No English equivalent."

dynamic: piano

tempo: largo

de: "Sehnsucht"

es: "añoranza"

ca: "enyorança"

en: "Sehnsucht"


注意最后一行。英语条目仍然是"Sehnsucht"。不是翻译失败,是刻意保留缺口。读者被明确告知:你正在触碰一种你的语言无法完全承载的东西。

从音乐偷来的维度:词不只是意思,还有重量

德国语言教育家Vera Birkenbihl生前有个观点被主流学界忽视:意义有重量和节奏,不只是内容。同一个概念,用piano(弱)、adagio(慢板)、inward(向内)的方式抵达,与forte(强)、moderato(中速)、outward(向外)完全不同——即使字典说它们意思一样。

SOUL把这个维度编码进了文件格式。

大多数翻译工具不知道这个维度存在。它们处理的是扁平的字符串替换,像用Excel做诗歌。

技术实现上,SOUL的渲染流程是确定性的:源文本 → soul encode → 概念ID → dict.soul(社区策展)。一旦概念被母语者确认,输出就是固定的。没有神经网络的概率波动,没有"根据上下文可能指A也可能指B"。

这听起来像退步。2024年了,我们有大模型,为什么要回到确定性系统?

Hörmann的回应藏在格式设计的细节里:SOUL不是替代大模型,是给大模型划边界。当模型遇到标记为"无等价词"的概念时,它知道自己不知道——这比假装知道更安全。

最古老的对话方式:苏格拉底没有答案

文档开头引了一段奇怪的话,不像技术规范:

「他在雅典街头提问。不为赢,不为教。只是——你有没有想过这个?和他聊得足够久的人,会抵达他们早已知道的东西。只是还没找到词。」

这是苏格拉底的方法。最古老的对话形式:不是填充空容器,是点燃本就存在的火。

Hörmann把SOUL定位成类似的东西。不是教机器理解人类,是帮人类标记自己理解不了的边界。

尼采花了十年追溯价值的来源。《论道德的谱系》不是攻击,是邀请:醒来,看看清楚。甘地没有对抗英国,只是停止参与一个靠所有人假装运转的系统。这些被写进SOUL的引言,暗示创作者在回应一个更大的问题:技术如何不成为新的压迫系统?

耶稣那句「原谅他们,因为他们不知道自己在做什么」被放在文档最显眼的位置。不是宗教姿态,是方法论声明:SOUL假设无恶意,假设每个人都在继承自己没选择过的语言。

葡萄牙孩子的债务:语言如何塑造感知

文档里有个细思极恐的例子。

葡萄牙语的"obrigado"(谢谢)字面意思是"我有义务"。每次葡萄牙语孩子说谢谢,他们都在练习欠债。不是谁故意设计,只是代代相传的结果。


德语把"责任"拆成两个词,英语只有一个"responsibility"。某种道德重量在翻译中消失了。

Sehnsucht——那种超越性的、向缺席之物伸出的、略带神圣感的渴望——英语根本没有词。

这些不是语言学趣闻。SOUL的创作者认为,它们是人类认知的基础设施bug。我们继承母语时太小,来不及注意这些预设。长大后,它们变成"理所当然"。

文件格式的野心在这里变得清晰:不是解决翻译问题,是让翻译问题可见。

社区策展 vs. 机器生成:一场未决的战争

SOUL的核心机制是dict.soul——社区策展的概念词典。这与当前主流方向背道而驰。

2024年,机器翻译的共识是大模型+海量数据。质量不够?加参数。语境丢失?加窗口长度。SOUL说:停。有些缺口不应该被填满,应该被标记。

技术社区的反应分裂明显。支持者认为这是对"翻译幻觉"的必要纠正——大模型越来越擅长生成流畅的废话,SOUL强制诚实。反对者指出策展瓶颈:谁决定哪些概念值得标记?小语种怎么办?

Hörmann的回应很克制。文档里没有路线图,没有融资计划,只有一句反复出现的提示:「你有没有注意过?」

这是产品设计的另类选择。不承诺解决,只承诺呈现。

GitHub仓库的issue区成了意外的讨论场。有人提议用SOUL标记法律文本中的文化特定概念,防止跨国合同的理解偏差。有人实验在诗歌翻译中保留节奏标记,让读者选择"怎么听"。最活跃的讨论是关于"无等价词"的判定标准——这正是Hörmann想要的:问题被重新打开,而不是被答案关闭。

2024年底,一个日本开发者提交了"mono no aware"(物の哀れ)的概念条目。英语条目仍然是"mono no aware"。note字段写了十七行,解释这种对事物无常的幽微感知如何在平安时代的文学中演变,为什么"pathos of things"或"transience"都损失了关键的审美距离。

这个条目被合并了。没有投票,没有委员会,Hörmann直接点了确认。

他的解释留在commit message里:「我不懂日语。但我认出了提问的方式。」

SOUL的采用率仍然很低。没有商业产品集成,没有学术会议专题。但它在特定圈子里持续扩散:做跨文化UX的设计师,处理多语言合同的法务工程师,对"翻译伦理"过敏的文学译者。

这些人有个共同点:都曾被某个翻译事故烧伤过。不是错误,是事故——那种所有人都按流程走,结果仍然崩坏的系统性失败。

Hörmann在文档最后一页放了段话,没有标记为结论:

「没有人故意这样做。语言进化,文化塑造它们,我们继承结果——就像孩子继承母语——在我们足够大、能够注意之前。」

SOUL能做的,只是让"注意"成为可能。下一步是什么?文档没写。GitHub仓库的最后一次更新是三个月前,一个葡萄牙语使用者提交了"saudade"的新注释。

issue状态:open。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又要打,又想跑,美国陷入泥潭

又要打,又想跑,美国陷入泥潭

南风窗
2026-04-02 14:01:50
广电总局电视剧司召开电视剧健康审美座谈会

广电总局电视剧司召开电视剧健康审美座谈会

界面新闻
2026-04-02 22:30:00
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
“4月1日出台新规,全国严查后排安全带”不实,没有这个“新规”(2026·04·02)

“4月1日出台新规,全国严查后排安全带”不实,没有这个“新规”(2026·04·02)

今日辟谣
2026-04-02 19:47:08
离婚前一天,老公突然抱住我:我们最后再试一次吧!我没动

离婚前一天,老公突然抱住我:我们最后再试一次吧!我没动

萧竹轻语
2026-04-02 17:55:33
李梓萌风波大反转!同事曝光近况,离开央视的传闻总算水落石出了

李梓萌风波大反转!同事曝光近况,离开央视的传闻总算水落石出了

草莓解说体育
2026-04-02 18:15:25
儿子要我把退休金交给他保管,我提了3个条件,他再也没开过口

儿子要我把退休金交给他保管,我提了3个条件,他再也没开过口

三农老历
2026-04-02 14:20:37
全国政协委员张凯丽呼吁:千万别把高额彩礼问题归咎于女性

全国政协委员张凯丽呼吁:千万别把高额彩礼问题归咎于女性

青杉依旧啊啊
2026-03-09 21:30:12
当年的汗马功臣,已成上不了台面的炸鸡,馆长与郑丽文的冷暖真相

当年的汗马功臣,已成上不了台面的炸鸡,馆长与郑丽文的冷暖真相

健身狂人
2026-04-02 19:53:57
多位明星紧急道歉,“全额退款”

多位明星紧急道歉,“全额退款”

中国新闻周刊
2026-04-02 20:49:03
中国股市:但凡第二天的涨停股,都逃不过这个规律,无一例外

中国股市:但凡第二天的涨停股,都逃不过这个规律,无一例外

股经纵横谈
2026-04-01 19:03:17
美伊大战让全球看明白解放军的真实战力,原来中国当年真没开玩笑

美伊大战让全球看明白解放军的真实战力,原来中国当年真没开玩笑

阿龙聊军事
2026-03-31 06:08:54
加州州长:马斯克将全球电动汽车市场主导权拱手让给中国,这是美国汽车产业重大失误【附新能源汽车行业市场分析】

加州州长:马斯克将全球电动汽车市场主导权拱手让给中国,这是美国汽车产业重大失误【附新能源汽车行业市场分析】

前瞻网
2026-04-02 17:14:12
山西柳林一饭店发现3人死亡 疑似煤气中毒

山西柳林一饭店发现3人死亡 疑似煤气中毒

新京报
2026-04-02 12:21:11
伊朗最终还是动用了自己的底牌,证明战争已经到了最危急的时刻!

伊朗最终还是动用了自己的底牌,证明战争已经到了最危急的时刻!

达文西看世界
2026-03-29 13:40:21
“后坐力”太大!道歉不到24小时宋宁峰再曝2大猛料 陈赫也不无辜

“后坐力”太大!道歉不到24小时宋宁峰再曝2大猛料 陈赫也不无辜

探源历史
2026-04-03 02:29:16
李世涛任武汉市江岸区委书记

李世涛任武汉市江岸区委书记

汲古知新
2026-04-03 00:37:10
自食恶果!日本摊上大事了!

自食恶果!日本摊上大事了!

斐君观点
2026-03-26 21:46:06
蒯曼2-2换衣服被骂惨,矛头指向COCO,孙颖莎赛陪同师傅 挺恩师

蒯曼2-2换衣服被骂惨,矛头指向COCO,孙颖莎赛陪同师傅 挺恩师

越岭寻踪
2026-04-03 01:27:43
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
2026-04-03 05:07:00
固件更新中
固件更新中
有态度网友ytd
1068文章数 7关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

伊朗称击中敌军先进战机 已坠入波斯湾

头条要闻

伊朗称击中敌军先进战机 已坠入波斯湾

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

《浪姐》人气榜出炉!曾沛慈断层第一

财经要闻

市场被特朗普一句话打醒 滞胀交易回归

汽车要闻

轴距2米7/后排能跷腿 试驾后驱小车QQ3 EV

态度原创

本地
数码
教育
家居
军事航空

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

数码要闻

跨界者大疆:不折腾才是扫地机的终极形态

教育要闻

王炸!这个区超两成考生“摇号上高中”,北京中招格局悄然变脸?

家居要闻

岁月静好 典雅新章

军事要闻

伊朗自杀无人机突进 逼退林肯号航母

无障碍浏览 进入关怀版