网易首页 > 网易号 > 正文 申请入驻

老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

0
分享至



机器之心报道

编辑:冷猫

就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

这两大版本在推理能力上有了显著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 结合长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。有读者评论说:「这个模型不应该叫 V3.2,应该叫 V4。」

海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度显著提升之余,却又碰上了他们难以理解的事情:

哪怕在用英文询问 DeepSeek 的时候,它在思考过程中还是会切回「神秘的东方文字」。



这就把海外友人整蒙了:明明没有用中文提问,为什么模型还是会使用中文思考,难道用中文推理更好更快?

评论区有两种不同的观点,但大部分评论都认为:「汉字的信息密度更高」

来自亚马逊的研究者也这么认为:



这个结论很符合我们日常的认知,表达相同的文本含义,中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话,那么中文相比于广泛使用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。

具有多语言能力的大模型如果只采用英语思考的模式往往会导致一些效率问题。不光是中文,采用其他非英语的语言进行推理确实能够有更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言进行推理不仅减少了 Token 消耗,还能保持准确性。即使将推理轨迹翻译回英语,这种优势依然存在,这表明这种变化源于推理行为的实质性转变,而非仅仅是表层的语言效应。



  • 论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
  • 论文链接:https://www.arxiv.org/abs/2507.00246

在该论文中,作者,评估了三个最先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),问题以英语呈现,但模型被明确指示以七种目标语言中的一种执行其推理步骤:中文 (zh)、俄语 (ru)、西班牙语 (es)、印地语 (hi)、阿拉伯语 (ar)、韩语 (ko) 和土耳其语 (tr)。最终答案必须以英语提供,以确保评估的一致性。



Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量(最少 5 个共同案例)的关系,该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

在所有评估的模型和数据集上,与英语相比,使用非英语语言进行推理始终能实现 20-40% 的显著令牌降低,而且通常不影响准确性。DeepSeek R1 的 token 减少量从 14.1%(俄语)到 29.9%(西班牙语)不等,而 Qwen 3 则表现出更显著的节省,韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟更低和计算资源需求降低。

从实验结果来看,中文确实相比英文能够节省推理 token 成本,但却并不是最具有效率的语言。

另一个研究论文同样支撑着类似观点,来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 种语言的多语言基准 OneRuler,用于评估大型语言模型(LLM)在长达 128K 令牌的长上下文理解能力。



  • 论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models
  • 论文链接:https://www.arxiv.org/abs/2503.01996v3

研究者们通过两个步骤构建了 OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作将其翻译成另外 25 种语言。

针对开放权重和闭源语言模型的实验表明,随着上下文长度从 8K 增加到 128K token,低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在 26 种语言中排名第 6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,根据指令语言的不同,性能波动幅度可达 20%。



图 4:在长上下文任务(64K 和 128K)中,按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。

既然中英文都不是具有最佳大模型性能的语言,那大模型选择思考语言的方式并不是完全以效率为先。

所以评论区的第二种观点:「训练数据中包含更多中文内容」,似乎更加合理。



国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」被质疑是中国模型套壳,正是因为其思考过程完全由中文构成。



但类似的事放在 GPT 上就说不通了,毕竟在它的训练过程中,英文数据的占比显然是更高的。

在今年 1 月份就有类似的事情发生,网友发现来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。





或许这就是人类语言的魅力,不同的语言有不同的特性,在大模型中总会有各种奇怪的事情发生。



大模型说中文的事情越来越多,中文训练语料也越来越丰富。

说不定有一天,我们能够像海外友人自嘲一样笑话大模型:「我并不是要你变成中国人。我是说 —— 当时机成熟时,你照照镜子,就会发现自己早已是中国人了。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
易梦玲:你可以质疑我的脸,但不要质疑一个42岁男人的审美!

易梦玲:你可以质疑我的脸,但不要质疑一个42岁男人的审美!

糊咖娱乐
2025-11-22 15:07:53
贾国龙摊牌了:若西贝活不下来,绝不会再创业,和夫人回草原养羊

贾国龙摊牌了:若西贝活不下来,绝不会再创业,和夫人回草原养羊

削桐作琴
2025-12-26 23:57:15
钱再多有什么用?44岁演唱会上站不起来的周渝民,给所有人提了醒

钱再多有什么用?44岁演唱会上站不起来的周渝民,给所有人提了醒

梨花黛娱
2026-01-16 14:08:47
-7℃,局地大到暴雪!很多武汉人突然收到短信

-7℃,局地大到暴雪!很多武汉人突然收到短信

极目新闻
2026-01-18 21:34:32
年薪50万遭妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

年薪50万遭妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

单手搓核弹
2026-01-06 13:44:21
U23亚洲杯西亚国家全部淘汰,后续亚足联或将改革,东西亚分区

U23亚洲杯西亚国家全部淘汰,后续亚足联或将改革,东西亚分区

砚底沉香
2026-01-19 04:37:53
97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

以茶带书
2025-12-02 18:11:43
普京:俄罗斯要和所有欧洲国家恢复外交关系,且不附带任何条件

普京:俄罗斯要和所有欧洲国家恢复外交关系,且不附带任何条件

我心纵横天地间
2026-01-18 14:45:21
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
苹果官宣,NFC 全面开放!

苹果官宣,NFC 全面开放!

果粉俱乐部
2026-01-17 13:30:03
中国足协发布U-17国家队集训名单,邝兆镭球队为“其他”

中国足协发布U-17国家队集训名单,邝兆镭球队为“其他”

懂球帝
2026-01-18 10:49:28
10-6!威尔逊大师赛夺冠,三大赛只缺英锦赛,现役7人大满贯听牌

10-6!威尔逊大师赛夺冠,三大赛只缺英锦赛,现役7人大满贯听牌

小火箭爱体育
2026-01-19 07:03:36
从30万到10亿,90后游资顶流陈小群的逆袭之路

从30万到10亿,90后游资顶流陈小群的逆袭之路

财叔有料
2026-01-18 23:12:17
杜雨露葬礼仅6人参加,妻子朱咏珏选择令人泪目

杜雨露葬礼仅6人参加,妻子朱咏珏选择令人泪目

何氽简史
2026-01-17 18:05:07
武汉团队研发AI神器,想7500万卖给美国公司,商务部出手了!

武汉团队研发AI神器,想7500万卖给美国公司,商务部出手了!

李砍柴
2026-01-17 20:53:01
首批“新能源”汽车开始换电池了,车主:看价格后,你还想选择吗

首批“新能源”汽车开始换电池了,车主:看价格后,你还想选择吗

娱乐圈的笔娱君
2026-01-18 11:43:24
贾国龙还是没想明白

贾国龙还是没想明白

云石
2026-01-17 22:10:22
张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

十里电影
2026-01-18 10:07:37
足坛一夜动态:AC米兰时隔33年再造神迹,巴萨1-2爆冷终结11连胜

足坛一夜动态:AC米兰时隔33年再造神迹,巴萨1-2爆冷终结11连胜

钉钉陌上花开
2026-01-19 06:12:52
我看这消息都有点懵,说真的,还好陈晓当初选择分开了。

我看这消息都有点懵,说真的,还好陈晓当初选择分开了。

小光侃娱乐
2025-12-10 10:45:06
2026-01-19 09:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

编程从此不再有门槛!Claude Code火爆出圈

头条要闻

普京前顾问:若敢暗杀普京 欧洲将从人类地图上消失

头条要闻

普京前顾问:若敢暗杀普京 欧洲将从人类地图上消失

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

本地
旅游
亲子
时尚
军事航空

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

旅游要闻

村游消费:活了文化 火了生活

亲子要闻

锐锐好久没出过门,阿金带来到超市,全程开心极了

50+女人的穿搭封神技巧来了,抓准这4点,轻松穿出简约高级感

军事要闻

特朗普突然转变态度"谢谢"伊朗 淡化对伊朗的军事威胁

无障碍浏览 进入关怀版