网易首页 > 网易号 > 正文 申请入驻

老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

0
分享至



机器之心报道

编辑:冷猫

就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

这两大版本在推理能力上有了显著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 结合长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。有读者评论说:「这个模型不应该叫 V3.2,应该叫 V4。」

海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度显著提升之余,却又碰上了他们难以理解的事情:

哪怕在用英文询问 DeepSeek 的时候,它在思考过程中还是会切回「神秘的东方文字」。



这就把海外友人整蒙了:明明没有用中文提问,为什么模型还是会使用中文思考,难道用中文推理更好更快?

评论区有两种不同的观点,但大部分评论都认为:「汉字的信息密度更高」

来自亚马逊的研究者也这么认为:



这个结论很符合我们日常的认知,表达相同的文本含义,中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话,那么中文相比于广泛使用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。

具有多语言能力的大模型如果只采用英语思考的模式往往会导致一些效率问题。不光是中文,采用其他非英语的语言进行推理确实能够有更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言进行推理不仅减少了 Token 消耗,还能保持准确性。即使将推理轨迹翻译回英语,这种优势依然存在,这表明这种变化源于推理行为的实质性转变,而非仅仅是表层的语言效应。



  • 论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
  • 论文链接:https://www.arxiv.org/abs/2507.00246

在该论文中,作者,评估了三个最先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),问题以英语呈现,但模型被明确指示以七种目标语言中的一种执行其推理步骤:中文 (zh)、俄语 (ru)、西班牙语 (es)、印地语 (hi)、阿拉伯语 (ar)、韩语 (ko) 和土耳其语 (tr)。最终答案必须以英语提供,以确保评估的一致性。



Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量(最少 5 个共同案例)的关系,该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

在所有评估的模型和数据集上,与英语相比,使用非英语语言进行推理始终能实现 20-40% 的显著令牌降低,而且通常不影响准确性。DeepSeek R1 的 token 减少量从 14.1%(俄语)到 29.9%(西班牙语)不等,而 Qwen 3 则表现出更显著的节省,韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟更低和计算资源需求降低。

从实验结果来看,中文确实相比英文能够节省推理 token 成本,但却并不是最具有效率的语言。

另一个研究论文同样支撑着类似观点,来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 种语言的多语言基准 OneRuler,用于评估大型语言模型(LLM)在长达 128K 令牌的长上下文理解能力。



  • 论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models
  • 论文链接:https://www.arxiv.org/abs/2503.01996v3

研究者们通过两个步骤构建了 OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作将其翻译成另外 25 种语言。

针对开放权重和闭源语言模型的实验表明,随着上下文长度从 8K 增加到 128K token,低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在 26 种语言中排名第 6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,根据指令语言的不同,性能波动幅度可达 20%。



图 4:在长上下文任务(64K 和 128K)中,按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。

既然中英文都不是具有最佳大模型性能的语言,那大模型选择思考语言的方式并不是完全以效率为先。

所以评论区的第二种观点:「训练数据中包含更多中文内容」,似乎更加合理。



国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」被质疑是中国模型套壳,正是因为其思考过程完全由中文构成。



但类似的事放在 GPT 上就说不通了,毕竟在它的训练过程中,英文数据的占比显然是更高的。

在今年 1 月份就有类似的事情发生,网友发现来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。





或许这就是人类语言的魅力,不同的语言有不同的特性,在大模型中总会有各种奇怪的事情发生。



大模型说中文的事情越来越多,中文训练语料也越来越丰富。

说不定有一天,我们能够像海外友人自嘲一样笑话大模型:「我并不是要你变成中国人。我是说 —— 当时机成熟时,你照照镜子,就会发现自己早已是中国人了。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
报应来得太快!俄宣传西蒙尼扬一家,终究没能躲过命运那记耳光

报应来得太快!俄宣传西蒙尼扬一家,终究没能躲过命运那记耳光

老马拉车莫少装
2026-03-22 19:46:19
云南澜沧一铅矿发生顶板事故,造成3人死亡

云南澜沧一铅矿发生顶板事故,造成3人死亡

界面新闻
2026-03-23 06:57:48
男子4s店蹭饭260顿后续:被熟人认出,本人发声喊冤,妻子被威胁

男子4s店蹭饭260顿后续:被熟人认出,本人发声喊冤,妻子被威胁

奇思妙想草叶君
2026-03-20 22:45:31
炸!炸!炸!接连发射!日本都蒙圈了!

炸!炸!炸!接连发射!日本都蒙圈了!

安安说
2026-03-18 10:57:06
女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

观威海
2026-03-22 07:59:02
于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

潮鹿逐梦
2026-03-22 22:55:31
今晚油价一夜突变!3月23日国内油价调整,加油站油价大涨破纪录

今晚油价一夜突变!3月23日国内油价调整,加油站油价大涨破纪录

有料财经
2026-03-23 00:29:57
美国务院建议全球各地美国公民提高警惕

美国务院建议全球各地美国公民提高警惕

新京报
2026-03-23 07:16:04
Model T,上天了

Model T,上天了

放毒
2026-03-22 23:28:37
特朗普:48小时内开放霍尔木兹海峡!伊朗回应

特朗普:48小时内开放霍尔木兹海峡!伊朗回应

新浪财经
2026-03-22 12:18:56
又有高人支招?一觉醒来,伊朗又有新动作,日本苦盼的好消息来了

又有高人支招?一觉醒来,伊朗又有新动作,日本苦盼的好消息来了

军机Talk
2026-03-22 19:00:32
奶茶妹妹当年没追上的张公子,家族负债2387亿,在国外躲躲藏藏

奶茶妹妹当年没追上的张公子,家族负债2387亿,在国外躲躲藏藏

BenSir本色说
2026-03-22 22:02:55
微信可以用“龙虾”了!网友:太方便了

微信可以用“龙虾”了!网友:太方便了

中国日报
2026-03-22 13:38:23
蹭饭260次后续:庞先生已后悔,发视频道歉,4S店态度坚决不和解

蹭饭260次后续:庞先生已后悔,发视频道歉,4S店态度坚决不和解

奇思妙想草叶君
2026-03-21 19:57:27
“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

观威海
2026-03-18 14:47:02
巩俐年轻时这张剧照,演技真实到四十+全破防

巩俐年轻时这张剧照,演技真实到四十+全破防

小椰的奶奶
2026-03-22 21:43:29
泡沫破了!大批文旅项目开始批量倒闭

泡沫破了!大批文旅项目开始批量倒闭

新浪财经
2026-03-22 18:25:59
被小姑子泼尿后续:原因曝光,老公联手婆家20万封口,孕妇拒妥协

被小姑子泼尿后续:原因曝光,老公联手婆家20万封口,孕妇拒妥协

离离言几许
2026-03-21 12:27:41
炸锅了!四川挖出世界级大矿,全球第二!这下彻底稳了

炸锅了!四川挖出世界级大矿,全球第二!这下彻底稳了

爱看剧的阿峰
2026-03-21 19:32:13
霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

小影的娱乐
2026-03-22 20:31:39
2026-03-23 08:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12557文章数 142591关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

伊朗采用新型战术和升级系统 地面部队处于战备"巅峰"

头条要闻

伊朗采用新型战术和升级系统 地面部队处于战备"巅峰"

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

本地
房产
亲子
数码
公开课

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

亲子要闻

抽动症病因到底是啥,总结了完整版

数码要闻

古尔曼:苹果Apple TV、HomePod和HomePod mini库存告急

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版