网易首页 > 网易号 > 正文 申请入驻

老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

0
分享至



机器之心报道

编辑:冷猫

就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

这两大版本在推理能力上有了显著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 结合长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。有读者评论说:「这个模型不应该叫 V3.2,应该叫 V4。」

海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度显著提升之余,却又碰上了他们难以理解的事情:

哪怕在用英文询问 DeepSeek 的时候,它在思考过程中还是会切回「神秘的东方文字」。



这就把海外友人整蒙了:明明没有用中文提问,为什么模型还是会使用中文思考,难道用中文推理更好更快?

评论区有两种不同的观点,但大部分评论都认为:「汉字的信息密度更高」

来自亚马逊的研究者也这么认为:



这个结论很符合我们日常的认知,表达相同的文本含义,中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话,那么中文相比于广泛使用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。

具有多语言能力的大模型如果只采用英语思考的模式往往会导致一些效率问题。不光是中文,采用其他非英语的语言进行推理确实能够有更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言进行推理不仅减少了 Token 消耗,还能保持准确性。即使将推理轨迹翻译回英语,这种优势依然存在,这表明这种变化源于推理行为的实质性转变,而非仅仅是表层的语言效应。



  • 论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
  • 论文链接:https://www.arxiv.org/abs/2507.00246

在该论文中,作者,评估了三个最先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),问题以英语呈现,但模型被明确指示以七种目标语言中的一种执行其推理步骤:中文 (zh)、俄语 (ru)、西班牙语 (es)、印地语 (hi)、阿拉伯语 (ar)、韩语 (ko) 和土耳其语 (tr)。最终答案必须以英语提供,以确保评估的一致性。



Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量(最少 5 个共同案例)的关系,该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

在所有评估的模型和数据集上,与英语相比,使用非英语语言进行推理始终能实现 20-40% 的显著令牌降低,而且通常不影响准确性。DeepSeek R1 的 token 减少量从 14.1%(俄语)到 29.9%(西班牙语)不等,而 Qwen 3 则表现出更显著的节省,韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟更低和计算资源需求降低。

从实验结果来看,中文确实相比英文能够节省推理 token 成本,但却并不是最具有效率的语言。

另一个研究论文同样支撑着类似观点,来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 种语言的多语言基准 OneRuler,用于评估大型语言模型(LLM)在长达 128K 令牌的长上下文理解能力。



  • 论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models
  • 论文链接:https://www.arxiv.org/abs/2503.01996v3

研究者们通过两个步骤构建了 OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作将其翻译成另外 25 种语言。

针对开放权重和闭源语言模型的实验表明,随着上下文长度从 8K 增加到 128K token,低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在 26 种语言中排名第 6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,根据指令语言的不同,性能波动幅度可达 20%。



图 4:在长上下文任务(64K 和 128K)中,按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。

既然中英文都不是具有最佳大模型性能的语言,那大模型选择思考语言的方式并不是完全以效率为先。

所以评论区的第二种观点:「训练数据中包含更多中文内容」,似乎更加合理。



国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」被质疑是中国模型套壳,正是因为其思考过程完全由中文构成。



但类似的事放在 GPT 上就说不通了,毕竟在它的训练过程中,英文数据的占比显然是更高的。

在今年 1 月份就有类似的事情发生,网友发现来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。





或许这就是人类语言的魅力,不同的语言有不同的特性,在大模型中总会有各种奇怪的事情发生。



大模型说中文的事情越来越多,中文训练语料也越来越丰富。

说不定有一天,我们能够像海外友人自嘲一样笑话大模型:「我并不是要你变成中国人。我是说 —— 当时机成熟时,你照照镜子,就会发现自己早已是中国人了。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于东来现身洛阳王城公园看牡丹 游客:戴着墨镜和口罩被认出来了

于东来现身洛阳王城公园看牡丹 游客:戴着墨镜和口罩被认出来了

快科技
2026-04-06 12:26:10
一锹下去金光闪闪,猪圈底下埋着北宋的国家金库,罕见北宋金叶子

一锹下去金光闪闪,猪圈底下埋着北宋的国家金库,罕见北宋金叶子

落水的焱燚
2026-04-09 07:30:03
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
国民党由盛转衰五大关键推手,李登辉只能排第二,第一实至名归!

国民党由盛转衰五大关键推手,李登辉只能排第二,第一实至名归!

梦史
2026-03-25 04:13:02
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
广东逆行堵路 "路霸" 后续,硬刚交警下场很惨,处罚结果大快人心

广东逆行堵路 "路霸" 后续,硬刚交警下场很惨,处罚结果大快人心

十九妹
2026-04-09 03:08:46
欧尔班与普京通话记录被曝光

欧尔班与普京通话记录被曝光

辇毂
2026-04-08 14:15:20
直冲29℃!成都今天“一秒入夏”,但反转跟着就来了

直冲29℃!成都今天“一秒入夏”,但反转跟着就来了

爱看头条
2026-04-09 13:00:41
哈佛女孩刘亦婷跌落神坛,27年骗局真相终被揭露

哈佛女孩刘亦婷跌落神坛,27年骗局真相终被揭露

生命之泉的奥秘
2026-04-06 13:57:50
错失最年轻147,中国17岁斯诺克少年横空出世,10-5晋级第2轮

错失最年轻147,中国17岁斯诺克少年横空出世,10-5晋级第2轮

真理是我亲戚
2026-04-09 11:14:21
亚马逊再裁1.4万人:裁员名单完全随机 中国区团队或遭整体裁撤

亚马逊再裁1.4万人:裁员名单完全随机 中国区团队或遭整体裁撤

快科技
2026-04-07 16:39:08
留给美国时间不多了,伊朗战争打完后,世界就只剩一个超级大国了

留给美国时间不多了,伊朗战争打完后,世界就只剩一个超级大国了

触摸史迹
2026-04-02 14:39:03
零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

混沌录
2026-04-07 22:00:19
“我妈没义务带孙,谁生的谁带”嫂子:带着你妈滚出去,别住在这

“我妈没义务带孙,谁生的谁带”嫂子:带着你妈滚出去,别住在这

广西秦胖胖
2026-04-08 15:04:34
金子涵直播疑似求救:脸部被注射50针不明物质,不服从便会头痛

金子涵直播疑似求救:脸部被注射50针不明物质,不服从便会头痛

开开森森
2026-04-09 07:58:17
中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

普览
2026-02-26 21:29:19
陈芋汐收到威胁短信,曾称不会动摇和全红婵关系,回旋镖太猛烈!

陈芋汐收到威胁短信,曾称不会动摇和全红婵关系,回旋镖太猛烈!

眼光很亮
2026-04-09 14:29:42
杨幂真不愧是“大幂幂”

杨幂真不愧是“大幂幂”

TVB的四小花
2026-04-09 11:35:39
《危险关系》吴慷仁火出圈,最可怕的事出现了,观众的评论太真实

《危险关系》吴慷仁火出圈,最可怕的事出现了,观众的评论太真实

星宿影视鸭
2026-04-09 15:17:34
终于等到了!公安部重拳出击,借款人可以安心了

终于等到了!公安部重拳出击,借款人可以安心了

什么都唠唠
2026-04-08 22:03:23
2026-04-09 16:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12719文章数 142621关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

湖北文旅歌曲创作项目中标价2年暴涨159.2万 纪检发声

头条要闻

湖北文旅歌曲创作项目中标价2年暴涨159.2万 纪检发声

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

文飞的回归 给神行者带来什么?

态度原创

健康
本地
房产
艺术
教育

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

艺术要闻

庞茂琨 2026油画写生新作

教育要闻

省政府发文:高校需引进足球教练员

无障碍浏览 进入关怀版