网易首页 > 网易号 > 正文 申请入驻

老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

0
分享至



机器之心报道

编辑:冷猫

就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

这两大版本在推理能力上有了显著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 结合长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。有读者评论说:「这个模型不应该叫 V3.2,应该叫 V4。」

海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度显著提升之余,却又碰上了他们难以理解的事情:

哪怕在用英文询问 DeepSeek 的时候,它在思考过程中还是会切回「神秘的东方文字」。



这就把海外友人整蒙了:明明没有用中文提问,为什么模型还是会使用中文思考,难道用中文推理更好更快?

评论区有两种不同的观点,但大部分评论都认为:「汉字的信息密度更高」

来自亚马逊的研究者也这么认为:



这个结论很符合我们日常的认知,表达相同的文本含义,中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话,那么中文相比于广泛使用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。

具有多语言能力的大模型如果只采用英语思考的模式往往会导致一些效率问题。不光是中文,采用其他非英语的语言进行推理确实能够有更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言进行推理不仅减少了 Token 消耗,还能保持准确性。即使将推理轨迹翻译回英语,这种优势依然存在,这表明这种变化源于推理行为的实质性转变,而非仅仅是表层的语言效应。



  • 论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
  • 论文链接:https://www.arxiv.org/abs/2507.00246

在该论文中,作者,评估了三个最先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),问题以英语呈现,但模型被明确指示以七种目标语言中的一种执行其推理步骤:中文 (zh)、俄语 (ru)、西班牙语 (es)、印地语 (hi)、阿拉伯语 (ar)、韩语 (ko) 和土耳其语 (tr)。最终答案必须以英语提供,以确保评估的一致性。



Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量(最少 5 个共同案例)的关系,该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

在所有评估的模型和数据集上,与英语相比,使用非英语语言进行推理始终能实现 20-40% 的显著令牌降低,而且通常不影响准确性。DeepSeek R1 的 token 减少量从 14.1%(俄语)到 29.9%(西班牙语)不等,而 Qwen 3 则表现出更显著的节省,韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟更低和计算资源需求降低。

从实验结果来看,中文确实相比英文能够节省推理 token 成本,但却并不是最具有效率的语言。

另一个研究论文同样支撑着类似观点,来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 种语言的多语言基准 OneRuler,用于评估大型语言模型(LLM)在长达 128K 令牌的长上下文理解能力。



  • 论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models
  • 论文链接:https://www.arxiv.org/abs/2503.01996v3

研究者们通过两个步骤构建了 OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作将其翻译成另外 25 种语言。

针对开放权重和闭源语言模型的实验表明,随着上下文长度从 8K 增加到 128K token,低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在 26 种语言中排名第 6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,根据指令语言的不同,性能波动幅度可达 20%。



图 4:在长上下文任务(64K 和 128K)中,按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。

既然中英文都不是具有最佳大模型性能的语言,那大模型选择思考语言的方式并不是完全以效率为先。

所以评论区的第二种观点:「训练数据中包含更多中文内容」,似乎更加合理。



国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」被质疑是中国模型套壳,正是因为其思考过程完全由中文构成。



但类似的事放在 GPT 上就说不通了,毕竟在它的训练过程中,英文数据的占比显然是更高的。

在今年 1 月份就有类似的事情发生,网友发现来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。





或许这就是人类语言的魅力,不同的语言有不同的特性,在大模型中总会有各种奇怪的事情发生。



大模型说中文的事情越来越多,中文训练语料也越来越丰富。

说不定有一天,我们能够像海外友人自嘲一样笑话大模型:「我并不是要你变成中国人。我是说 —— 当时机成熟时,你照照镜子,就会发现自己早已是中国人了。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

新游戏大妹子
2026-05-28 11:09:05
炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

浪子说
2026-05-28 00:05:03
武契奇访华画上句号,登机回国前,终于讲出实话,中塞在美国谈妥

武契奇访华画上句号,登机回国前,终于讲出实话,中塞在美国谈妥

影孖看世界
2026-05-28 23:54:29
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
中方4问强势回击:你要挑战中美元首会晤共识?

中方4问强势回击:你要挑战中美元首会晤共识?

看看新闻Knews
2026-05-28 18:44:18
绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

颜小白的篮球梦
2026-05-28 21:39:44
荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

阿龙聊军事
2026-05-28 15:58:13
重磅!伊朗发射弹道导弹,美军:已拦截,伊方无端侵略!伊朗最高领袖发声:美以试图制造分裂、瓦解伊朗

重磅!伊朗发射弹道导弹,美军:已拦截,伊方无端侵略!伊朗最高领袖发声:美以试图制造分裂、瓦解伊朗

每日经济新闻
2026-05-28 21:33:14
荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

阿龙聊军事
2026-05-28 16:05:55
余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

谭谈社会
2026-05-28 16:21:33
邵佳一遭质疑!国足名单最大争议:联赛垫底队3人入选,第二却0人

邵佳一遭质疑!国足名单最大争议:联赛垫底队3人入选,第二却0人

侃球熊弟
2026-05-28 18:44:34
耿同学公开最新4篇疑造假论文,涉及多位院士候选人、杰青、长江学者!不再“举报”

耿同学公开最新4篇疑造假论文,涉及多位院士候选人、杰青、长江学者!不再“举报”

高分子科学前沿
2026-05-28 21:18:01
57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

芹姐说生活
2026-05-27 22:40:29
曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

爆角追踪
2026-05-28 17:07:33
奥达,确认遇袭身亡

奥达,确认遇袭身亡

第一财经资讯
2026-05-27 20:03:35
涉嫌严重违纪违法,李志刚被查

涉嫌严重违纪违法,李志刚被查

中国基金报
2026-05-28 21:35:33
全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

君笙的拂兮
2026-05-27 23:59:18
141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

明德阅读
2026-05-27 19:39:40
卢比奥怒呛拉夫罗夫,特朗普团队对俄罗斯渐趋强硬

卢比奥怒呛拉夫罗夫,特朗普团队对俄罗斯渐趋强硬

高博新视野
2026-05-28 19:49:07
“8个孩子,没一个拿得出手!”农村父亲晒7儿1女,遭到网友群嘲

“8个孩子,没一个拿得出手!”农村父亲晒7儿1女,遭到网友群嘲

妍妍教育日记
2026-05-28 20:32:42
2026-05-29 05:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13106文章数 142653关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

艺术
旅游
手机
本地
公开课

艺术要闻

2026陕西省青年美术作品展 入选油画

旅游要闻

游客在九寨沟被索要"照镜费" 景区:店家随口说的

手机要闻

红米K100 Pro Max与荣耀Magic9标准版,均传出新消息!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版