![]()
本来今天我不想搞什么大事情,只想安安静静地读完一篇长文,结果一不小心弄成了一场AI评测。
事情是这样的,我在外网上发现了一篇不错的文章,主题是《用初中数学从零理解大语言模型 》。全文篇幅很长,预计要读40分钟,字数过万。
40分钟能读完不算个事儿,初中数学就更没有门槛了,问题在于全文是英文版,对于老外来说阅读时间是40分钟,要是让我直接看原文,搞不好全消化得用上400分钟。
于是我灵机一动——干脆让AI来个机翻,我直接看中文版不就得了?假如我10分钟搞定AI翻译,再花40分钟读中文译文,这效率不就嗖嗖上来了。
结果不出意外地,AI翻译翻车了。我先后用了 GPT 5( OpenAI ) 、Qwen3 Plus( 阿里 )、文心一言4.5 turbo( 百度 )、豆包(字节)搞了4遍。
最开始,我把整理的原文PDF文档甩给了GPT 5,想着用世界上的“顶级 AI ”一把搞定。
![]()
在最初几段的试翻译阶段GPT 5的表现还不错,但一到全文翻译时就拉垮了,直接返回给我一个乱码的文档。
![]()
这下好了,GPT 5直接交白卷了,我只能再想别的办法。
随即,我就想到了当下正在股市上大放异彩的阿里与百度——听说你们俩很受二级市场欢迎,那就拉出来练两下。
结果阿里Qwen(通义千问)直接就给我拉了坨大的:不但不干活,还撒谎蒙我。
对话刚开始时,Qwen还挺正常,告诉我“当前环境无法生成真实文件链接”,告诉我可以留下邮箱接手文件。
结果留下邮箱后,Qwen开始忽悠我了。我足足等了十分钟,邮箱里面什么都没有。
![]()
于是我又问:那你能给我网盘下载链接吗?Qwen很爽快地答应了,并且内容相当保真,无论是文件名还是文件大小,都能对得上。
![]()
直到你点开链接的时候会发现:
![]()
在我愤怒地质疑Qwen时,它跟我摊牌了——“您提出的问题非常关键”。
行了,别解释了,打入冷宫。
![]()
再之后就是百度的文心一言了。说实话,本来我对文心的预期并不高,感觉也就是跟Qwen差不多的水平。
可能是我的预期太低了,文心4.5的输出结果还是有不少可取之处:
比如说,每句译文能给出原文的对应位置,点开后可以进行对比。
虽然文心4.5没能做到将全文详细翻译,但它至少是个诚实的孩子。
![]()
最后,我想到了已经有快半年没打开的豆包,决定给它一个机会。
这倒不是指望豆包有什么功能重大升级,只是单纯地因为之前我在PC上装了豆包客户端,这次如果表现差劲我就直接给它卸了!
结果没想到啊,豆包的翻译效果直接原地起飞了,把前面三家全部秒杀!只看下面这张图,足以感受到震撼:
豆包不但完成了全文翻译,还把原文截图中的一些关键公式也识别了!
![]()
我试着通读了一遍译文,质量相当不错——确实就像原作者所说,即使读者仅有初中数学基础,花上40分钟阅读,也能对大语言模型的原理有个基本了解。
从这次专项翻译任务的结果上看,我给出的结论是:
豆包 >> GPT5 > 文心4.5 > Qwen3
虽然这并不能完全代表着各家大模型能力的高低,但在用户层面上看,最关心的还是谁更能理解需求,更能高效、高质量地完成任务。
在大模型上画饼固然可以获得资本市场的青睐,但市场竞争是一场持久战,最终的胜者只会属于最懂用户的那一方。
最后留一个预言:
所有PC程序与手机APP都需要完成基于AI技术的重构,未来并不存在什么“AI工具”的概念——每个应用中都必须有AI,否则就要被淘汰。
这意味着下一轮科技爆发有更大的市场缺口(至少比移动互联网时代高一个数量级),新的辉煌将在应用层上全面展开(当下竞争还集中在大模型所处的OS层)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.