![]()
全球观察者深度出品
纵横寰宇,洞察时代风云
新加坡最近在AI圈搞了个大动作国家人工智能计划(AISG)宣布,他们那个东南亚语言大模型"海狮"项目,把原来用的美国MetaLlama模型给换了,换成中国阿里巴巴的通义千问(Qwen)开源架构。
这事在全球AI圈,不少人都在琢磨,为啥放着硅谷的"明星模型"不用,转头选了中国方案?
要说清这事,得先看看新加坡当初为啥选Llama。
![]()
2022年Meta发布Llama2时,这模型在开源界简直是"顶流",参数规模大、推理能力强,被称作"开源性能天花板"。
新加坡搞"海狮"计划,本来是想解决东南亚多语言痛点你想啊,东南亚光官方语言就有十几种,还有无数方言,沟通成本太高。
当时大家都觉得,Llama2这种"全能选手"肯定能搞定。
![]()
可真用起来,新加坡团队发现不对劲。
![]()
最离谱的一次测试,有人问Llama2"东盟成员国里哪些讲西班牙语",模型居然把南美洲的委内瑞拉列了进去。
你想啊,连基本地理常识都能搞错,这模型在东南亚怎么落地?后来团队才发现,Llama2的预训练数据里80%以上是英语,非拉丁语系语言就像"边角料",能不出错吗?
![]()
其实不光新加坡,很多非英语国家都遇到过类似问题。
印度朋友就吐槽,他们用西方模型处理印地语时,语法错误能堆成山;中东国家更头疼,阿拉伯语从右往左写,模型经常把句子顺序搞反。
![]()
说白了,这些模型骨子里带着"英语中心主义",设计时就没把非英语用户当回事。
既然西方模型在东南亚"水土不服",那新加坡为啥偏偏选了阿里的通义千问?这就得说说通义千问的几个"独门秘籍"了。
通义千问的"本土化密码",技术适配+低门槛,让AI落地东南亚
首先是多语言底子厚。
![]()
比如处理马来语里的"kampung(村庄)",它知道这词不光指物理空间,还带着"家乡情怀"的意思,这可不是随便哪个模型能做到的。
再看底层技术。
![]()
通义千问直接换了套字节对编码(BPE)分词器,从字母组合层面分析,断句准确率一下提了30%多。
有工程师私下说,就冲这分词器,他们测试时就觉得"这模型懂东南亚"。
更关键的是部署门槛低。
![]()
东南亚很多中小企业算力有限,服务器内存普遍不大。
通义千问团队专门优化了模型大小,现在这个"海狮"v4版本,普通消费级笔记本只要32GB内存就能跑。
这种"接地气"的设计,比那些参数堆上天却用不起的模型实在多了。
还有个聪明的合作模式。
![]()
阿里出通用推理底座(Qwen3-32B)和后训练技术,新加坡提供1000亿个东南亚语言token这些数据都是本地团队精挑细选的,带着街头俚语、地方谚语,版权干净。
两边一融合,模型既有全球通用能力,又懂东南亚的"梗",这不就是"1+1>2"吗?
这事说小了是新加坡换个模型,说大了其实标志着全球AI格局在变。
![]()
以前大家觉得,AI就得看美国脸色,硅谷出啥我们用啥。
现在不一样了,新加坡敢放弃Llama选通义千问,说明中国方案在开源生态和应用落地层面,已经有了和美国体系平等对话的底气。
中国模式的厉害之处,不在于所有基础领域都领先,而在于能把技术和最复杂的应用场景结合。
![]()
你想啊,中国本身就有56个民族、上百种方言,处理多语言问题经验丰富。
通义千问开源后,全球开发者都能参与优化,这种生态比单打独斗靠谱多了。
现在AI圈有个新趋势,以前比谁参数高、英语任务跑得快,现在比谁能真正解决本土问题。
通义千问在东南亚的成功,说白了就是"适配性胜利"。
![]()
对那些非英语国家来说,终于不用在西方模型里"矮子里面拔将军"了,中国方案提供了一个更友好、更可靠的选项。
新加坡这次"换芯",就像往平静的湖面扔了块石头。
以后全球AI可能不再是"一家独大",而是"多元共生"你擅长英语场景,我精于多语言适配,大家各有所长。
![]()
这种竞争对整个行业是好事,毕竟技术最终是要解决问题的,不是用来秀肌肉的。
说到底,AI模型没有绝对的"好坏",只有"合不合适"。
新加坡选通义千问,不是跟风,而是算明白了账,能解决自己问题的,才是最好的。
这或许就是给所有国家的启示,技术选择,终究要回归本土需求。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.