网易首页 > 网易号 > 正文 申请入驻

小团队,为什么能超越巨头,干出更能打的大模型

0
分享至



不同于互联网、移动互联网时代,几张桌椅、几个脑袋就能创造奇迹,而是需要动辄数千张的GPU集群、亿元级的算力投入、海量的语料数据、以及顶尖的算法人才……

这样的门槛与特性,曾让很多人感叹,AI大模型这条赛道,绝不属于初创小公司,只有巨头才配坐在牌桌上。

然而,现实却给出了鼓舞后来者的答案:

智谱GLM系列模型在中文理解与推理领域比肩国际顶尖水平,MiniMax的M2.5模型以极致效率打破算力内卷,DeepSeek R1将千亿参数模型训练成本压缩到行业的1/10,Kimi则以200万字长文本处理能力开辟全新赛道……

一批初创小公司都已在大模型领域成功破局,非但不比巨头们逊色,甚至开始逆袭巨头,引领风骚。



初创公司逆袭巨头的答案,首先藏在这些公司的创始人身上。

智谱的唐杰与张鹏、MiniMax的闫俊杰、DeepSeek的梁文锋、Kimi的杨植麟,这些创始人,有一个惊人的共同点:

他们已是人生赢家,却毅然告别了辉煌与舒适区。

2019年创立智谱时,唐杰已深耕自然语言处理与知识图谱多年,手握20多项专利,主持过多个国家级科研课题,是清华大学计算机系教授,全球人工智能领域的顶尖学者。

他原本可以安于象牙塔,享受科研与学术的安稳和荣光。但当人工智能的风口初现,他坐不住了,认为这是自己躬身实践的机会,也是中国AI弯道超车的机会。


▲唐杰在办公室

图源:北京大学王选计算机研究所

于是,他找到了同为清华校友的张鹏——一位在清华大学知识工程实验室工作近20年的学者,同样是技术圈内的资深大佬。

在一家小咖啡馆长谈了一个下午后,唐杰和张鹏做出了一个决定:离开清华园,搬进创业园区的小写字楼。

2021年创立MiniMax时,同样毕业于清华的闫俊杰,已是当时的AI大企商汤科技的副总裁,并主导了商汤深度学习工具链和通用智能技术体系的搭建。

彼时的商汤科技,即将港股上市,以闫俊杰的职级与贡献,继续供职,很可能成为亿万富翁。

但他觉得这不够劲,因为他已经对AI有了更大的想法——开发通用大模型,让AI像水电一样普及,融入并改变人类生活。

Kimi的创始人杨植麟,同样是“清华系”的成员,他本科时的老师正是唐杰教授。随后,他又在美国卡内基梅隆大学取得博士学位。在Facebook、google等一批巨头企业从事技术研究,并担任了清华大学的助理教授。

不出意外,这位17岁就被保送清华的天才少年,大概率将会在某家硅谷巨头获得千万级甚至更高年薪,或是成为某家国内大厂的首席科学家。

但2022年ChatGPT的发布,让他听到了新世界的敲门声。于是,他以最快速度破局入场,几乎是掐着秒表抢融资,只用四个月就创立了今天的月之暗面。

创办DeepSeek的梁文锋,更是愿景驱动的极致典型。



早在2010年,梁文锋的团队就靠着量化投资,将自营资金做到了超过5亿元。他创立的幻方量化,旗下基金规模在2021年一度超越千亿大关,位列国内量化四大天王。

按照世俗标准,他可以去买海岛、买私人飞机,顺手做做安逸的天使投资人。但凭借AI起家的梁文锋,眼光却看到了更远的地方:

“AI一定会改变世界,而中国AI不应该永远处在跟随的位置。”

曾经,创业是为了谋生,为了赚钱,改变命运,但这些创业者,他们或是学术界、产业界的大牛,手握令人羡慕的教职与履历;或是早已实现财富自由的隐形富豪,无需为经济担忧。

从第一天起,他们就为理想、为信念而勇往直前。

正是创始人的这种“拼命”底色,赋予了几家初创公司区别于大厂的独特气质——为了理想,而激情燃烧、孤注一掷,甚至无所畏惧。


智谱CEO张鹏曾有一句名言:“技术不是魔法,连惊叹都不该有,一切都是有迹可循的。”

在智谱内部,一直保持着一条清晰的技术路径——走自己的GLM算法之路。

GLM是一个巧妙的架构设计,既能做填空也能做续写,可以在相对低算力下,获得更高效的训练底座。

但在2021年,最紧迫的问题是:要不要在这条路上,训练一个千亿级参数的大模型?

GPT-3的训练成本是两千多万美元,智谱的成本控制再好,也需要千万级人民币以上,并且需要举全公司之力,花八九个月时间。

如果成功,一好百好,如果失败,什么也剩不下。

决策会上,大多数时间大家都在沉默。对于不爱说话的工程师而言,不说话,就是难度大,甚至不可能。

但核心团队最后认为:不做,不追,永远不知道自己能跑多快,跑多远。一个初创团队的前进,不应该背着经济包袱。

沉默过后的投票决策,工程师们全票通过。

相对于巨头而言,这的确是一场不对称的竞争。

大公司往往背负着沉重的“存量包袱”,它们有庞大的搜索、广告、社交、电商组成的业务生态,这些是过去的成功路径,也是某种意义上的镣铐,更重要的是,它们还需要对财务报表和投资者负责。

因此当颠覆与革命来临时,决策往往会陷入“创新的窘境”,对新技术和投入太狠,可能冲击基本面;投入太轻,又会被时代甩下。

“光着脚”的小公司则完全不同,它们没有业务包袱,没有需要维护的存量利益,只有ALL IN一条路。

今年年初,Kimi引爆了“长文本”战役。背后是看准就ALL IN的孤注一掷。

因为发现了用户“阅读长文档”的痛点,Kimi不惜血本投入算力,率先支持200万字上下文的处理能力。为了这个突破,整个公司仅在几周内,就经历了数次架构重构。

国内各大巨头并非没有技术储备,也都看到了其中的机会,但长文本处理的算力成本消耗,尚不明确的变现路径,都让其举棋不定。

这种不对称,并不只在决心与勇气。也更在于由决心与勇气激发出的方法和效率,在于对各种资源要素的调用,以及创新创造力的极致发挥。

国内某大厂的一位AI研究员曾在网上吐槽:他想要申请几张A100显卡做实验,审批流程就走了两周,等卡到位了,技术风向已经变了。

这是大公司常见的“大企业病”。哪怕一个小想法的落地,往往也要经历文本汇报,层层审批、跨部门协调、各级评审。更关键的是,大厂的研发人员还会不同程度地被KPI绑定,从而更倾向于获得稳定的考核成果。

但在小公司,战略和战术常常都是在战壕里完成。

在DeepSeek,没有明确的职级划分,也没有上下级分工,看不到冗长的决策链条;大家都是“写代码的人”,也都是“提想法的人”;每个人都可以拉人讨论,并随时调用公司训练集群的卡,无需审批,不设上限。

研发V2模型时,为了解决一个算子优化难题,几位工程师直接拉了个群,现场讨论,现场拍板,一个通宵就解决了。

这种差异,就是“成熟正规军”与“初创特种兵”的区别,正规军打仗要看地图、听指令;特种兵打仗,枪响了就冲,哪里有缺口就打哪里。

这些拿枪冲锋的特种兵里,甚至包括创始人——Minimax创立初期,闫俊杰本人就亲自参与了绝大部分核心代码的审查。

初创的智谱,团队仅有百人,且保持着极简的用人策略——绝大多数都是工程师。发布第一款大模型时,新闻稿是研发人员自己写的,Logo是一位工程师的女朋友帮忙设计的。

但正是这款大模型,1300亿的参数,直接对标OpenAI的CPT-3。并且,从2021年12月决策,到2022年8月发布,只用了9个月。

大模型的研发,固然是“烧钱游戏”,但钱烧得是否有效率,决定了最终的结果。在这一点上,创业公司每一分钱都要花在刀刃上的习惯,将资源的利用率逼到了极致。

就在2月底,OpenAI获得了来自软银、英伟达、亚马逊的新一轮投资,总计高达1100亿美元,它的背后,始终有微软的支持。而国内几家AI创业企业,始终没打过太富裕的仗。

月之暗面的天使轮总估值,只有3亿美元;Minimax靠上市前的8轮融资,总共拿到了15亿美元,但天使轮仅有3100万;DeepSeek的前期基本靠梁文锋与幻方量化的自有资金;智谱获得的第一笔投资,甚至只有区区4000万元人民币。

这种资源上的“有限战”,逼着创业小公司真的要像特种兵一样,用好手里的每一颗子弹。

算力,曾经是智谱最大的挑战,训练千亿级模型,需要数千块GPU芯片连续运转数月,智谱只能去东凑西借——2020年,它就向一家国内云服务供应商借了一批闲置GPU。

在最困难的时期,唐杰和张鹏每天最重要的事,就是观察两个窗口指标:一个训练进度,一个银行账户。

但这也磨练出了创业团队的极限生存能力:智谱的工程师们始终围绕着模型做极致优化,DeepSeek的团队甚至为了提升显存利用率,重写了底层的通信协议。

也正是因为极致的“算”与“省”,练就了国产大模型的优秀——DeepSeek-V3在性能比肩GPT-4o的同时,训练成本不到后者的二十分之一。

一位目睹了进程的投资人说:“大厂用钞能力掩盖工程能力的不足,小公司却用工程能力补上了钞能力的短板”。


从决策到组织,从效率到斗志,各种不对称的因素加在一起,让小团队不断逆袭大巨头,但其背后的核心逻辑,并非是大公司打不过小公司。

它的关键,不在规模大小,实力强弱,而在规模实力等硬指标背后的软实力。而当大公司的硬实力与小公司的软实力相结合,带来的将是大公司的更加所向披靡。

AI竞赛,正在上演类似的故事。

新春之际,字节跳动的Seedance2.0惊艳世界,连好莱坞大牌导演都惊叹不已,表示重塑影视行业的真正拐点正式到来。

该图片疑似AI生成
▲图源:CCTV4微信公众号

这样的追赶与突破,得益于字节保持至今的纪律性与饥饿感。在这家公司的历史上,类似的故事一抓一大把。

2016年,还在孵化阶段的抖音,由张一鸣亲自面试产品经理的岗位。一个毕业仅8个月的男生,只带了一张写着结论的A4纸,他唯一的资历,是每天刷12个小时短视频,拆解过2000个爆款视频的逻辑。

张一鸣当场给出了岗位:P7职级,专家档薪资,无试用期,进入抖音核心组,3个月看数据。

3个月内,这位应届生主导了抖音首页滑动逻辑、拍摄按钮交互,滤镜优先级三个核心模块,帮助用户时长提升21%,留存提升14%。

在字节内部,有着极其严格的日常开支要求,连打印纸都必须双面使用,但在战略投入上,算法研发、算力采购、AI大模型框架的建设,预算永远从实际需要出发,从无纸面上限。

它带来的结果是,超千亿元被投入GPU集群与自研训练框架的建设,帮助GPU利用率从30%上升到90%,成本下降了70%,训练速度提升3倍。

老牌大厂阿里,也在用行动证明,大象同样可以跳舞。

今年,通义千问Qwen系列模型在全球开源榜单上屡次登顶,成为能与Llama、GPT系列分庭抗礼的中国力量。这背后,是阿里对“云智一体”战略的长期坚守与自我革命。



在阿里内部,通义团队被赋予了特区般的“创业权限”。他们打破了层级森严的汇报机制,重构了一套敏捷的研发体系。为了在算力上实现极致性价比,团队主动发起“技术攻坚战”,将模型推理成本在一年内降低了超过90%,让大模型从“奢侈品”变成了“日用品”。

更关键的是,阿里不断对内“开刀”——为了推动AI落地,阿里云甚至不惜重构其产品逻辑,将通义大模型深度嵌入钉钉等超级应用中。

当大多数公司还在探索AI入口时,钉钉团队在短短几个月内就上线了“魔法棒”功能,只需输入一个“/”符号,AI就能自动生成文档、整理会议纪要。

为了这个“斜杠”功能,钉钉产品团队与通义实验室进行了封闭式开发,跳过了繁琐的跨部门审批,成为了打破大厂部门墙的经典案例。

这些不计代价,直奔彼岸,不讲程序,只看效率的规则,正是AI时代最宝贵的品质。

其实,在所有商业时代,这些都是最宝贵的品质,造就了许多商业传奇——今天的阿里、腾讯、字节跳动,都是从小公司逆袭而来。

在资本与技术更密集的AI时代,这些品质得到了进一步放大,让AI时代最震撼人心的技术突破,往往不属于那些躺在功劳簿上的企业,也不属于那些只盯着KPI报表的职业经理人。它一如既往地属于那些:

义无反顾冲向风暴中心的人。



THE END

主编:毕亚军 责编:周怡

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热刺遭披萨店神嘲讽:你们上次赢球后我们已送8900万份披萨了

热刺遭披萨店神嘲讽:你们上次赢球后我们已送8900万份披萨了

仰卧撑FTUer
2026-03-08 13:18:03
穿“鸟”的人少了,穿“山”的人多了?商场这一幕,太真实了

穿“鸟”的人少了,穿“山”的人多了?商场这一幕,太真实了

白色得季节
2026-03-06 10:44:56
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
苹果高管回应MacBook Neo设计:绝不向廉价塑料妥协

苹果高管回应MacBook Neo设计:绝不向廉价塑料妥协

IT之家
2026-03-07 07:12:05
英国王室再传“病讯”!王妃已无法站立!

英国王室再传“病讯”!王妃已无法站立!

夜深爱杂谈
2026-03-07 18:57:52
网瘾少年立功!范加尔听外孙劝,斥资1600万签罗霍

网瘾少年立功!范加尔听外孙劝,斥资1600万签罗霍

体坛周报
2026-03-08 15:50:16
超市手撕袋别乱拿!售货员提醒,好多人白花钱还伤身

超市手撕袋别乱拿!售货员提醒,好多人白花钱还伤身

开心美食白科
2026-03-08 00:33:12
做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

她时尚丫
2026-02-17 21:56:13
陈永贵副手郭凤莲的现状:儿子都是亿万富翁,大儿子掏3000万修庙

陈永贵副手郭凤莲的现状:儿子都是亿万富翁,大儿子掏3000万修庙

兵鉴史
2026-03-07 02:19:39
王一博官宣“嫂子”綦美合!?

王一博官宣“嫂子”綦美合!?

八卦疯叔
2026-03-07 10:35:29
小胜小虾还付出“小代价” 阿尔特塔真不是轮换大师

小胜小虾还付出“小代价” 阿尔特塔真不是轮换大师

体坛周报
2026-03-08 12:27:22
辽宁铁人球迷意难平!不仅因为0-3惨败泰山,更是因为以下五点!

辽宁铁人球迷意难平!不仅因为0-3惨败泰山,更是因为以下五点!

田先生篮球
2026-03-07 20:40:14
王毅:中俄关系“风雨不动安如山”

王毅:中俄关系“风雨不动安如山”

每日经济新闻
2026-03-08 12:03:26
林肯号真中弹了:福特号开战一周还在打酱油,现在突然前出补位!

林肯号真中弹了:福特号开战一周还在打酱油,现在突然前出补位!

荷兰豆爱健康
2026-03-08 01:35:18
怀进鹏部长喊话“老师要有幸福感”,评论区一线教师却破防了…

怀进鹏部长喊话“老师要有幸福感”,评论区一线教师却破防了…

教师吧
2026-03-08 15:18:09
整条烟没拆封,到底能放多久?多数人都放错,难怪好烟变“废烟”

整条烟没拆封,到底能放多久?多数人都放错,难怪好烟变“废烟”

水泥土的搞笑
2026-03-07 18:36:24
既参加我党一大,又参加国民党一大的,历史上只有一个人

既参加我党一大,又参加国民党一大的,历史上只有一个人

翠羽
2026-03-08 07:30:09
中日关系跌至冰点,日企55.5%暴涨打脸高市早苗

中日关系跌至冰点,日企55.5%暴涨打脸高市早苗

小柨拍客在北漂
2026-03-08 15:34:35
物业禁止门口堆鞋?看看广东人的新招!门口干净到发光

物业禁止门口堆鞋?看看广东人的新招!门口干净到发光

巢客HOME
2026-03-08 08:55:03
从网络中的伊朗,到人性下限的彻骨恶寒!

从网络中的伊朗,到人性下限的彻骨恶寒!

胖胖说他不胖
2026-03-08 12:05:08
2026-03-08 17:36:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
693文章数 7834关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

伊朗军方公布"家底":具备打至少6个月高强度战争能力

头条要闻

伊朗军方公布"家底":具备打至少6个月高强度战争能力

体育要闻

大伤后被交易,他说:22岁的我已经死了

娱乐要闻

周迅新恋情曝光,李亚鹏等人已成过去

财经要闻

油价要失控?

汽车要闻

9分钟充饱 全新腾势Z9GT首搭闪充技术26.98万起

态度原创

家居
房产
教育
手机
军事航空

家居要闻

暖棕撞色 轻法奶油风

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

教育要闻

第一次考英语四级,如何规划复习才能顺利通过,最好突破550分

手机要闻

小米、vivo、OPPO当家旗舰最新销量分析,差距越拉越大

军事要闻

王毅:解决台湾问题 实现祖国完全统一不可阻挡

无障碍浏览 进入关怀版