网易首页 > 网易号 > 正文 申请入驻

网民票选AI王者,LMArena一夜变17亿美元独角兽!

0
分享至

一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5亿美元,估值飙到17亿美元。众包投票挑战专家权威,争议四起,却已成行业标杆。你的票,就能决定下一个AI顶流!

一场AI界的《创造101》火了!

ChatGPT、Claude、Gemini、Grok等一众AI「练习生」整齐站好,紧张等待公演。

这不是选秀节目,而是真实发生在lmarena.ai上的AI大乱斗。

这个曾经的校园开源小项目,最近刚融到1.5亿美元,估值17亿美元。

顶级AI实验室如OpenAI、Google、xAI、Microsoft,都抢着把自家模型送来「试镜」。

现在,AI强弱不再是大公司自己说了算,决定权掌握在全球网民手上。

这场「AI创造营」到底怎么玩?谁会成为下一个出道顶流?让我们一起揭秘。

LMArena的「选秀起源」

从校园项目到硅谷舞台

一切要从2023年说起。当时,加州大学伯克利分校Sky Computing Lab里,一群研究生和教授搞了个开源小项目,叫Chatbot Arena。

创始人包括伯克利计算机科学教授Ion Stoica(Databricks联合创始人)、研究生Anastasios Angelopoulos(现CEO)和Wei-Lin Chiang(现CTO)。


他们最初只是想做一个简单实验:让网友匿名比拼不同AI聊天机器人,看哪个回答更好。

没想到,这个项目一上线就火了,迅速变成AI圈最受欢迎的众包基准平台。

短短三年时间,Chatbot Arena就积累了海量用户。2025年5月,它正式转为营利性公司,更名为LMArena,并完成1亿美元种子轮融资,估值6亿美元。

转折点发生在2026年1月6日——就在昨天!

LMArena宣布完成1.5亿美元新一轮融资,由Felicis和加州大学投资臂联合领投,Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等明星机构跟投。

公司估值直接飙升到17亿美元,总融资额超过2.5亿美元!

如今,LMArena已经拥有超过500万月活跃用户,覆盖150个国家,每月产生超过6000万次对话。

这些用户像是投票的「全民制作人」。连最顶级AI实验室,都把自家最新模型悄悄送来PK。


从一个学术小实验,到硅谷新贵,LMArena用三年时间完成了许多选秀冠军都羡慕的逆袭。

但真正让它火起来的秘密武器,正是那个简单却上瘾的「盲盒PK」投票机制。

盲盒PK与网民投票

「全民制作人」的权利游戏

选秀节目的高潮,是舞台公演和现场打投。LMArena的「公演舞台」也一样刺激:它叫Arena模式,核心就是一个字——盲!

打开lmarena.ai,进入战斗模式,随便输入一个问题,系统开始随机匹配两个匿名AI模型,同时给出答案。

你不知道是谁生成的,只能凭感觉投票。投完票,网站才会揭晓:哦,原来左边是Gemini-3-Pro,右边是Grok-4.1!

这种形式很像拆盲盒——公平又上瘾。

总得票数也算入评分体系。LMArena用Elo评分系统实时计算,每赢一次加分,输了扣分。


7天前的总分榜单,Gemini-3-pro稳居榜首

总得分汇总之后,还会公开不同类别的榜单:文本对话、网页开发、视觉理解文本生成图像、图像编辑、搜索、甚至文本/图像生成视频。

在热门类别里,Gemini-3-Pro在文本和视觉领域遥遥领先,Grok-4.1-thinking紧追不舍,而图像编辑里GPT-Image-1.5和Gemini的变种轮流霸榜。

怎么一场「选秀比赛」能引得这些顶级模型下场?CEO Anastasios Angelopoulos揭开真相:

领先的AI公司用我们,是因为他们自己都很难判断模型到底好不好。

还没公开发布的新模型,都会偷偷托管到LMArena先测试一下,拿网友反馈快速更新迭代。

网友也不只是实验的小白鼠,甚至还有点爽——不用懂技术,上手几分钟就能当「全民制作人」,把喜欢的AI投上C位。

数百万张票汇成热搜排行,谁上谁下,全看网友心情。

「黑幕」质疑与「付费导师」的对决

选秀节目再火,也逃不过「黑幕」质疑和粉丝撕X。LMArena同样不例外——它一出道就卷入各种争议,有人喊「太民主了」,有人骂「太乱了」。

吐槽最多的,是众包投票容易被操纵。

2025年,一篇论文直接曝出黑幕:Meta在Llama 4发布前,偷偷提交了36个私有变体模型,反复测试「刷分」,成功gaming 排行榜。


研究者来自Cohere、Stanford、MIT等机构,直指顶级实验室能通过多次私测优化,中小玩家根本玩不起。

类似指控还有:某些大公司被怀疑刷票或优先托管新模型,让排行榜看起来「偏心」。

还有人认为,网民投票不够专业。随便一个网友的票,怎么能跟专家比?

这就牵扯出最大竞争对手——Scale AI。Scale的评价方式完全不同:他们花大钱雇佣付费专家,比如律师、教授、医生,来给AI答案打分。

2025年9月,Scale直接推出「Seal Showdown」平台,公开叫板 LMArena,宣称自己的方法更有代表性、更严谨,避免了众包的噪音和偏见。


联合创始人Ion Stoica去年接受采访时说过:

最高质量的评估——黄金标准——就是让人们在自己熟悉的话题上投票。

他们认为,用户对自家问题最懂,能给出最诚实的反馈;付费专家反而可能有偏见或不接地气。

而且,全球150国用户的多样性,让排行榜更全面,避免了单一文化霸权。

争议归争议,LMArena的排行榜还是成了行业事实标准——大公司照样抢着上。

但选秀不会止步于打投,LMArena已经在憋大招。

从排行榜到「AI经纪公司」

选秀冠军出道后,最兴奋的莫过于「后续规划」:开演唱会、拍综艺、接代言,还是转型演员?

LMArena也一样它不满足于只办比赛,已经在准备进化成AI界的「全能经纪公司」。

新一轮1.5亿美元融资,主要就是砸在这上面。

公司公告明确表示,资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级AI评估服务。


以后,LMArena不光让网友玩盲测,还会为OpenAI、Google、xAI这样的大厂提供付费专业评估,帮他们跑模型、收集反馈、生成报告,甚至深度定制基准测试。

LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。

把「好回答」当奖励、「差回答」当惩罚,让AI像练习生苦练舞蹈一样,不断优化自己。

投资者、Felicis合伙人Peter Deng在采访中直言:

一旦成为事实上的基准层,产品自然会扩展。真正价值在于与AI实验室的深度合作——结合他们的内部数据和我们的比较外部数据。”

这场「AI创造营」才刚刚开播,高潮还在后头。

LMArena用三年时间证明了一个疯狂的事实——在AI时代,众包的力量能碾压传统专家,民主投票能成为最锋利的标尺。

更重要的是,它把我们从旁观者变成了主角。你的每一张票,不只决定了今天的排行榜C位,还可能在悄无声息中塑造明天的超级AI。

ChatGPT、Grok、Gemini……谁能持续霸榜,谁又会突然被黑马反超,全看我们这些「全民制作人」的心情。

AI的未来不再遥远,它就藏在你的下一票里。

参考资料:

https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi

文章来源:新智元。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骗钱的方式,已经恬不知耻了

骗钱的方式,已经恬不知耻了

胖胖说他不胖
2026-04-16 09:00:18
奉劝所有中国人,大家一定要做好心理准备

奉劝所有中国人,大家一定要做好心理准备

安安说
2026-04-14 11:01:43
比利时行动了

比利时行动了

观察者网
2026-04-16 17:26:08
皇上偷偷在宰相衣服烧了个洞,一年后发现洞还在,下令:打开国库

皇上偷偷在宰相衣服烧了个洞,一年后发现洞还在,下令:打开国库

铭记历史呀
2026-04-15 18:29:00
教育部新规落地!9月上学全变了,家长趁早看,早了解早安排

教育部新规落地!9月上学全变了,家长趁早看,早了解早安排

小谈食刻美食
2026-04-16 07:28:48
关键时刻打出了攻守兼备的表现,勇士内线大闸起到了决定性的作用

关键时刻打出了攻守兼备的表现,勇士内线大闸起到了决定性的作用

稻谷与小麦
2026-04-16 23:41:23
蒋介石最大的决策失误:错杀瞿秋白,让国民党失去了最后的人心!

蒋介石最大的决策失误:错杀瞿秋白,让国民党失去了最后的人心!

掠影后有感
2026-04-16 09:44:54
闹大了!云南被泼水车主发声,官媒下场怒批,拉车门男子正脸曝光

闹大了!云南被泼水车主发声,官媒下场怒批,拉车门男子正脸曝光

千言娱乐记
2026-04-16 15:09:12
10万亿?中国或将成为全球,乃至人类历史上,第一个“电力王国”

10万亿?中国或将成为全球,乃至人类历史上,第一个“电力王国”

趣味萌宠的日常
2026-04-16 15:45:47
《纵横四海》5月3日上映,周润发、张国荣、钟楚红演绎经典

《纵横四海》5月3日上映,周润发、张国荣、钟楚红演绎经典

南方都市报
2026-04-16 12:36:09
大难临头各自飞?时隔9月相见,尹锡悦紧盯爱妻,为何被冷眼相对

大难临头各自飞?时隔9月相见,尹锡悦紧盯爱妻,为何被冷眼相对

军闻新大门
2026-04-16 05:19:26
时隔3年重返WNBA!韩旭训练营合同签纽约自由人 多位国手留洋

时隔3年重返WNBA!韩旭训练营合同签纽约自由人 多位国手留洋

醉卧浮生
2026-04-15 23:58:33
巴铁携中式武器护航,美伊和谈添变数

巴铁携中式武器护航,美伊和谈添变数

烽火瞭望者
2026-04-16 21:39:25
炸裂! 中国留学生往奶茶里下药迷奸女邻居8次 全程录像+聊天炫耀

炸裂! 中国留学生往奶茶里下药迷奸女邻居8次 全程录像+聊天炫耀

北国向锡安
2026-04-16 09:14:12
76年谭启龙给华国锋写信:我要当官,华老回复:去青海当省委书记

76年谭启龙给华国锋写信:我要当官,华老回复:去青海当省委书记

棠棣分享
2026-04-15 17:42:48
市值没破万亿被严重低估!小米年内累计回购达65.98亿港元 雷军也曾花亿元增持

市值没破万亿被严重低估!小米年内累计回购达65.98亿港元 雷军也曾花亿元增持

快科技
2026-04-16 17:42:44
50岁李小冉双马尾甜翻全网,老公徐佳宁:悔不该让她上节目

50岁李小冉双马尾甜翻全网,老公徐佳宁:悔不该让她上节目

童叔不飙车
2026-04-16 21:36:37
英特尔新处理器叫"野猫":入门本的算力陷阱

英特尔新处理器叫"野猫":入门本的算力陷阱

闪存猎手
2026-04-16 22:02:28
后续!孕妇200买水果被老公骂:在坐小月子,老公得知后怒砸东西

后续!孕妇200买水果被老公骂:在坐小月子,老公得知后怒砸东西

青梅侃史啊
2026-04-15 07:51:58
女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

一盅情怀
2026-03-16 17:28:45
2026-04-17 01:24:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5478文章数 64623关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

本地
时尚
数码
旅游
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

数码要闻

航嘉推出灵动F45 Neo 2C充电头,79元

旅游要闻

社评:读懂“China Travel”持续圈粉的逻辑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版