网易首页 > 网易号 > 正文 申请入驻

网民票选AI王者,LMArena一夜变17亿美元独角兽!

0
分享至


新智元报道

编辑:倾倾

【新智元导读】一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5亿美元,估值飙到17亿美元。众包投票挑战专家权威,争议四起,却已成行业标杆。你的票,就能决定下一个AI顶流!

一场AI界的《创造101》火了!

ChatGPT、Claude、Gemini、Grok等一众AI「练习生」整齐站好,紧张等待公演。

这不是选秀节目,而是真实发生在lmarena.ai上的AI大乱斗。

这个曾经的校园开源小项目,最近刚融到1.5亿美元,估值17亿美元。

顶级AI实验室如OpenAI、Google、xAI、Microsoft,都抢着把自家模型送来「试镜」。

现在,AI强弱不再是大公司自己说了算,决定权掌握在全球网民手上。

这场「AI创造营」到底怎么玩?谁会成为下一个出道顶流?让我们一起揭秘。

LMArena的「选秀起源」

从校园项目到硅谷舞台

一切要从2023年说起。当时,加州大学伯克利分校Sky Computing Lab里,一群研究生和教授搞了个开源小项目,叫Chatbot Arena。

创始人包括伯克利计算机科学教授Ion Stoica(Databricks联合创始人)、研究生Anastasios Angelopoulos(现CEO)和Wei-Lin Chiang(现CTO)。


他们最初只是想做一个简单实验:让网友匿名比拼不同AI聊天机器人,看哪个回答更好。

没想到,这个项目一上线就火了,迅速变成AI圈最受欢迎的众包基准平台。

短短三年时间,Chatbot Arena就积累了海量用户。2025年5月,它正式转为营利性公司,更名为LMArena,并完成1亿美元种子轮融资,估值6亿美元。

转折点发生在2026年1月6日——就在昨天!

LMArena宣布完成1.5亿美元新一轮融资,由Felicis和加州大学投资臂联合领投,Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等明星机构跟投。

公司估值直接飙升到17亿美元,总融资额超过2.5亿美元!

如今,LMArena已经拥有超过500万月活跃用户,覆盖150个国家,每月产生超过6000万次对话。

这些用户像是投票的「全民制作人」。连最顶级AI实验室,都把自家最新模型悄悄送来PK。


从一个学术小实验,到硅谷新贵,LMArena用三年时间完成了许多选秀冠军都羡慕的逆袭。

但真正让它火起来的秘密武器,正是那个简单却上瘾的「盲盒PK」投票机制。

盲盒PK与网民投票

「全民制作人」的权利游戏

选秀节目的高潮,是舞台公演和现场打投。LMArena的「公演舞台」也一样刺激:它叫Arena模式,核心就是一个字——盲!

打开lmarena.ai,进入战斗模式,随便输入一个问题,系统开始随机匹配两个匿名AI模型,同时给出答案。

你不知道是谁生成的,只能凭感觉投票。投完票,网站才会揭晓:哦,原来左边是Gemini-3-Pro,右边是Grok-4.1!

这种形式很像拆盲盒——公平又上瘾。

总得票数也算入评分体系。LMArena用Elo评分系统实时计算,每赢一次加分,输了扣分。


7天前的总分榜单,Gemini-3-pro稳居榜首

总得分汇总之后,还会公开不同类别的榜单:文本对话、网页开发、视觉理解文本生成图像、图像编辑、搜索、甚至文本/图像生成视频。

在热门类别里,Gemini-3-Pro在文本和视觉领域遥遥领先,Grok-4.1-thinking紧追不舍,而图像编辑里GPT-Image-1.5和Gemini的变种轮流霸榜。

怎么一场「选秀比赛」能引得这些顶级模型下场?CEO Anastasios Angelopoulos揭开真相:

领先的AI公司用我们,是因为他们自己都很难判断模型到底好不好。

还没公开发布的新模型,都会偷偷托管到LMArena先测试一下,拿网友反馈快速更新迭代。

网友也不只是实验的小白鼠,甚至还有点爽——不用懂技术,上手几分钟就能当「全民制作人」,把喜欢的AI投上C位。

数百万张票汇成热搜排行,谁上谁下,全看网友心情。

「黑幕」质疑与「付费导师」的对决

选秀节目再火,也逃不过「黑幕」质疑和粉丝撕X。LMArena同样不例外——它一出道就卷入各种争议,有人喊「太民主了」,有人骂「太乱了」。

吐槽最多的,是众包投票容易被操纵。

2025年,一篇论文直接曝出黑幕:Meta在Llama 4发布前,偷偷提交了36个私有变体模型,反复测试「刷分」,成功gaming 排行榜。


研究者来自Cohere、Stanford、MIT等机构,直指顶级实验室能通过多次私测优化,中小玩家根本玩不起。

类似指控还有:某些大公司被怀疑刷票或优先托管新模型,让排行榜看起来「偏心」。

还有人认为,网民投票不够专业。随便一个网友的票,怎么能跟专家比?

这就牵扯出最大竞争对手——Scale AI。Scale的评价方式完全不同:他们花大钱雇佣付费专家,比如律师、教授、医生,来给AI答案打分。

2025年9月,Scale直接推出「Seal Showdown」平台,公开叫板 LMArena,宣称自己的方法更有代表性、更严谨,避免了众包的噪音和偏见。


联合创始人Ion Stoica去年接受采访时说过:

最高质量的评估——黄金标准——就是让人们在自己熟悉的话题上投票。

他们认为,用户对自家问题最懂,能给出最诚实的反馈;付费专家反而可能有偏见或不接地气。

而且,全球150国用户的多样性,让排行榜更全面,避免了单一文化霸权。

争议归争议,LMArena的排行榜还是成了行业事实标准——大公司照样抢着上。

但选秀不会止步于打投,LMArena已经在憋大招。

从排行榜到「AI经纪公司」

选秀冠军出道后,最兴奋的莫过于「后续规划」:开演唱会、拍综艺、接代言,还是转型演员?

LMArena也一样它不满足于只办比赛,已经在准备进化成AI界的「全能经纪公司」。

新一轮1.5亿美元融资,主要就是砸在这上面。

公司公告明确表示,资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级AI评估服务。


以后,LMArena不光让网友玩盲测,还会为OpenAI、Google、xAI这样的大厂提供付费专业评估,帮他们跑模型、收集反馈、生成报告,甚至深度定制基准测试。

LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。

把「好回答」当奖励、「差回答」当惩罚,让AI像练习生苦练舞蹈一样,不断优化自己。

投资者、Felicis合伙人Peter Deng在采访中直言:

一旦成为事实上的基准层,产品自然会扩展。真正价值在于与AI实验室的深度合作——结合他们的内部数据和我们的比较外部数据。”

这场「AI创造营」才刚刚开播,高潮还在后头。

LMArena用三年时间证明了一个疯狂的事实——在AI时代,众包的力量能碾压传统专家,民主投票能成为最锋利的标尺。

更重要的是,它把我们从旁观者变成了主角。你的每一张票,不只决定了今天的排行榜C位,还可能在悄无声息中塑造明天的超级AI。

ChatGPT、Grok、Gemini……谁能持续霸榜,谁又会突然被黑马反超,全看我们这些「全民制作人」的心情。

AI的未来不再遥远,它就藏在你的下一票里。

参考资料:

https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
因说出“把赖清德狗头斩下来”,台网红“馆长”被提起公诉

因说出“把赖清德狗头斩下来”,台网红“馆长”被提起公诉

参考消息
2026-01-09 19:16:00
被大家猜中了!洗碗机的女主角起号成功,直播间人数超过3000…

被大家猜中了!洗碗机的女主角起号成功,直播间人数超过3000…

火山诗话
2026-01-10 15:13:33
买洗碗机遭丈夫砸家后续:生病还乱花钱,负债20万,知情人曝更多

买洗碗机遭丈夫砸家后续:生病还乱花钱,负债20万,知情人曝更多

丁丁鲤史纪
2026-01-09 16:00:11
浙江“兔子警官”李语蔚,确认当选!

浙江“兔子警官”李语蔚,确认当选!

台州交通广播
2026-01-10 18:22:47
官方通报内蒙古赤峰一小学校服有薄膜

官方通报内蒙古赤峰一小学校服有薄膜

界面新闻
2026-01-10 09:51:23
1月10日最新俄乌:史无前例的讲话

1月10日最新俄乌:史无前例的讲话

西楼饮月
2026-01-10 15:21:01
应急管理涂装车每天送孩子上学,有警灯无牌照,应急管理局回应

应急管理涂装车每天送孩子上学,有警灯无牌照,应急管理局回应

极目新闻
2026-01-09 21:53:08
洗碗机砸家后续:丈夫降薪,妻子爱美,每月多次海底捞,朋友发声

洗碗机砸家后续:丈夫降薪,妻子爱美,每月多次海底捞,朋友发声

李健政观察
2026-01-09 17:44:57
嘲笑20年工龄同事被奖励“破奖牌”,结果发现是纯金的达62克,员工:公司的传统,满20年工龄都会有

嘲笑20年工龄同事被奖励“破奖牌”,结果发现是纯金的达62克,员工:公司的传统,满20年工龄都会有

观威海
2026-01-10 11:10:06
一夜暴涨!又被金价惊到了!

一夜暴涨!又被金价惊到了!

江南晚报
2026-01-09 21:22:25
格陵兰岛各政党领导人:“格陵兰人不想成为美国人”

格陵兰岛各政党领导人:“格陵兰人不想成为美国人”

界面新闻
2026-01-10 17:21:32
田朴珺罕见秀恩爱,带王石剪了个新发型年轻不少!5岁女儿像爸爸

田朴珺罕见秀恩爱,带王石剪了个新发型年轻不少!5岁女儿像爸爸

娱乐团长
2026-01-10 11:48:47
日媒:高市早苗考虑提前大选

日媒:高市早苗考虑提前大选

上观新闻
2026-01-10 13:45:04
领导30万员工1万,申万期货员工质疑年终奖分配遭停职,和总经理起冲突,双方已报警

领导30万员工1万,申万期货员工质疑年终奖分配遭停职,和总经理起冲突,双方已报警

红星新闻
2026-01-09 19:12:18
AI仅用1小时破译500年未解的“天书”,再次降维打击人类?

AI仅用1小时破译500年未解的“天书”,再次降维打击人类?

上观新闻
2026-01-09 23:06:13
演都不演了,徐帆回应离婚5个月后,冯小刚的小心思藏不住了

演都不演了,徐帆回应离婚5个月后,冯小刚的小心思藏不住了

卷史
2026-01-10 06:07:44
买洗碗机丈夫砸家后续:知情人曝内幕,女子作精爱花钱欠外债20万

买洗碗机丈夫砸家后续:知情人曝内幕,女子作精爱花钱欠外债20万

青梅侃史啊
2026-01-10 08:58:19
北海道五岁男孩被卷进中国产扶手梯身亡?厂家惊呼“我们当时压根没卖给日本啊!”

北海道五岁男孩被卷进中国产扶手梯身亡?厂家惊呼“我们当时压根没卖给日本啊!”

日本通
2026-01-09 10:33:55
河南一男孩校内离奇死亡,官方通报,知情人曝细节,校方恐担责!

河南一男孩校内离奇死亡,官方通报,知情人曝细节,校方恐担责!

李健政观察
2026-01-09 23:44:49
孟加拉没有未来?现实触目惊心:不是发展太慢,而是被锁死了上限

孟加拉没有未来?现实触目惊心:不是发展太慢,而是被锁死了上限

远方风林
2026-01-08 02:05:03
2026-01-10 18:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14301文章数 66450关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

白人女子被执法队员当街射杀 死前对峙说"我不生你气"

头条要闻

白人女子被执法队员当街射杀 死前对峙说"我不生你气"

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

亲子
旅游
房产
公开课
军事航空

亲子要闻

“一瓶饮料能让孩子两个小时不分泌生长激素”,儿科医师提醒:别给孩子喝果汁、奶茶、可乐,喝得越多,生长...

旅游要闻

威海:雪映火炬八街 定格冬日浪漫

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版