29个人，估值120亿|飞轮|评测|lm|大模型|实时世界模型|chatbot

29个人，估值120亿

2026-01-19 15:39:10　来源: 投中网

上海举报

分享至

近日，美国AI初创公司LMArena宣布完成A轮融资，融资额为1.5亿美元，投后估值达17亿美元（约120亿人民币）。该轮融资由Felicis Ventures和加州大学伯克利分校旗下的投资基金UC Investments领投，A16Z、光速创投、The House Fund、LDVP、Kleiner Perkins等美国知名VC跟投。

这笔融资之所以有意思，主要有三点：

首先是LMArena的估值蹿升非常快。它的上一轮融资是2025年5月份的种子轮，由A16Z领投，当时估值是6亿美元。也就是说，估值在七个月内翻了三倍，快速晋升独角兽。

其次是LMArena团队规模极小。根据PitchBook等数据平台截至2026年初的记录，该公司员工总数仅有29人，相当于每个人估值四个亿。

最后，LMArena的产品看起来没啥技术含量，很多人都觉得“我上我也行”。严格来说，LMArena并不是一家AI公司，它只是一个给大模型打分、做排名的网站，可以理解为大模型版的安兔兔。

在各家大模型卷生卷死的时候，没想到是一个大模型“跑分”工具最先赚的盆满钵满。

无心插柳而来的独角兽

LMArena能成为独角兽，其实是无心插柳的结果。

LMArena起源于一个开源学术组织LMSYS Org，该组织由一些来自加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的学生、教授发起，核心使命是通过开发开源模型、系统和数据集，使大模型的使用和评估变得平民化。

值得一提的是，LMSYS Org的华人含量非常高，伯克利的博士Lianmin Zheng、UCSD 的助理教授Hao Zhang、伯克利的研究员Wei-Lin Chiang等人都是核心成员。

2023年3月，LMSYS Org发布了一款名为Vicuna的开源模型，性能可媲美ChatGPT。但是，他们发现当时市面上并没有可靠的测试方法，可以真正区分出模型的好坏。于是，研究团队在2023年4月推出了一个名为Chatbot Arena的开放测试平台。没想到，这个平台在AI圈内越来越火。2024年9月，Chatbot Arena平台正式更名为LMArena，目前已是全球大模型最权威的大模型评测平台之一。

LMArena的核心理念非常简单，就是“匿名对战”四个字。

进入LMArena的网站之后，系统会要求你任意输入一段提示词，随后系统会随机挑选两个AI模型生成对这段提示词的输出。用户在不知道模型身份的情况下，对比两个输出的质量，选择哪个模型胜出。胜出的模型加分，败北的模型减分。经过数十万、上百万次这样的对战之后，就能得出每一个模型的最终得分。

这一打分机制虽然简单，却用非常直接的方式，解决了大模型评测的核心痛点。

传统的大模型评测方式一般是“刷题”，比如MMLU（大规模多任务语言理解）、GSM8K（小学数学）和 HumanEval（代码生成）。然而，随着大模型的发展，这些评测正面临三大致命挑战：饱和、污染与脱节。

首先是饱和。随着大模型的“刷题”能力越来越强，已经逼近人类上限，这类测试的区分度越来越小。如果大家都是90分甚至95分以上，考试就没有了意义。

再来说说污染。由于测试的考题通常在互联网上公开，大模型也就可以预先进行针对性的训练，使得测试结果被污染。

最难以解决的问题是脱节。考题与用户的真实使用场景是不一样的，会做题的大模型不一定能解决真实问题，“高分低能”的情况在大模型中同样存在。

而LMArena则通过收集真实的人类偏好，把大模型的评价方式从“考场考试”改成“竞技场决斗”，一举解决了上述这三大问题。

现在，LMArena的排名已经被AI行业广泛接受为最权威的“人类偏好”风向标，已经有400多个大模型被LMArena打分和排名，每月有数百万个独立用户参与评测。无论是OpenAI、谷歌还是国内的各大AI公司，每次发布新模型都会送去LMArena打个榜，一旦拿到高分，一定会在发布会上大吹特吹一番。

“打分”工具商业化，会被大厂“包养”吗？

2025年初，LMArena正式注册为公司，开始从学术项目转向商业化发展。

一说到“跑分”，很容易让人联想到国内曾经大行其道的安卓跑分工具。这类工具通常有用户、知名度和流量，但很难找到商业化变现的方式。最后的结局往往是被大厂“包养”，渐渐失去公信力，最后被用户抛弃。LMArena是否也会面临这样的问题？

答案当然是肯定的，LM Arena虽然尚未直接接受AI大厂的投资，但包括A16Z在内的VC机构重金投资了很多AI公司，间接的利益相关性也不容忽视。

LM Arena在公信力上遭受的最大质疑，当属2024年初在AI圈内闹得沸沸扬扬的Meta“作弊”事件。

2025年4月，Cohere、斯坦福大学、麻省理工学院等多家AI公司、高校的研究人员联合发表了一篇文章，指责LM Arena帮助部分AI公司操纵排名。

文章指出，Meta在发布Llama 4之前，私底下在LM Arena的平台上测试了27个模型变体，但最终只公开了表现最好的一个模型的得分，以达到在排行榜上名列前茅的目的。另外，文章还认为，LM Arena偏向性的增加了包括Meta、OpenAI和谷歌在内的大厂的模型的“对战”次数，使这些公司的模型排名获得了不公平的优势。

对于这些指责，LM Arena回应是“一些说法与事实不符”，并表示公布预发布模型的分数本身就是毫无意义的。

为了维持透明度，LM Arena会开源部分代码，并定期发布对战数据集供研究者分析。但公正性的争议恐怕会一直伴随LM Arena的商业化。

要做AI时代的产品“认证官”

那么，如果不以牺牲公正性为代价，LM Arena还有哪些更好的商业化手段呢？

2025年9月，LMArena正式推出第一个商业化产品AI Evaluations。AI Evaluations主要面向开发AI大模型的企业或研究机构，为它们提供模型评估服务。AI Evaluations在2025年12月的ARR（年度经常性收入，最近一个月收入乘以12）已达到了3000万美元。

考虑到AI Evaluations上线不到四个月，这样的成绩还算不错。但它显然还不足以撑起17亿美元的估值。投资AI Evaluations的一众硅谷VC，还看到了AI Evaluations的哪些潜力？

在领投LMArena的种子轮融资后，A16Z曾发文解释自己的投资逻辑，其核心观点大致有三条：

首先，A16Z认为LMArena的打分已经在“事实上”成为了评价AI大模型性能的标准，是AI产业发展的“关键基础设施”。

第二，LMArena打造了一个简单而成功的飞轮机制：用更多模型吸引更多用户，从而产生更多的偏好数据，进而吸引更多模型加入。显然，这个飞轮一旦形成就是难以复制的壁垒。

第三，A16Z认为中立、持续的评测，未来将是AI大模型监管的刚需。

A16Z预测了LMArena未来几种可能的业务场景，其中最重要的一个就是为受监管行业提供合规性支持，比如医院或其它关键基础设施。对于这些行业来说，AI的可靠性不是依赖AI公司的承诺，而必须通过透明、持续的评测来保证。A16Z畅想，“LMArena认证”未来将成为AI产品的“绿色认证”。LMArena平台上的用户评测次数，未来将不是数百万次，而是数十亿次。

2025年初，LMArena推出了Inclusion Arena产品，直接通过API和SDK的方式将测试嵌入到真实的AI应用中，以收集生产环境中的反馈数据。截至2025年7月，该产品已收集了超过50万次的真实对战记录。其价值不仅在于极大地增强了排行榜的参考价值，还事实上构建起了一个“AI的持续集成/持续部署管道”。

A16Z承认LMArena面临“在商业压力下保持中立性”的巨大挑战，但是，能够让AI变得“可靠、可预测且值得信赖”的公司，未来将创造出最大的价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.