网易首页 > 网易号 > 正文 申请入驻

29个人,估值120亿

0
分享至

近日,美国AI初创公司LMArena宣布完成A轮融资,融资额为1.5亿美元,投后估值达17亿美元(约120亿人民币)。该轮融资由Felicis Ventures和加州大学伯克利分校旗下的投资基金UC Investments领投,A16Z、光速创投、The House Fund、LDVP、Kleiner Perkins等美国知名VC跟投。

这笔融资之所以有意思,主要有三点:

首先是LMArena的估值蹿升非常快。它的上一轮融资是2025年5月份的种子轮,由A16Z领投,当时估值是6亿美元。也就是说,估值在七个月内翻了三倍,快速晋升独角兽。

其次是LMArena团队规模极小。根据PitchBook等数据平台截至2026年初的记录,该公司员工总数仅有29人,相当于每个人估值四个亿。

最后,LMArena的产品看起来没啥技术含量,很多人都觉得“我上我也行”。严格来说,LMArena并不是一家AI公司,它只是一个给大模型打分、做排名的网站,可以理解为大模型版的安兔兔。

在各家大模型卷生卷死的时候,没想到是一个大模型“跑分”工具最先赚的盆满钵满。

无心插柳而来的独角兽

LMArena能成为独角兽,其实是无心插柳的结果。

LMArena起源于一个开源学术组织LMSYS Org,该组织由一些来自加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的学生、教授发起,核心使命是通过开发开源模型、系统和数据集,使大模型的使用和评估变得平民化。

值得一提的是,LMSYS Org的华人含量非常高,伯克利的博士Lianmin Zheng、UCSD 的助理教授Hao Zhang、伯克利的研究员Wei-Lin Chiang等人都是核心成员。

2023年3月,LMSYS Org发布了一款名为Vicuna的开源模型,性能可媲美ChatGPT。但是,他们发现当时市面上并没有可靠的测试方法,可以真正区分出模型的好坏。于是,研究团队在2023年4月推出了一个名为Chatbot Arena的开放测试平台。没想到,这个平台在AI圈内越来越火。2024年9月,Chatbot Arena平台正式更名为LMArena,目前已是全球大模型最权威的大模型评测平台之一。

LMArena的核心理念非常简单,就是“匿名对战”四个字。

进入LMArena的网站之后,系统会要求你任意输入一段提示词,随后系统会随机挑选两个AI模型生成对这段提示词的输出。用户在不知道模型身份的情况下,对比两个输出的质量,选择哪个模型胜出。胜出的模型加分,败北的模型减分。经过数十万、上百万次这样的对战之后,就能得出每一个模型的最终得分。

这一打分机制虽然简单,却用非常直接的方式,解决了大模型评测的核心痛点。

传统的大模型评测方式一般是“刷题”,比如MMLU(大规模多任务语言理解)、GSM8K(小学数学)和 HumanEval(代码生成)。然而,随着大模型的发展,这些评测正面临三大致命挑战:饱和、污染与脱节。

首先是饱和。随着大模型的“刷题”能力越来越强,已经逼近人类上限,这类测试的区分度越来越小。如果大家都是90分甚至95分以上,考试就没有了意义。

再来说说污染。由于测试的考题通常在互联网上公开,大模型也就可以预先进行针对性的训练,使得测试结果被污染。

最难以解决的问题是脱节。考题与用户的真实使用场景是不一样的,会做题的大模型不一定能解决真实问题,“高分低能”的情况在大模型中同样存在。

而LMArena则通过收集真实的人类偏好,把大模型的评价方式从“考场考试”改成“竞技场决斗”,一举解决了上述这三大问题。

现在,LMArena的排名已经被AI行业广泛接受为最权威的“人类偏好”风向标,已经有400多个大模型被LMArena打分和排名,每月有数百万个独立用户参与评测。无论是OpenAI、谷歌还是国内的各大AI公司,每次发布新模型都会送去LMArena打个榜,一旦拿到高分,一定会在发布会上大吹特吹一番。

“打分”工具商业化,会被大厂“包养”吗?

2025年初,LMArena正式注册为公司,开始从学术项目转向商业化发展。

一说到“跑分”,很容易让人联想到国内曾经大行其道的安卓跑分工具。这类工具通常有用户、知名度和流量,但很难找到商业化变现的方式。最后的结局往往是被大厂“包养”,渐渐失去公信力,最后被用户抛弃。LMArena是否也会面临这样的问题?

答案当然是肯定的,LM Arena虽然尚未直接接受AI大厂的投资,但包括A16Z在内的VC机构重金投资了很多AI公司,间接的利益相关性也不容忽视。

LM Arena在公信力上遭受的最大质疑,当属2024年初在AI圈内闹得沸沸扬扬的Meta“作弊”事件。

2025年4月,Cohere、斯坦福大学、麻省理工学院等多家AI公司、高校的研究人员联合发表了一篇文章,指责LM Arena帮助部分AI公司操纵排名。

文章指出,Meta在发布Llama 4之前,私底下在LM Arena的平台上测试了27个模型变体,但最终只公开了表现最好的一个模型的得分,以达到在排行榜上名列前茅的目的。另外,文章还认为,LM Arena偏向性的增加了包括Meta、OpenAI和谷歌在内的大厂的模型的“对战”次数,使这些公司的模型排名获得了不公平的优势。

对于这些指责,LM Arena回应是“一些说法与事实不符”,并表示公布预发布模型的分数本身就是毫无意义的。

为了维持透明度,LM Arena会开源部分代码,并定期发布对战数据集供研究者分析。但公正性的争议恐怕会一直伴随LM Arena的商业化。

要做AI时代的产品“认证官”

那么,如果不以牺牲公正性为代价,LM Arena还有哪些更好的商业化手段呢?

2025年9月,LMArena正式推出第一个商业化产品AI Evaluations。AI Evaluations主要面向开发AI大模型的企业或研究机构,为它们提供模型评估服务。AI Evaluations在2025年12月的ARR(年度经常性收入,最近一个月收入乘以12)已达到了3000万美元。

考虑到AI Evaluations上线不到四个月,这样的成绩还算不错。但它显然还不足以撑起17亿美元的估值。投资AI Evaluations的一众硅谷VC,还看到了AI Evaluations的哪些潜力?

在领投LMArena的种子轮融资后,A16Z曾发文解释自己的投资逻辑,其核心观点大致有三条:

首先,A16Z认为LMArena的打分已经在“事实上”成为了评价AI大模型性能的标准,是AI产业发展的“关键基础设施”。

第二,LMArena打造了一个简单而成功的飞轮机制:用更多模型吸引更多用户,从而产生更多的偏好数据,进而吸引更多模型加入。显然,这个飞轮一旦形成就是难以复制的壁垒。

第三,A16Z认为中立、持续的评测,未来将是AI大模型监管的刚需。

A16Z预测了LMArena未来几种可能的业务场景,其中最重要的一个就是为受监管行业提供合规性支持,比如医院或其它关键基础设施。对于这些行业来说,AI的可靠性不是依赖AI公司的承诺,而必须通过透明、持续的评测来保证。A16Z畅想,“LMArena认证”未来将成为AI产品的“绿色认证”。LMArena平台上的用户评测次数,未来将不是数百万次,而是数十亿次。

2025年初,LMArena推出了Inclusion Arena产品,直接通过API和SDK的方式将测试嵌入到真实的AI应用中,以收集生产环境中的反馈数据。截至2025年7月,该产品已收集了超过50万次的真实对战记录。其价值不仅在于极大地增强了排行榜的参考价值,还事实上构建起了一个“AI的持续集成/持续部署管道”。

A16Z承认LMArena面临“在商业压力下保持中立性”的巨大挑战,但是,能够让AI变得“可靠、可预测且值得信赖”的公司,未来将创造出最大的价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月15日晚间,多家上市公司发布重大利好利空好消息

3月15日晚间,多家上市公司发布重大利好利空好消息

A股数据表
2026-03-22 17:41:03
续航2000km!奇瑞官宣:3月25日,新车正式预售

续航2000km!奇瑞官宣:3月25日,新车正式预售

高科技爱好者
2026-03-21 23:07:41
笑死我了!一位三年级小朋友趁妈妈洗澡的缝隙时间,和豆包的对话

笑死我了!一位三年级小朋友趁妈妈洗澡的缝隙时间,和豆包的对话

夜深爱杂谈
2026-03-21 19:50:42
官方发文!李湘风波有了新进展,让她怀二胎的男人,能松口气了

官方发文!李湘风波有了新进展,让她怀二胎的男人,能松口气了

说历史的老牢
2026-03-20 16:57:57
2024年叶诚尘被注射死刑,警方恢复大量聊天内容,发现她有一怪癖

2024年叶诚尘被注射死刑,警方恢复大量聊天内容,发现她有一怪癖

瞻史
2026-03-19 21:06:35
去深圳才发现:年轻人都不穿耐克、萨洛蒙了,满街都是这3个品牌

去深圳才发现:年轻人都不穿耐克、萨洛蒙了,满街都是这3个品牌

白宸侃片
2026-03-11 13:18:49
谢婷婷带混血儿子回香港,飞机上晒儿子正脸照,长相俊俏像极父亲

谢婷婷带混血儿子回香港,飞机上晒儿子正脸照,长相俊俏像极父亲

八斗小先生
2026-03-20 15:59:46
“Token”究竟是个什么东西?中文应当如何准确翻译

“Token”究竟是个什么东西?中文应当如何准确翻译

星空区块链
2026-03-19 12:00:55
CBA焦点战今夜打响!CCTV5直播!广厦将重回第1,深圳冲4连胜

CBA焦点战今夜打响!CCTV5直播!广厦将重回第1,深圳冲4连胜

老吴说体育
2026-03-22 13:02:46
河南一男子享受“皇帝”待遇,养几十个女人,还说有钱就要这样干

河南一男子享受“皇帝”待遇,养几十个女人,还说有钱就要这样干

江山挥笔
2026-03-15 18:13:59
重磅转机!曼联有望签下世界最佳之一,终极补强只差最后一步

重磅转机!曼联有望签下世界最佳之一,终极补强只差最后一步

奶盖熊本熊
2026-03-22 07:01:04
游资集体向量化“投降”? 投资人士:面临多重压力但生存空间仍大

游资集体向量化“投降”? 投资人士:面临多重压力但生存空间仍大

证券时报
2026-03-22 17:14:08
2026年3月20日,辽宁省纪委监委的一则通报,怎么回事?

2026年3月20日,辽宁省纪委监委的一则通报,怎么回事?

呼呼历史论
2026-03-22 17:20:26
彻底不带日本玩!我国中止邀请日本出席高级会议,日方深感不安

彻底不带日本玩!我国中止邀请日本出席高级会议,日方深感不安

标体
2026-03-22 16:05:22
李梓萌,私生活传闻太荒唐

李梓萌,私生活传闻太荒唐

做一个合格的吃瓜群众
2026-03-21 19:20:55
亿万国人破防!90岁院士平静宣布,中国导弹从此没有任何死角!

亿万国人破防!90岁院士平静宣布,中国导弹从此没有任何死角!

兴史兴谈
2026-03-21 20:16:56
首个特朗普金卡中国买家曝光,系全球WiFi之王,正被美商务部调查

首个特朗普金卡中国买家曝光,系全球WiFi之王,正被美商务部调查

肖兹探秘说
2026-03-20 17:15:27
伊朗动用重武器,沉默已久的布林肯,终于站出来,说出美军的结局

伊朗动用重武器,沉默已久的布林肯,终于站出来,说出美军的结局

阿丰聊娱
2026-03-21 21:25:00
又一款9020mAh新机官宣:3月26日,正式发售!

又一款9020mAh新机官宣:3月26日,正式发售!

科技堡垒
2026-03-20 09:37:17
4月1日后去医院,只带医保卡可能吃大亏,这两样缺一不可

4月1日后去医院,只带医保卡可能吃大亏,这两样缺一不可

猫叔东山再起
2026-03-22 08:25:07
2026-03-22 19:36:49
投中网 incentive-icons
投中网
创新经济的智识与洞见
12180文章数 15424关注度
往期回顾 全部

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

头条要闻

白宫发布高市早苗访美照片神态夸张 日本网友:耻辱

头条要闻

白宫发布高市早苗访美照片神态夸张 日本网友:耻辱

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

今晚首播!央视年代剧《冬去春来》来了

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

时尚
旅游
亲子
游戏
军事航空

伊姐周六热推:电视剧《隐身的名字》;电视剧《正义女神》......

旅游要闻

318自驾节在四川雅安启动,川藏线交通与旅游深度融合

亲子要闻

宝蓝的奶奶生病了,宝蓝帮助奶奶收拾房间,清扫地面,收拾厨房~

玩家惊讶《剑星》打破"第四面墙" 偷看屁股被踢飞!

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版