网易首页 > 网易号 > 正文 申请入驻

29个人,估值120亿

0
分享至

近日,美国AI初创公司LMArena宣布完成A轮融资,融资额为1.5亿美元,投后估值达17亿美元(约120亿人民币)。该轮融资由Felicis Ventures和加州大学伯克利分校旗下的投资基金UC Investments领投,A16Z、光速创投、The House Fund、LDVP、Kleiner Perkins等美国知名VC跟投。

这笔融资之所以有意思,主要有三点:

首先是LMArena的估值蹿升非常快。它的上一轮融资是2025年5月份的种子轮,由A16Z领投,当时估值是6亿美元。也就是说,估值在七个月内翻了三倍,快速晋升独角兽。

其次是LMArena团队规模极小。根据PitchBook等数据平台截至2026年初的记录,该公司员工总数仅有29人,相当于每个人估值四个亿。

最后,LMArena的产品看起来没啥技术含量,很多人都觉得“我上我也行”。严格来说,LMArena并不是一家AI公司,它只是一个给大模型打分、做排名的网站,可以理解为大模型版的安兔兔。

在各家大模型卷生卷死的时候,没想到是一个大模型“跑分”工具最先赚的盆满钵满。

无心插柳而来的独角兽

LMArena能成为独角兽,其实是无心插柳的结果。

LMArena起源于一个开源学术组织LMSYS Org,该组织由一些来自加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的学生、教授发起,核心使命是通过开发开源模型、系统和数据集,使大模型的使用和评估变得平民化。

值得一提的是,LMSYS Org的华人含量非常高,伯克利的博士Lianmin Zheng、UCSD 的助理教授Hao Zhang、伯克利的研究员Wei-Lin Chiang等人都是核心成员。

2023年3月,LMSYS Org发布了一款名为Vicuna的开源模型,性能可媲美ChatGPT。但是,他们发现当时市面上并没有可靠的测试方法,可以真正区分出模型的好坏。于是,研究团队在2023年4月推出了一个名为Chatbot Arena的开放测试平台。没想到,这个平台在AI圈内越来越火。2024年9月,Chatbot Arena平台正式更名为LMArena,目前已是全球大模型最权威的大模型评测平台之一。

LMArena的核心理念非常简单,就是“匿名对战”四个字。

进入LMArena的网站之后,系统会要求你任意输入一段提示词,随后系统会随机挑选两个AI模型生成对这段提示词的输出。用户在不知道模型身份的情况下,对比两个输出的质量,选择哪个模型胜出。胜出的模型加分,败北的模型减分。经过数十万、上百万次这样的对战之后,就能得出每一个模型的最终得分。

这一打分机制虽然简单,却用非常直接的方式,解决了大模型评测的核心痛点。

传统的大模型评测方式一般是“刷题”,比如MMLU(大规模多任务语言理解)、GSM8K(小学数学)和 HumanEval(代码生成)。然而,随着大模型的发展,这些评测正面临三大致命挑战:饱和、污染与脱节。

首先是饱和。随着大模型的“刷题”能力越来越强,已经逼近人类上限,这类测试的区分度越来越小。如果大家都是90分甚至95分以上,考试就没有了意义。

再来说说污染。由于测试的考题通常在互联网上公开,大模型也就可以预先进行针对性的训练,使得测试结果被污染。

最难以解决的问题是脱节。考题与用户的真实使用场景是不一样的,会做题的大模型不一定能解决真实问题,“高分低能”的情况在大模型中同样存在。

而LMArena则通过收集真实的人类偏好,把大模型的评价方式从“考场考试”改成“竞技场决斗”,一举解决了上述这三大问题。

现在,LMArena的排名已经被AI行业广泛接受为最权威的“人类偏好”风向标,已经有400多个大模型被LMArena打分和排名,每月有数百万个独立用户参与评测。无论是OpenAI、谷歌还是国内的各大AI公司,每次发布新模型都会送去LMArena打个榜,一旦拿到高分,一定会在发布会上大吹特吹一番。

“打分”工具商业化,会被大厂“包养”吗?

2025年初,LMArena正式注册为公司,开始从学术项目转向商业化发展。

一说到“跑分”,很容易让人联想到国内曾经大行其道的安卓跑分工具。这类工具通常有用户、知名度和流量,但很难找到商业化变现的方式。最后的结局往往是被大厂“包养”,渐渐失去公信力,最后被用户抛弃。LMArena是否也会面临这样的问题?

答案当然是肯定的,LM Arena虽然尚未直接接受AI大厂的投资,但包括A16Z在内的VC机构重金投资了很多AI公司,间接的利益相关性也不容忽视。

LM Arena在公信力上遭受的最大质疑,当属2024年初在AI圈内闹得沸沸扬扬的Meta“作弊”事件。

2025年4月,Cohere、斯坦福大学、麻省理工学院等多家AI公司、高校的研究人员联合发表了一篇文章,指责LM Arena帮助部分AI公司操纵排名。

文章指出,Meta在发布Llama 4之前,私底下在LM Arena的平台上测试了27个模型变体,但最终只公开了表现最好的一个模型的得分,以达到在排行榜上名列前茅的目的。另外,文章还认为,LM Arena偏向性的增加了包括Meta、OpenAI和谷歌在内的大厂的模型的“对战”次数,使这些公司的模型排名获得了不公平的优势。

对于这些指责,LM Arena回应是“一些说法与事实不符”,并表示公布预发布模型的分数本身就是毫无意义的。

为了维持透明度,LM Arena会开源部分代码,并定期发布对战数据集供研究者分析。但公正性的争议恐怕会一直伴随LM Arena的商业化。

要做AI时代的产品“认证官”

那么,如果不以牺牲公正性为代价,LM Arena还有哪些更好的商业化手段呢?

2025年9月,LMArena正式推出第一个商业化产品AI Evaluations。AI Evaluations主要面向开发AI大模型的企业或研究机构,为它们提供模型评估服务。AI Evaluations在2025年12月的ARR(年度经常性收入,最近一个月收入乘以12)已达到了3000万美元。

考虑到AI Evaluations上线不到四个月,这样的成绩还算不错。但它显然还不足以撑起17亿美元的估值。投资AI Evaluations的一众硅谷VC,还看到了AI Evaluations的哪些潜力?

在领投LMArena的种子轮融资后,A16Z曾发文解释自己的投资逻辑,其核心观点大致有三条:

首先,A16Z认为LMArena的打分已经在“事实上”成为了评价AI大模型性能的标准,是AI产业发展的“关键基础设施”。

第二,LMArena打造了一个简单而成功的飞轮机制:用更多模型吸引更多用户,从而产生更多的偏好数据,进而吸引更多模型加入。显然,这个飞轮一旦形成就是难以复制的壁垒。

第三,A16Z认为中立、持续的评测,未来将是AI大模型监管的刚需。

A16Z预测了LMArena未来几种可能的业务场景,其中最重要的一个就是为受监管行业提供合规性支持,比如医院或其它关键基础设施。对于这些行业来说,AI的可靠性不是依赖AI公司的承诺,而必须通过透明、持续的评测来保证。A16Z畅想,“LMArena认证”未来将成为AI产品的“绿色认证”。LMArena平台上的用户评测次数,未来将不是数百万次,而是数十亿次。

2025年初,LMArena推出了Inclusion Arena产品,直接通过API和SDK的方式将测试嵌入到真实的AI应用中,以收集生产环境中的反馈数据。截至2025年7月,该产品已收集了超过50万次的真实对战记录。其价值不仅在于极大地增强了排行榜的参考价值,还事实上构建起了一个“AI的持续集成/持续部署管道”。

A16Z承认LMArena面临“在商业压力下保持中立性”的巨大挑战,但是,能够让AI变得“可靠、可预测且值得信赖”的公司,未来将创造出最大的价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
戚薇女儿赴澳洲参赛,颜值美到认不出,网友:这脸,还得靠爸妈..

戚薇女儿赴澳洲参赛,颜值美到认不出,网友:这脸,还得靠爸妈..

黎兜兜
2026-01-18 21:18:57
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
西贝,到了生死存亡边缘

西贝,到了生死存亡边缘

冰川思想库
2026-01-19 10:30:57
77年来首次,历史性的一幕发生,德国总理下定决心,必须要去中国

77年来首次,历史性的一幕发生,德国总理下定决心,必须要去中国

近史博览
2026-01-19 14:36:36
难以置信!给李亚鹏基金捐款1800万是30万网友,无一明星发文响应

难以置信!给李亚鹏基金捐款1800万是30万网友,无一明星发文响应

火山诗话
2026-01-19 16:05:40
A股:人民日报权威公布,股民请做好准备,周二将迎来新的变盘

A股:人民日报权威公布,股民请做好准备,周二将迎来新的变盘

另子维爱读史
2026-01-19 19:22:06
特朗普要打造“特朗普版联合国”并亲任“终身主席”,这啥情况?

特朗普要打造“特朗普版联合国”并亲任“终身主席”,这啥情况?

新民周刊
2026-01-19 13:06:14
厦门最大的国企,干亏损了

厦门最大的国企,干亏损了

拾遗地
2026-01-19 10:38:44
河南一学生教室内用板凳攻击同学后脑,学校称没视频上严重,警方:只是看着动作比较大

河南一学生教室内用板凳攻击同学后脑,学校称没视频上严重,警方:只是看着动作比较大

潇湘晨报
2026-01-19 13:22:28
梅德韦杰夫发文讽刺:让美国再次伟大等于让丹麦再次变小,等于让欧洲再次贫穷;此前梅德韦杰夫讽刺美国“再不抓紧,格陵兰就要入俄了”

梅德韦杰夫发文讽刺:让美国再次伟大等于让丹麦再次变小,等于让欧洲再次贫穷;此前梅德韦杰夫讽刺美国“再不抓紧,格陵兰就要入俄了”

大象新闻
2026-01-19 16:49:04
田朴珺送书给段永平教他赚钱!王石那个捂脸的动作,胜过千言万语

田朴珺送书给段永平教他赚钱!王石那个捂脸的动作,胜过千言万语

火山诗话
2026-01-19 06:54:12
广东大胜送四川17连败:胡明轩26分超朱芳雨 奎因36+11+6+6

广东大胜送四川17连败:胡明轩26分超朱芳雨 奎因36+11+6+6

醉卧浮生
2026-01-19 21:24:57
计划有变!U23亚洲杯酝酿剧本:中韩会师决赛 欧洲球探愿报价李昊

计划有变!U23亚洲杯酝酿剧本:中韩会师决赛 欧洲球探愿报价李昊

侃球熊弟
2026-01-19 00:20:31
亚足联官宣!中国队VS越南队再收一个好消息,赢1-0=进决赛

亚足联官宣!中国队VS越南队再收一个好消息,赢1-0=进决赛

何老师呀
2026-01-19 20:02:22
丹麦爆发万人抗议,“让美国走开”红帽被抢空!遭史上最严重分裂,谁能“救”北约?

丹麦爆发万人抗议,“让美国走开”红帽被抢空!遭史上最严重分裂,谁能“救”北约?

红星新闻
2026-01-19 18:51:19
探访包钢板材厂爆炸事故现场:工人被气浪掀飞,直径数米铁球飞射数公里砸塌了一栋二层楼

探访包钢板材厂爆炸事故现场:工人被气浪掀飞,直径数米铁球飞射数公里砸塌了一栋二层楼

上游新闻
2026-01-19 14:25:04
两条无耻新闻,都引起公愤了!

两条无耻新闻,都引起公愤了!

胖胖说他不胖
2026-01-19 11:00:13
这条流氓新闻,每个字都写满了无耻

这条流氓新闻,每个字都写满了无耻

胖胖说他不胖
2026-01-19 13:50:07
当当创始人李国庆向李亚鹏捐款100万元,晒出银行转账和聊天截图,夸赞李亚鹏“厚道有远见”

当当创始人李国庆向李亚鹏捐款100万元,晒出银行转账和聊天截图,夸赞李亚鹏“厚道有远见”

扬子晚报
2026-01-19 09:20:53
嫣然医院捐款名单曝光!中国首善陈光标提过分要求,王菲被骂惨

嫣然医院捐款名单曝光!中国首善陈光标提过分要求,王菲被骂惨

法老不说教
2026-01-19 19:08:12
2026-01-19 22:31:00
投中网 incentive-icons
投中网
创新经济的智识与洞见
12037文章数 15375关注度
往期回顾 全部

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

头条要闻

陈光标喊话李亚鹏邀请王菲办演唱会:演唱会收入将捐出

头条要闻

陈光标喊话李亚鹏邀请王菲办演唱会:演唱会收入将捐出

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

亲子
数码
手机
艺术
家居

亲子要闻

2026年1月儿童轻棉服品牌推荐TOP10:场景适配优先,日常款全解析

数码要闻

把Pro塞进Air里,惊叹小薄机荣耀Magic8 Pro Air正式发布

手机要闻

荣耀500 Pro推出MOLLY 20周年限定联名版手机 国补价3999元 收藏实用双满足

艺术要闻

有一种美,叫做中国园林!

家居要闻

隽永之章 清雅无尘

无障碍浏览 进入关怀版