网易首页 > 网易号 > 正文 申请入驻

奥特曼说1人能办独角兽,12个顶级AI试了试:3个活了下来

0
分享至


「在 AI 时代,一个人有可能创办一家估值 10 亿美元的独角兽公司。」2024 年初,OpenAI CEO 山姆·奥特曼抛出这个判断,后来被引用得太多,几乎成了行业口头禅。

数据似乎也在配合这个说法。股权管理平台 Carta 的统计显示:2025 年超过三分之一的新公司由单人创始人创办,比例从 2019 年的 23.7% 涨到 36.3%,六年涨了 53%。科技媒体的报道里,「一人公司」的故事越来越常见——一个人、一套 AI 工具,仿佛就能打天下。

但 AI 越来越强,真的意味着「一个人 + AI = 一家公司」吗?

Collinear AI 的研究团队决定用实验回答这个问题。他们不是找几个成功案例讲故事,而是做了个叫 YC-Bench 的评测:给 AI 20 万美元启动资金、一支小团队、一个任务市场,让它模拟经营一家 AI 初创公司整整一年。管理员工、挑项目、应付难缠客户、维持现金流——所有真实创业里的麻烦事,一样不少。

12 个全球顶级的 AI 模型参加了这场「创业生存游戏」。每个模型跑 3 轮,唯一能在回合间「记事」的工具是一个叫 Scratchpad 的草稿本,相当于 AI 的内部笔记本。

结果?一年后还能活着且赚钱的,只有 3 个。

剩下的 9 个,要么原地踏步,要么破产收场。

研究团队发现,模型之间的行为差异主要体现在四个维度:Scratchpad 写入频率(反映主动规划和自我反思的强度)、任务检查比例(是否核实客户可信度)、并发任务数(是否存在「过度并行」),以及运行成本。

成本差异尤其悬殊。同样跑完一年模拟,Claude Opus 4.6 用了 70 分钟,GPT-5.4 Nano 只用了 3 分钟。但时间和钱花了,结果却不一定更好。

最反直觉的发现是:决定输赢的不完全是参数量,而是 Scratchpad 怎么用。

Gemini 3.1 Pro 作为旗舰款,三次测试里破产两次;反倒是轻量版的 Gemini 3 Flash 一次没破产,虽然赚得不多,至少活下来了。而那些持续用 Scratchpad 做规划、定期自我反思的模型——Opus 4.6、GLM-5、GPT-5.4——表现远优于「走一步看一步」的对手。

这像极了人类创业者:随身带笔记本、定期复盘的人,通常比纯靠直觉的人走得更远。AI 也不例外。

破产的原因也被记录得清清楚楚。47% 栽在对抗性客户手里——AI 没核实背景就签了不利条款,或者根本没识别出对方的恶意意图。员工分配不当占 26%,过度并行化 17%,其他因素 10%。

人们总以为 AI 擅长逻辑和数据分析,但识别意图和风险,恰恰是它最薄弱的环节。

更讽刺的是「过度并行化」这种失败模式:Claude Sonnet 4.6 平均同时接 7.2 个任务,远超其他模型,结果资源分散、每条线都做不深。多线程在代码里是好词,在创业里可能是毒药。

YC-Bench 测的,其实是「一个人 + AI」能否真正成为一家公司的核心能力。它用代码模拟的,正是每个想靠 AI 创业的「超级个体」每天都在面对的真实处境。

奥特曼说一个人可以办独角兽。YC-Bench 补充了一个前提:这个人得比 AI 更懂什么时候不该听 AI 的。

这不是否定 AI,而是对「一人公司」最诚实的定义——AI 没有降低对创业者的要求,只是把要求从「你会多少技能」换成了「你有多擅长做判断」。

研究团队最后给想做「一人公司」的人留了三个提示:别全信 AI 的客户评估,定期人工抽查;限制 AI 的并行任务数,强制深度优先;要求 AI 在 Scratchpad 里写下决策理由,方便你事后复盘。

说到底,YC-Bench 的价值不在于展示 AI 能做什么,而在于诚实标注了 AI 现在还不能做什么——以及那些缝隙里,人必须自己补上的能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3女1男挤30平深圳合租房,小伙被随意使唤,这样的合租你能接受吗

3女1男挤30平深圳合租房,小伙被随意使唤,这样的合租你能接受吗

捣蛋窝
2026-04-12 07:46:25
2-0!争冠悬念再起!穆帅战术风靡葡超,本菲卡创新纪录,剑指冠军

2-0!争冠悬念再起!穆帅战术风靡葡超,本菲卡创新纪录,剑指冠军

宝哥精彩赛事
2026-04-13 09:41:05
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
最高奖励20万元,各地公开征集违法违规使用医保基金线索,守护群众的“看病钱”“救命钱”

最高奖励20万元,各地公开征集违法违规使用医保基金线索,守护群众的“看病钱”“救命钱”

每日经济新闻
2026-04-13 17:38:28
金价大跌!

金价大跌!

吉林日报
2026-04-13 10:00:08
以色列求助:烧的太厉害,求国际社会快来帮忙!

以色列求助:烧的太厉害,求国际社会快来帮忙!

刘哥谈体育
2026-04-13 17:23:58
紧急叫停!黄埔房票转让彻底封死!有人已踩坑无法兑付

紧急叫停!黄埔房票转让彻底封死!有人已踩坑无法兑付

乐居财经官方
2026-04-13 17:33:06
人山人海!合肥这5个地铁站被挤爆了!

人山人海!合肥这5个地铁站被挤爆了!

合肥轨道交通
2026-04-13 18:50:37
印度:我们每家都有电视,中国行吗?法国:人家中国居民不用偷电

印度:我们每家都有电视,中国行吗?法国:人家中国居民不用偷电

离离言几许
2026-04-10 14:51:25
广东一男子送外卖一个月跑970多单,发工资时,站长:你这个月一分钱没有,得给我们2200元!

广东一男子送外卖一个月跑970多单,发工资时,站长:你这个月一分钱没有,得给我们2200元!

广州生活美食圈
2026-04-13 16:12:19
成都航空回应六旬男子术后登机飞机上身亡

成都航空回应六旬男子术后登机飞机上身亡

界面新闻
2026-04-13 18:35:04
全球首例!100%治愈!中国这项突破,直接改写绝症命运

全球首例!100%治愈!中国这项突破,直接改写绝症命运

Thurman在昆明
2026-04-13 16:07:09
曾志伟73岁大寿席开60桌,子女齐聚罕见同台,邱淑贞穿着素雅现身

曾志伟73岁大寿席开60桌,子女齐聚罕见同台,邱淑贞穿着素雅现身

阿纂看事
2026-04-13 15:49:54
身材是真绝了!令和时代的峰不二子!

身材是真绝了!令和时代的峰不二子!

贵圈真乱
2026-04-13 10:12:43
日本全面叫停种植牙?种牙潜藏的风险与后遗症,一次为你讲明白

日本全面叫停种植牙?种牙潜藏的风险与后遗症,一次为你讲明白

垚垚分享健康
2026-04-11 08:51:57
温瑞博击败吉村夺冠,没想到对手当场下跪,温瑞博的反应居然这样

温瑞博击败吉村夺冠,没想到对手当场下跪,温瑞博的反应居然这样

阿错田间生活
2026-04-13 11:12:46
1949年,蒋介石带走的“道教天师”,死在台北民居,传承断裂50年

1949年,蒋介石带走的“道教天师”,死在台北民居,传承断裂50年

疯狂的小历史
2026-04-13 11:40:07
从满身纪念到彻底清空:维多利亚·贝克汉姆已激光去除全部纹身

从满身纪念到彻底清空:维多利亚·贝克汉姆已激光去除全部纹身

观察鉴娱
2026-04-11 10:49:04
WTI原油期货失守97美元

WTI原油期货失守97美元

界面新闻
2026-04-14 07:12:20
这双Adidas被Alba穿成半永久,84刀还能偷增高1英寸

这双Adidas被Alba穿成半永久,84刀还能偷增高1英寸

追星雷达站
2026-04-13 08:09:09
2026-04-14 07:52:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1295文章数 13关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

特朗普:美军开始"封锁"伊朗 不允许其敲诈勒索全世界

头条要闻

特朗普:美军开始"封锁"伊朗 不允许其敲诈勒索全世界

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

家居
数码
时尚
亲子
公开课

家居要闻

复古风格 自然简约

数码要闻

需求火爆 苹果将首代MacBook Neo产量提升至1000万台

今年春夏一定要拥有的4条裙子,这样穿减龄又好看!

亲子要闻

孕妇买200元水果被丈夫骂后续:已去医院终止妊娠,坦言及时止损

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版