奥特曼说1人能办独角兽，12个顶级AI试了试：3个活了下来|山姆|生存游戏|bench

奥特曼说1人能办独角兽，12个顶级AI试了试：3个活了下来

2026-04-03 17:06:09　来源: 摸鱼算法

北京举报

分享至

「在 AI 时代，一个人有可能创办一家估值 10 亿美元的独角兽公司。」2024 年初，OpenAI CEO 山姆·奥特曼抛出这个判断，后来被引用得太多，几乎成了行业口头禅。

数据似乎也在配合这个说法。股权管理平台 Carta 的统计显示：2025 年超过三分之一的新公司由单人创始人创办，比例从 2019 年的 23.7% 涨到 36.3%，六年涨了 53%。科技媒体的报道里，「一人公司」的故事越来越常见——一个人、一套 AI 工具，仿佛就能打天下。

但 AI 越来越强，真的意味着「一个人 + AI = 一家公司」吗？

Collinear AI 的研究团队决定用实验回答这个问题。他们不是找几个成功案例讲故事，而是做了个叫 YC-Bench 的评测：给 AI 20 万美元启动资金、一支小团队、一个任务市场，让它模拟经营一家 AI 初创公司整整一年。管理员工、挑项目、应付难缠客户、维持现金流——所有真实创业里的麻烦事，一样不少。

12 个全球顶级的 AI 模型参加了这场「创业生存游戏」。每个模型跑 3 轮，唯一能在回合间「记事」的工具是一个叫 Scratchpad 的草稿本，相当于 AI 的内部笔记本。

结果？一年后还能活着且赚钱的，只有 3 个。

剩下的 9 个，要么原地踏步，要么破产收场。

研究团队发现，模型之间的行为差异主要体现在四个维度：Scratchpad 写入频率（反映主动规划和自我反思的强度）、任务检查比例（是否核实客户可信度）、并发任务数（是否存在「过度并行」），以及运行成本。

成本差异尤其悬殊。同样跑完一年模拟，Claude Opus 4.6 用了 70 分钟，GPT-5.4 Nano 只用了 3 分钟。但时间和钱花了，结果却不一定更好。

最反直觉的发现是：决定输赢的不完全是参数量，而是 Scratchpad 怎么用。

Gemini 3.1 Pro 作为旗舰款，三次测试里破产两次；反倒是轻量版的 Gemini 3 Flash 一次没破产，虽然赚得不多，至少活下来了。而那些持续用 Scratchpad 做规划、定期自我反思的模型——Opus 4.6、GLM-5、GPT-5.4——表现远优于「走一步看一步」的对手。

这像极了人类创业者：随身带笔记本、定期复盘的人，通常比纯靠直觉的人走得更远。AI 也不例外。

破产的原因也被记录得清清楚楚。47% 栽在对抗性客户手里——AI 没核实背景就签了不利条款，或者根本没识别出对方的恶意意图。员工分配不当占 26%，过度并行化 17%，其他因素 10%。

人们总以为 AI 擅长逻辑和数据分析，但识别意图和风险，恰恰是它最薄弱的环节。

更讽刺的是「过度并行化」这种失败模式：Claude Sonnet 4.6 平均同时接 7.2 个任务，远超其他模型，结果资源分散、每条线都做不深。多线程在代码里是好词，在创业里可能是毒药。

YC-Bench 测的，其实是「一个人 + AI」能否真正成为一家公司的核心能力。它用代码模拟的，正是每个想靠 AI 创业的「超级个体」每天都在面对的真实处境。

奥特曼说一个人可以办独角兽。YC-Bench 补充了一个前提：这个人得比 AI 更懂什么时候不该听 AI 的。

这不是否定 AI，而是对「一人公司」最诚实的定义——AI 没有降低对创业者的要求，只是把要求从「你会多少技能」换成了「你有多擅长做判断」。

研究团队最后给想做「一人公司」的人留了三个提示：别全信 AI 的客户评估，定期人工抽查；限制 AI 的并行任务数，强制深度优先；要求 AI 在 Scratchpad 里写下决策理由，方便你事后复盘。

说到底，YC-Bench 的价值不在于展示 AI 能做什么，而在于诚实标注了 AI 现在还不能做什么——以及那些缝隙里，人必须自己补上的能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.