![]()
「在 AI 时代,一个人有可能创办一家估值 10 亿美元的独角兽公司。」2024 年初,OpenAI CEO 山姆·奥特曼抛出这个判断,后来被引用得太多,几乎成了行业口头禅。
数据似乎也在配合这个说法。股权管理平台 Carta 的统计显示:2025 年超过三分之一的新公司由单人创始人创办,比例从 2019 年的 23.7% 涨到 36.3%,六年涨了 53%。科技媒体的报道里,「一人公司」的故事越来越常见——一个人、一套 AI 工具,仿佛就能打天下。
但 AI 越来越强,真的意味着「一个人 + AI = 一家公司」吗?
Collinear AI 的研究团队决定用实验回答这个问题。他们不是找几个成功案例讲故事,而是做了个叫 YC-Bench 的评测:给 AI 20 万美元启动资金、一支小团队、一个任务市场,让它模拟经营一家 AI 初创公司整整一年。管理员工、挑项目、应付难缠客户、维持现金流——所有真实创业里的麻烦事,一样不少。
12 个全球顶级的 AI 模型参加了这场「创业生存游戏」。每个模型跑 3 轮,唯一能在回合间「记事」的工具是一个叫 Scratchpad 的草稿本,相当于 AI 的内部笔记本。
结果?一年后还能活着且赚钱的,只有 3 个。
剩下的 9 个,要么原地踏步,要么破产收场。
研究团队发现,模型之间的行为差异主要体现在四个维度:Scratchpad 写入频率(反映主动规划和自我反思的强度)、任务检查比例(是否核实客户可信度)、并发任务数(是否存在「过度并行」),以及运行成本。
成本差异尤其悬殊。同样跑完一年模拟,Claude Opus 4.6 用了 70 分钟,GPT-5.4 Nano 只用了 3 分钟。但时间和钱花了,结果却不一定更好。
最反直觉的发现是:决定输赢的不完全是参数量,而是 Scratchpad 怎么用。
Gemini 3.1 Pro 作为旗舰款,三次测试里破产两次;反倒是轻量版的 Gemini 3 Flash 一次没破产,虽然赚得不多,至少活下来了。而那些持续用 Scratchpad 做规划、定期自我反思的模型——Opus 4.6、GLM-5、GPT-5.4——表现远优于「走一步看一步」的对手。
这像极了人类创业者:随身带笔记本、定期复盘的人,通常比纯靠直觉的人走得更远。AI 也不例外。
破产的原因也被记录得清清楚楚。47% 栽在对抗性客户手里——AI 没核实背景就签了不利条款,或者根本没识别出对方的恶意意图。员工分配不当占 26%,过度并行化 17%,其他因素 10%。
人们总以为 AI 擅长逻辑和数据分析,但识别意图和风险,恰恰是它最薄弱的环节。
更讽刺的是「过度并行化」这种失败模式:Claude Sonnet 4.6 平均同时接 7.2 个任务,远超其他模型,结果资源分散、每条线都做不深。多线程在代码里是好词,在创业里可能是毒药。
YC-Bench 测的,其实是「一个人 + AI」能否真正成为一家公司的核心能力。它用代码模拟的,正是每个想靠 AI 创业的「超级个体」每天都在面对的真实处境。
奥特曼说一个人可以办独角兽。YC-Bench 补充了一个前提:这个人得比 AI 更懂什么时候不该听 AI 的。
这不是否定 AI,而是对「一人公司」最诚实的定义——AI 没有降低对创业者的要求,只是把要求从「你会多少技能」换成了「你有多擅长做判断」。
研究团队最后给想做「一人公司」的人留了三个提示:别全信 AI 的客户评估,定期人工抽查;限制 AI 的并行任务数,强制深度优先;要求 AI 在 Scratchpad 里写下决策理由,方便你事后复盘。
说到底,YC-Bench 的价值不在于展示 AI 能做什么,而在于诚实标注了 AI 现在还不能做什么——以及那些缝隙里,人必须自己补上的能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.