网易首页 > 网易号 > 正文 申请入驻

GPT-5.2连肝7天,300万行代码造出Chrome级浏览器

0
分享至

  

  新智元报道

  编辑:定慧 艾伦

  【新智元导读】一个大模型持续写代码,能写多久?一小时?一天?还是像大部分AI编程工具那样,完成一个任务就结束对话?Cursor的CEO MichaelTruell决定搞一次极限压力测试!

  Michael Truell让Cursor中的GPT-5.2连续运行了整整一周

  不是一小时,不是一天,而是不眠不休,昼夜不停,168小时持续写代码。

  结果?

  300万行代码。数千个文件。

  AI完全从零构建出一个全新浏览器。

  

  而且,还是Chrome那种浏览器。

  HTML解析、CSS布局、文本渲染、还有一个自研的JavaScript虚拟机——全是AI自己写的。

  Michael Truell轻描淡写地发了条推文:它基本能跑!简单的网页能快速且正确地渲染出来。

  

  一个模型究竟能跑多久

  传统的AI编程工具,比如Github Copilot和早期的其他IDE,都是一问一答模式。

  对话长度有限,上下文有限,任务复杂度有限。

  后来出现了所谓的Agentic编程——Claude Code、Cursor Agent、Windsurf等工具让AI可以自主执行多步任务,读取文件、运行命令、修复错误。

  这已经是很大的进步,但大多数情况下,任务仍然以分钟计算,最多几小时。

  AI完成一个功能,人类review,然后继续下一个任务。

  但没有人尝试过让一个模型连续跑一周。

  直到GPT-5.2。

  Cursor团队让GPT-5.2持续运行了整整一周,不是断断续续,而是连续工作

  

  在这一周里,它:

  写下了超过300万行代码

  创建了数千个文件

  执行了数万亿个token

  从零构建了一个完整的浏览器渲染引擎

  一个模型究竟能运行多久?

  答案是:理论上,可以无限

  只要基础设施稳定,只要任务足够明确,AI就能持续工作——不眠不休,不吃不喝,7×24小时全年无休。

  就像澳洲的放羊大叔的「赛博黑工」。

  但实际上,不同模型的「耐力」差异巨大。

  上下文窗口是第一道门槛。

  早期的GPT-3.5只有4K token上下文,意味着对话稍长就会失忆。

  Claude 3推出了200K上下文,GPT-4 Turbo跟进128K,Gemini 1.5 Pro更是号称支持100万token。

  但上下文长度只是理论值——真正考验的是模型在长任务中能否保持一致性、专注度和执行力

  Cursor团队在实验中发现了关键差异。

  

  在Cursor这篇官方博客中,团队在实验中发现了关键差异:

  GPT-5.2能长时间自主工作,遵循指令精准,保持专注不偏离;

  Claude Opus 4.5倾向尽早结束,走捷径,频繁把控制权交还给用户;

  GPT-5.1-Codex虽专为编码训练,但规划能力不如GPT-5.2,所以容易中断。

  用更直白的话说:Opus像个急躁的实习生,干一会就想问「这样行不行?我先交了哈」;

  

  而GPT-5.2像个老练的高级工程师,交代清楚任务就埋头干到底。

  这也是为什么Cursor官方宣称:GPT-5.2是处理长期运行任务的前沿模型。

  不止浏览器。

  Cursor还透露了其他正在运行的实验项目:JavaLSP、Windows 7模拟器和Excel克隆。

  数据都很夸张,AI自己不停地写了55万行代码、120万行代码和160万行代码。(话说,Excel代码比Windows还多点,因吹斯汀)

  

  多智能体系统协作

  一个模型在一周内写300万行代码,注意是不停的写,没有人类干预!

  这显然不是一个模型「单打独斗」,怎么做到的?

  Cursor团队透露了他们的秘密武器:多智能体系统(Multi-Agent System)

  

  最初,他们尝试让所有Agent平等协作,通过共享文件来同步状态。结果发现:

  Agent会持有锁太久,或者干脆忘记释放锁。二十个Agent的速度下降到相当于两三个Agent的有效吞吐量。

  

  这像极了人类团队中常见的问题:会议太多、沟通成本高、责任边界不清。

  最终有效的方案是分层架构

  规划者(Planners):持续探索代码库,创建任务,进行高层决策

  执行者(Workers):专注于完成具体任务,不关心全局,提交后继续下一个

  评审(Agent):判断每轮迭代是否合格,决定是否进入下一阶段

  这几乎是人类软件公司的组织架构:产品经理/架构师负责规划,程序员负责执行,QA负责评审。

  但区别在于——这是成百上千个Agent同时工作

  Cursor团队实现了上百个Agent可以在同一个代码库上协同工作数周,几乎没有代码冲突。

  这意味着AI已经学会了人类团队需要多年才能磨合出的协作默契。

  浏览器的「护城河」

  比你想象的要深得多

  如果听到「不就是个显示网页的软件吗」这种评价,所有做过浏览器内核的工程师大概都会苦笑。

  在计算机科学的鄙视链里,手写浏览器内核的难度,仅次于手写一个操作系统。

  为了让你对这300万行代码有个概念,我们需要看一眼谷歌的Chromium(Chrome的开源母体)。

  作为人类软件工程的巅峰之一,Chromium的代码量早已突破3500万行

  它不仅仅是一个软件,本质上已经是一个「伪装成应用程序的操作系统」。

  GPT-5.2挑战的究竟是什么?

  首先是CSS的「混沌理论」。

  网页排版从来不是简单的堆积木。

  CSS标准里充满了各种历史遗留的怪癖、层叠规则(Cascade)和复杂的继承逻辑。

  一位前火狐浏览器工程师曾打过比方:实现一个完美的CSS引擎,就像是在模拟一个物理法则随心所欲变化的宇宙。你改动一个父元素的属性,可能导致几千个子元素的布局瞬间崩塌。

  其次是「虚拟机里的虚拟机」。

  这次AI不仅写了界面,还写了一个JS虚拟机。

  现代网页跑的JavaScript代码需要内存管理、垃圾回收(GC)和安全沙箱。

  稍微处理不好,网页就会吃光你的内存,或者直接让黑客穿透浏览器接管电脑。

  最要命的是,它选了Rust。

  Rust这门语言以「绝不妥协的安全」著称,它的编译器就像一位极度神经质的考官。

  人类工程师在写业务逻辑时,往往要花一半的时间和编译器「吵架」,处理借用检查(BorrowChecker)和生命周期问题。

  AI不仅要懂业务,还得在几百万行代码的规模下,让这位「考官」挑不出毛病。

  能在七天内把这些硬骨头啃下来,并且让它们协同工作,这已经不是简单的「写得快」了,这意味机器开始具备了顶级的架构掌控力。

  当AI能够「忍受孤独」

  但这则新闻真正的炸点,其实不在于浏览器本身,而在于那个「Uninterrupted」(无中断)

  这是AI进化的分水岭。

  在此之前,我们熟悉的AI编程工具(比如早期的Copilot)的情况是:你写个函数头,它补全五行代码;你发个指令,它生成一个脚本。

  它们的记忆是碎片化的,注意力是短暂的。

  一旦任务稍微复杂一点,比如「重构这个模块」,它们往往会顾头不顾尾,改了这头坏了那头,最后还得人来擦屁股。

  但这次不一样。这是一次「长时任务」的胜利。

  这300万行代码分布在数千个文件里。

  当AI写到第300万行时,它必须依然「记得」第1行代码里定下的架构规矩;

  当渲染引擎和JS虚拟机打架时,它必须能回溯几万行代码去寻找Bug的源头。

  这168个小时里,GPT-5.2肯定写出过Bug。

  但它没有停下来报错等待人类投喂答案,而是自己读取错误日志,自己调试,自己重构,然后继续前行。

  这种「编写-运行-修复」的自主闭环,曾经是我们人类工程师最引以为傲的护城河。

  现在,这条护城河被填平了。

  我们正在目睹AI从「聊天伴侣」向「数字劳工」的质变。

  以前我们指挥AI做「任务」,比如「写个贪吃蛇」;

  现在我们指挥AI做「项目」,比如「造个浏览器」。

  沉默的螺旋

  虽然这个AI版浏览器的成熟度距离Chrome还有很长的路要走,但它证明了路径的可行性。

  当算力可以转化为极其复杂的工程实施能力时,软件开发的边际成本将趋近于零。

  这场实验最令人震撼的,其实不是屏幕上那个渲染出的网页,而是那个在后台沉默运行了整整七天的进度条。

  它不眠不休,不急不躁,以每秒数千字符的速度构建着数字世界的基石。

  也许我们该重新审视「创造」的定义了。

  只有当工具开始独自在深夜里解决问题时,我们才明白,它不再只是工具,而是我们的同行者。

  从澳洲大叔的「赛博黑工」

  到AI长时任务

  用5行代码逼疯硅谷的澳洲放羊大叔,其实只做了一件事情,就是让AI不达目标不能停止。

  

  至于Prompt.md写了什么命令,并不是重点。

  就像今天Cursor CEO搞的这个极限压力测试一样,目标就是造一个Chrome、造一个Windows、开发一个Excel,只要没完成目标,AI就要一直运行下去。 回到最开始那个问题:

  一个AI究竟能自己干多久?

  物理上的答案是无穷。只要你有足够的算力、稳定的基础设施、清晰的任务定义,AI可以无限运行下去。

  但更重要的是,这改变了软件开发的经济学。

  传统软件开发的主要成本是人力和时间

  一个10人团队开发一个复杂项目,可能需要6个月到数年。每个月的人力成本可能是几十万到上百万。

  现在,AI可以在一周内完成原本需要数月的工作。

  成本可能只是一些token费用,Emad Mostaque(Stability AI前CEO)猜测Cursor浏览器项目可能消耗了约30亿个token。

  他还有一个想法:用多少token能够重写一套Windows级别的操作系统?成本如何?

  

  Token是越来越便宜的,就像之前的水和电,最终基于token的算力也会变得极其廉价。

  于是,软件经济学就被彻底颠覆。比如,软件按照授权付费的方式恐怕要消失了。

  在2026年的今天,软件开发正在经历一场基因级别的变异。

  从前,代码是人类一行一行敲出来的产物。

  未来,代码可能只是人类意图的自动展开:你描述你想要什么,AI就能把它变成现实。

  一个模型能跑多久?

  只要你需要,它就能跑下去

  参考资料:

  https://x.com/mntruell/status/2011562190286045552

  https://x.com/leerob/status/2011565729838166269

  https://cursor.com/cn/blog/scaling-agents

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谢什科做曼联替补更有利?当选最佳却不焦急,卡里克吸取一人教训

谢什科做曼联替补更有利?当选最佳却不焦急,卡里克吸取一人教训

罗米的曼联博客
2026-03-01 07:57:48
“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

有范又有料
2026-01-30 10:26:28
被儿子当众吐槽后,张兰彻底蔫了!前几天笑盈盈 如今满眼都是委屈

被儿子当众吐槽后,张兰彻底蔫了!前几天笑盈盈 如今满眼都是委屈

阿废冷眼观察所
2026-03-02 01:14:08
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
中国男篮100-93力克中国台北,听听媒体专家怎么说,苏群一针见血

中国男篮100-93力克中国台北,听听媒体专家怎么说,苏群一针见血

云隐南山
2026-03-02 01:18:59
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
曼联2-1水晶宫核心结论:VAR拯救曼联?主力疲惫成隐患?左路告急

曼联2-1水晶宫核心结论:VAR拯救曼联?主力疲惫成隐患?左路告急

桥看世界
2026-03-02 02:03:34
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

红星新闻
2026-02-27 17:33:09
西甲领头羊掀翻劲敌,2亿巨星踢疯了:轰入3球,皇马落后4分

西甲领头羊掀翻劲敌,2亿巨星踢疯了:轰入3球,皇马落后4分

篮球看比赛
2026-03-01 15:11:06
英超劲旅倒下:耻辱4连败,8.7亿豪阵也没用,掉到第16名

英超劲旅倒下:耻辱4连败,8.7亿豪阵也没用,掉到第16名

足球狗说
2026-03-02 00:05:51
“相亲相到老板是种什么体验…?”哈哈哈人干坏事的时候能想到多少馊主意!

“相亲相到老板是种什么体验…?”哈哈哈人干坏事的时候能想到多少馊主意!

不二表姐
2026-02-28 23:57:47
崩溃!“扶弟魔”女子对丈夫大吼:公婆这套房,必须给我弟做婚房

崩溃!“扶弟魔”女子对丈夫大吼:公婆这套房,必须给我弟做婚房

丫头舫
2026-03-01 12:02:35
陈小纭陈妍希同框现身米兰,前者彻底没法看,后者却越来越权威了

陈小纭陈妍希同框现身米兰,前者彻底没法看,后者却越来越权威了

老头的传奇色彩
2026-03-01 22:41:15
日本天皇66岁生日当天,日媒曝雅子皇后濒临离婚边缘!22年前一通电话震动整个皇室!

日本天皇66岁生日当天,日媒曝雅子皇后濒临离婚边缘!22年前一通电话震动整个皇室!

东京新青年
2026-03-01 18:08:26
抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

鹤羽说个事
2026-03-01 18:26:08
警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

削桐作琴
2025-10-24 15:45:22
古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

IT之家
2026-03-01 22:52:20
清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

红星新闻
2026-02-27 16:40:25
不会哭别尬哭!看央视新剧中孙千泪如雨下,让假哭演员无地自容

不会哭别尬哭!看央视新剧中孙千泪如雨下,让假哭演员无地自容

七堇年a
2026-03-01 20:34:04
2026-03-02 09:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14618文章数 66647关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

本地
手机
房产
家居
公开课

本地新闻

津南好·四时总相宜

手机要闻

真·大屏Air:荣耀Magic V6魔改直屏机曝光,重量来到2位数

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

家居要闻

素色肌理 品意式格调

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版