网易首页 > 网易号 > 正文 申请入驻

OpenAI很看好!首个SWE-1模型发布,软件开发或将提速99%

0
分享至

新智元报道

编辑:定慧

【新智元导读】Windsurf发布首个前沿模型SWE-1,AI编程领域风起云涌,目标是将开发效率提升99%。SWE-1不仅能写代码,更能理解并协助整个软件工程流程。核心创新在于「流动感知」系统,即AI与用户共享操作时间线,实现高效协作。

Windsurf首秀终于来了!

在Cursor火爆全网,,Windsurf不甘寂寞,终于出手!

Windsurf发布首个前沿模型SWE-1,目标是将软件开发提速99%!

SWE-1不只是一个「会写代码」的模型,而是一个理解、参与、并协助整个工程过程的协作伙伴。

目前这个系列包含三个模型:

  • SWE-1:具备与Claude 3.5 Sonnet类似的工具调用推理能力,但运行成本更低。在推广期内,所有付费用户可免费使用。

  • SWE-1-lite:一个更小但质量更高的模型,全面取代Cascade Base,对所有用户(包括免费用户)开放。

  • SWE-1-mini:更小、更快,专为Windsurf Tab中的低延迟被动体验而设计,适用于所有用户。

刚刚,SWE-1已经上线Windsurf,且处于免费使用阶段。

AI编程发展「快闪」

近几年,「会写代码」的模型取得了巨大进步,已经能从简单的自动补全发展到一次性构建出完整的小型应用。

但这种能力仍然存在明显的上限:

其一,软件开发不仅仅是写代码。

开发者要做的事情远不止编码,还要操作终端、获取知识、调试产品、理解用户反馈等。因此需要的是更全面的模型,能覆盖整个开发流程。

其二,工程过程是跨阶段的、持续变化的。

目前主流的基础模型仍然是基于「代码能否编译」和「是否通过单元测试」来训练的。但现实中,这只是更大工程任务中的一小部分。

真正需要的是能处理「尚未完成的状态」、理解模糊目标的模型。

否则,即使模型写出了能运行的功能,后续维护与扩展性可能会非常差。

因此,仅仅提高「写代码」的能力,无法真正提升整个工程效率。需要打造的是支持完整软件工程流程的模型——简称SWE模型。

SWE-1的开发过程

SWE-1的开发灵感来自广受欢迎的Windsurf编辑器,构建了全新的数据结构(共享时间线)和训练方法,能够理解未完成的状态、长周期任务以及多种交互界面。

其初衷是在资源有限的情况下,通过这种方法做出一流性能的模型。

SWE-1是这个目标的第一个验证成果。

在整体表现上,SWE-1接近最前沿的基础模型,在多个维度上超过了所有非前沿模型和开源对手。可以通过离线评估与线上实测两种方式进行验证。

离线评估

评估将SWE-1与Anthropic系列(Cascade中使用最频繁的模型之一)以及Deepseek、Qwen等主流开源模型对比,主要有两个基准测试:

会话式SWE任务基准

从一个正在进行中的Cascade会话中截取,任务尚未完成。评估模型如何响应用户的下一步请求,打分标准综合考虑帮助程度、效率、正确性以及目标文件编辑的准确率。这项测试关注模型在「人机协作」环境中的表现。

端到端SWE任务基准

从会话一开始就评估模型是否能完全独立解决问题,并通过一组单元测试。得分基于测试通过率和专家打分。这项测试衡量模型自主完成任务的能力。

评估结果表明,SWE-1在这些任务上接近顶级实验室的前沿模型,远超中等体量和开源的对手。虽然还不是绝对领先,但非常有潜力。

线上实测(生产实验)

Windsurf有大量用户,因此也通过盲测实验评估真实使用中的表现。

Windsurf将用户分组,分别使用不同模型,在不告知模型类型的前提下观察行为和效果。

Windsurf主要看两个指标:

每位用户每天接受的代码行数

即Cascade编写、用户实际接受并保留的代码行数,反映模型的实际帮助程度、响应质量和用户粘性。

Cascade代码贡献率

对于被Cascade修改过的文件,模型所做的代码改动所占比例。这是一个反映模型「主动性」以及「用户信任程度」的指标。

SWE-1专为Cascade场景设计和优化,因此在这些指标上表现几乎是行业领先,效果优于所有非前沿模型。

其他模型分析

你可能在上面的图表中注意到SWE-1-lite,这是SWE-1的中型版本,使用相同训练方式,在非前沿模型中表现最佳,现已取代Cascade Base,向所有用户开放。

Windsurf还开发了SWE-1-mini,体积更小,速度更快,适用于Windsurf Tab这种对延迟要求极高的被动预测场景。

需要说明的是,这只是一个起点。

Windsurf不仅希望赶上最前沿实验室的水平,最终目标是全面超越它们

Windsurf坚信自己已经具备了实现这个目标的引擎,并将持续加大投入。

流动感知系统(Flow-Aware System)

Windsurf提到SWE-1的灵感来源于Windsurf编辑器。

关键在于Windsurf独特的设计理念:流动感知(Flow Awareness)

什么是流动感知?

Windsurf打造的Windsurf编辑器实现了用户与AI的「共识时间线」:AI的每一步用户都能看到并干预,反过来,AI也能理解并跟进用户的行为。

这种「共享时间线」的感知能力,Windsurf称之为Flow Awareness(流动感知),也因此Windsurf一直把这种人机协作的体验称为「AI flows」。

为什么流动感知很重要?

因为短时间内,没有模型能完全独立完成所有开发任务。

流动感知允许模型和人类之间「自然交接」:AI做一部分,用户校正,AI再继续,形成顺畅衔接。

借助共享时间线,Windsurf可以持续追踪当前模型的能力边界,观察哪些任务需要用户介入、哪些能完全自动完成。

这是SWE-1能快速成长为当前水平的关键原因之一。

共享时间线在Windsurf中的演进

构建共享时间线是Windsurf许多功能背后的核心理念:

  • 初代Cascade就支持「你在编辑器改完内容后输入continue,AI就能继续理解你改了什么」——这是对编辑器的感知。

  • 后来Windsurf加入了终端输出感知——AI能理解你执行命令时出现的错误。

  • Wave 4中加入了「预览」功能——AI开始理解你看到的前端组件和错误。

  • Wave 5和 Wave 6中,Tab增加了对终端命令、剪贴板内容、IDE搜索内容等的感知。

这不是一堆随机新功能,而是Windsurf构建「最全面软件工程时间线」的一部分。

即便使用的是通用模型,只要Windsurf记录和利用好了这些上下文信息,AI的表现就会大幅提升。

而现在Windsurf有了自研的SWE系列模型,这个正反馈循环将真正开始加速:模型能更好地理解时间线并参与其中更多部分。

接下来会发生什么?

SWE-1只是开始。它是由一个小而专注的团队打造的,利用Windsurf在产品和基础设施方面的优势,展示了Windsurf完全有能力打造接近最前沿的模型。

未来,Windsurf将持续改进SWE系列模型,在保证低成本的同时不断提升性能,让开发者能用Windsurf构建更大、更强的软件项目。

随着SWE-1的发布和OpenAI对Windsurf的收购,AI编程工具正迎来一个新的时代。

从简单的代码补全到全面的工程协作,AI正在深刻改变软件开发的方式。

对于开发者来说,这是一个充满机遇和挑战的时代,如何利用这些新工具提升开发效率,将成为他们需要思考的重要问题。

参考资料:

https://windsurf.com/blog/windsurf-wave-9-swe-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
团长打不退敌军进攻,17岁小兵站出来:让我来指挥!打不退杀我头

团长打不退敌军进攻,17岁小兵站出来:让我来指挥!打不退杀我头

云端小院
2026-05-10 06:38:31
套路一模一样!汉坦病毒又想栽赃中国,没想到被旅游博主记录下来

套路一模一样!汉坦病毒又想栽赃中国,没想到被旅游博主记录下来

魔都姐姐杂谈
2026-05-10 07:41:47
胎压2.5是谎言?干了十年汽修,我来告诉你真正的标准!

胎压2.5是谎言?干了十年汽修,我来告诉你真正的标准!

娱乐圈的笔娱君
2026-05-10 01:52:36
Switch神作骨折价:65美元游戏限时5美元

Switch神作骨折价:65美元游戏限时5美元

热搜摘要官
2026-05-09 20:08:21
西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

懂球帝
2026-05-10 19:55:19
一个家庭最大的悲哀,是父母七八十岁了,还在做4件“糊涂事”

一个家庭最大的悲哀,是父母七八十岁了,还在做4件“糊涂事”

大熊欢乐坊
2026-05-10 20:20:25
做好准备硬扛30年,和日本当年一模一样,还清房贷经济才有起色

做好准备硬扛30年,和日本当年一模一样,还清房贷经济才有起色

阿离家居
2026-05-09 10:05:46
特斯拉活动延期,车主损失谁买单?

特斯拉活动延期,车主损失谁买单?

IT之家
2026-05-10 09:15:27
离谱!美国F-16C被伊朗击中,挂出7700紧急情况代码,伊朗F-4E得手后冲出跑道?

离谱!美国F-16C被伊朗击中,挂出7700紧急情况代码,伊朗F-4E得手后冲出跑道?

军武速递
2026-05-10 18:10:30
伊朗高层突然害怕了:再逼女性戴头巾,可能又出大事

伊朗高层突然害怕了:再逼女性戴头巾,可能又出大事

桂系007
2026-05-10 00:00:03
三亚皮皮虾事升级!老板身亡,亲属曝店铺彻底关闭,顾客恶行被扒

三亚皮皮虾事升级!老板身亡,亲属曝店铺彻底关闭,顾客恶行被扒

荒野老五
2026-05-10 01:58:30
赵丽颖“水母坐姿”火了,双腿弯成倒v字,网友傻眼:这谁看了不呆…

赵丽颖“水母坐姿”火了,双腿弯成倒v字,网友傻眼:这谁看了不呆…

阿废冷眼观察所
2026-05-09 19:44:22
杜新枝母亲节收到鲜花,笑得合不拢嘴,网友留言:两个儿媳都爱你

杜新枝母亲节收到鲜花,笑得合不拢嘴,网友留言:两个儿媳都爱你

汉史趣闻
2026-05-10 19:44:17
又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

火山詩话
2026-05-08 18:00:57
游客投诉演唱会座椅脏污被桂林文旅“拉黑” 场馆方称做了清洁,当事人要求道歉

游客投诉演唱会座椅脏污被桂林文旅“拉黑” 场馆方称做了清洁,当事人要求道歉

封面新闻
2026-05-09 19:20:03
胡适评价毛主席写的词,“没有一句通的”,那么胡适的水平如何?

胡适评价毛主席写的词,“没有一句通的”,那么胡适的水平如何?

英子谈
2026-05-09 05:08:00
中国3大长寿食物,西兰花排第三;第一名我们天天见,却吃得的少

中国3大长寿食物,西兰花排第三;第一名我们天天见,却吃得的少

王二哥老搞笑
2026-05-09 00:06:41
郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

极目新闻
2026-05-10 13:03:22
马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

社会日日鲜
2026-05-02 09:45:05
印尼联手菲律宾逼走中企,中国一招破局

印尼联手菲律宾逼走中企,中国一招破局

白浅娱乐聊
2026-05-10 13:22:25
2026-05-10 20:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66856关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
本地
数码
健康
时尚

教育要闻

比考上985更稳的路径?这个国家战略新专业,毕业直通央企核心岗

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

微软Win11 Xbox模式实测:英伟达、AMD显卡游戏性能均获提升

干细胞能让人“返老还童”吗

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

无障碍浏览 进入关怀版