大家好,我是微笑哥。
大家应该感觉到了,最近这一两年,大模型更新的速度实在太快了。
每天打开技术社区,几乎都能看到各种新的排行榜、新的跑分。
但说实话,作为技术人员,我其实反倒不太关注这些分数了。
相反,我认为思考如何让AI真正落地到实际工作里,对技术人来说更实在点。
就以程序开发最常见的场景来说。
AI的作用,不该仅仅是完成一个固定函数或优化某段代码,而是能从零去理解项目,分析代码结构,定位Bug,给出方案,修改代码,最后自我验证等这一整套任务。
面对这一整条任务链,谁能又快、又稳、又便宜地跑完整个流程,这才是关键。
不得不说,在我最近的一些测试中,Step 3.7 Flash整体表现很值得推荐。
接下来,给大家看一些实际案例,这些案例都来自开发的真实工作场景。
案例1:老系统遇到新Bug
下图展示的是我合伙人之前开发的一个软件项目,用于管理我们团队社群会员积分的一个系统。
![]()
之前一直是合伙人在维护,但前阵子他离岗了,现在有用户提出bug,我就得安排新同事去研究,这就挺耽误时间。
老系统遇到新Bug,这种情况在开发日常工作场景中非常常见。
现在,我尝试使用Step 3.7 Flash模型来解决这个问题。
Bug具体描述如下:
当管理员登录系统,创建新用户,用户列表的头像默认为会员名程的缩写,但当管理员修改某个用户的名称后,用户列表中的头像却还是保持原样。
![]()
这个Bug本身不算很复杂。
但要成功解决Bug,需要依次完成几件事:
先快速梳理代码框架结构,了解项目各个模块之间的关系 找到Bug描述问题对应的代码文件,搞清楚代码逻辑 分析并定位问题原因 修改代码 测试修改效果,如果仍存在问题,继续修改,直到修好为止
这就是开发人员面对Bug的常规处理流程。
那现在,我们把这个问题交给AI,它完成的效果如何呢?
我使用的是工具是VsCode、ClaudeCode插件、配置了Step 3.7 Flash模型。
我上传了对应界面截图,并给出提示词如下:
如图所示,当管理员登录系统后,用户列表头像默认为会员名程的缩写,但当管理员修改某个用户的名字后,头像却还是保持原样,请分析这个问题出现的原因,并找出对应代码所在文件,给出解决方案,我确认后你再修改。
PS:为了操作更可控,我并没有让AI直接去自动修改,而是先让AI分析代码,找到问题原因后先给出具体方案。
如下图所示,AI只用了11秒,就完成了问题的定位、分析、并给出了解决方案。
![]()
![]()
可以看出,这个分析过程非常清晰,具体修改方案也非常具体,让人一目了然。
人工确认方案无误,开始修改:
提示词:
没问题,按照这个方案完成修改
如下图所示,AI用时19秒,完成了前后端代码修改和自我测试验证。
![]()
最终,经我实际测试,Bug已经修复完成。
![]()
总结一下,针对这个Bug,Step 3.7 Flash的端到端总耗时是30秒左右,完成了问题定位、给出方案、修复Bug、测试验证的全过程。
对于这种两次会话,均是一次性完成,稳定性在线。
我查看后台的实际花费,解决该问题,花费了0.1362元。
当然,为了对比效果,同样的问题,我也用同级别的deepseek-v4-flash做了横向对比。
按Deepseek官方介绍,作为DeepSeek最新一代Flash模型,deepseek-v4-flash 在常规任务上与其旗舰模型 deepseek-v4-pro 旗鼓相当,但在高难度任务上存在差距。
以下是执行过程。
![]()
![]()
下图是DeepSeek api的成本花费。
![]()
结果上来看,deepseek-v4-flash确实也没让人失望,与Step 3.7 Flash一样,都只用了一次会话就精准定位、给出方案并解决了问题。
但在多维度对比上存在一些差异,具体实测如下:
Step 3.7 Flash
deepseek-v4-flash
端到端任务耗时
30秒左右
45秒左右
Token成本
0.1362元
0.17元
多轮调用稳定性
多模态链路
未涉及
未涉及
First-pass可用性
在案例1中,整体来说差异不算明显,但效率上Step 3.7 Flash表现得相对更经济一些。
案例2:草稿图到Demo展示
这个案例,其实也是开发者经常会面对的真实场景。
我给模型一张比较简单的产品草图,希望它自己完成代码输出,还原产品草图效果的Demo。
这类任务其实涉及多模态,先识别图片,获取完整图片信息,然后进入后面的开发流程。
我们举例说明,假设草图效果如下:
![]()
和案例1同样的操作环境,我上传草图图片,配合如下提示词:
这是一张网页界面手绘稿。请用 React + Tailwind CSS 复刻这个页面。 要求: 先描述页面结构、布局和主要视觉元素 再给出可运行的 React 组件代码 使用语义化命名,不要依赖截图中的真实品牌资产 对无法确认的图片或图标,用占位元素表示 保持移动端和桌面端都有合理布局
从执行结果来看,Step 3.7 Flash完成的是比较准确且高效的。
AI先完成了图片的识别,精准捕获了草稿图中的信息(包括页面布局和文字信息),然后根据这些信息完成了代码输出。
![]()
下图是实际生成代码的展示效果,可以看出还原度非常高。
![]()
移动端也完成了适配。
![]()
从草图理解到demo完成,端到端时间共花费40秒左右,相对于人工处理,效率不知道高了多少倍。
Token成本花费0.3046元。
同样案例2,我也用deepseek-v4-flash做了测试。
但测试刚开始,我就知道结果可能会波动较大。
原因在于deepseek-v4-flash目前对多模态支持能力有限。
如下图,如果直接上传图片附件,deepseek-v4-flash无法直接识别,需要用户告知图片的本地路径。
![]()
虽说不能直接识别图片,但deepseek-v4-flash具备其较强推理能力,会不断寻找替代方案。
![]()
通过多轮思考,最终使用Python代码对图片进行了解析,也生成了页面代码。
下图是deepseek-v4-flash生成的demo效果页面。
![]()
可以看得出,虽然页面能够正常运行,但显然没有按要求对设计草图进行还原。
本次任务具体成本如下,虽然花费较少,但完成度很低。
![]()
我们这里算一下成本。
Step 3.7 Flash的官方定价为:
按照输入Token每百万1.35元,缓存命中每百万0.27元,输出每百万8.1元。
deepseek-v4-flash的官方定价为:
按照输入Token每百万1元,缓存命中每百万0.02元,输出每百万2元。
如果按这个综合定价来看,Deepseek的Tokens单价更为便宜。
但从本案例我们看得出,决定成本这件事,单价并不是唯一因素,前提还是得把事情完成好。
如果单价低但却需要多轮返工,最终成本依旧会上去,这个账大家自己算算就明白了。
这一轮对比结果如下:
Step 3.7 Flash
deepseek-v4-flash
端到端任务耗时
40秒左右
100秒左右
Token成本
0.3046元
0.07元
多轮调用稳定性
多模态链路
支持
局限性大
First-pass可用性
未成功
综合从以上两个案例,可以看得出Step 3.7 Flash在 Agent 任务中完成率还是比较高的。
我看到的不是单点能力的爆发,而是多维能力的高效整合。
多模态能力、需求整理能力、项目阅读能力、代码生成能力、自测检查能力等。
这些单点能力高效的串起来,价值一下就体现出来了。
很多朋友可能会问,那旗舰模型是不是就没有优势了?
当然也不是。
像Claude Opus、GPT5.5这类旗舰模型,在复杂规划、深度推理、关键决策上依然是有优势的。
但如果回到工程实践,大量重复、高频执行、持续调用工具的Agent任务,其实更需要的是效率。
所以,从工程实践的角度来说,作为面向生产级 Agent 的高效率 Flash 模型,我认为Step 3.7 Flash是更合适的选择。
毕竟对于开发者来说,这种稳定、持续、可落地的能力,比一次惊艳的回答可重要多了。
测完之后,一个感受还是挺明显的。
可以确信,Agent效率,正在为下一阶段模型竞争的关键。
Step 3.7 Flash,给我的印象就是,它真很适合干活啊!
在解决实际问题过程中,确实做到了更快、更稳、更省。
就如上面的两个案例,同样的事情,如果是找个人类同事来接手,很可能一下午都不一定能把项目搞清楚,但对于AI工具来说,只是几十秒钟的事情。
这当然就大幅提升了我们的工作效率。
还是那句老话,眼过千遍,不如手过一遍。
看到这里,不妨带着你的项目,去接入Step 3.7 Flash的API试试看,相信你会有惊喜!
API接入入口:
https://platform.stepfun.com/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.