代码不用你写了，但有个新难题：AI时代程序员的评估鸿沟|自然语言|agent

代码不用你写了，但有个新难题：AI时代程序员的评估鸿沟

2026-05-08 21:38:00　来源: 硬核玩家2哈

北京举报

分享至

AI生成40行代码，你扫一眼diff，点下批准。整个流程不超过30秒。

但你有没有想过：刚才那30秒里，你做了什么？你没写代码，没设计流程，甚至没点几下界面。你只是——判断了一下。而这个判断，正在成为软件开发里最重要的技能。

行业正在从"执行"转向"评估"。AI负责写，人类负责审。这个转变有个名字，而且不是新词。Don Norman早在1986年就描述过它。

在《设计心理学》里，Norman提出了人与系统交互时存在的两个基本鸿沟：执行鸿沟（Gulf of Execution）——用户想做什么，与如何 figuring out 怎么做之间的差距，按钮在哪？命令是什么？怎么触发？以及评估鸿沟（Gulf of Evaluation）——系统做了什么，与用户是否理解它是否奏效之间的差距，这达到预期了吗？系统状态对吗？结果正确吗？

几十年来，UX和开发者工具的核心努力都花在缩小执行鸿沟上。更直观的 affordance、更清晰的导航、自动补全、语法高亮、文档——所有这些都指向同一个问题：我该怎么操作？AI Agent让这个问题变得简单多了。

当你向Agent描述需求（"给这个表单加输入验证"），它不会让你自己 figuring out 怎么做。它直接动手：浏览代码库、写代码、跑 linter、生成 diff 给你。执行鸿沟大幅收缩，坍缩成一个单一界面：提示词（prompt）。

但它没有消失。提示词本身也有执行鸿沟。看似简单的请求（"加输入验证"）其实充满歧义：客户端还是服务端？用哪个库？错误提示写什么？用户仍然得懂足够多的东西，才能把指令下清楚。执行鸿沟被压缩进了提示词环节。与此同时，评估鸿沟成了瓶颈。

这个区分很关键。复杂度没有消失，只是转移了。Agent出现之前，绝大部分时间花在执行上。评估是执行的自然副产品——你写代码的时候自然知道它在干什么。现在执行是瞬时的，瓶颈完全转移到评估侧。需要审查的产出量增长速度，远超可用于审查的时间。这不是渐进变化，而是工作本质的质变。

现在最难的问题不是"我怎么写这个"，而是：这代码对吗？最后一个问题以前很 trivial，现在承载了整个交互的重量。

人机协同（Human-in-the-loop, HITL）不是新概念。它是机器学习系统里的成熟原则：在自动化决策循环的某个环节保留人类参与，确保准确性、安全性和可问责性。经典的HITL问题是二元的：人在不在循环里？在Agent工具时代，这个问题已经没悬念了：在，显然在。人类审查输出。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.