网易首页 > 网易号 > 正文 申请入驻

生成式AI赋能需求工程:一场正在发生的变革

0
分享至



作者团队:早稻田大学博士生 / 蒙特利尔工程学院访问研究员程浩伟(通讯作者),特尔科姆大学助理教授 Jati H. Husen,早稻田大学博士生芦一均,东北大学副教授 / JAIST 客座教授 Teeradaj Racharak,早稻田大学教授 / QAML 株式会社 CEO 吉岡信和,九州大学名誉教授鵜林尚靖,早稻田大学教授鷲崎弘宜。

在软件开发领域,需求工程(Requirements Engineering, RE)一直是项目成功的关键环节。然而,传统 RE 方法面临着效率低下、需求变更频繁等挑战。根据 Standish Group 的报告,仅有 31% 的软件项目能在预算和时间内完成,而需求相关问题导致的项目失败率高达 37%。

随着 ChatGPT 等大语言模型的爆发式发展,生成式 AI(GenAI)为需求工程带来了前所未有的机遇。来自早稻田大学、东北大学等机构的研究团队,对 2019 年至 2025 年间发表的 238 篇相关论文进行了系统性文献综述,为我们揭示了这一新兴领域的全貌。



  • 论文标题:Generative AI for Requirements Engineering: A Systematic Literature Review
  • 论文地址:https://onlinelibrary.wiley.com/doi/10.1002/spe.70029

这是目前为止对生成式 AI 在需求工程领域最系统、最全面的文献综述,揭示了从技术到落地的全貌与未来路线,是理解「GenAI 如何重塑软件开发起点」的必读论文。

研究现状:

快速增长但分布不均

爆发式的研究热度

数据显示,GenAI 在需求工程领域的研究呈现指数级增长:

  • 2022 年仅有 4 篇相关论文;
  • 2023 年激增至 23 篇;
  • 2024 年达到 113 篇;
  • 2025 年前 5 个月已有 97 篇。



Distribution of papers across years (N=238).

这种增长轨迹充分反映了 ChatGPT 发布后,学术界对 GenAI 应用于 RE 领域的浓厚兴趣。

研究聚焦点的失衡

尽管研究热度高涨,但不同 RE 阶段受到的关注度严重失衡:

  • 需求分析占据 30.0% 的研究比重,位居首位;
  • 需求获取需求规约各占 22.1%;
  • 需求验证占 19.0%;
  • 需求管理仅占 6.8%,严重缺乏关注。

这种分布反映出当前研究主要集中在 GenAI 擅长的文本分析和生成任务,而对需求管理等涉及复杂社会技术因素的阶段探索不足。



Distribution of RE phases (N=238).

GenAI 在 RE 领域已进入「快速扩张但尚未成熟」的阶段,研究数量暴涨但深度不足,仍停留在「概念验证」层面。

技术图景:GPT 主导下的同质化困境

模型选择的单一化

研究发现,67.3% 的研究采用 GPT 系列模型,其中:

  • GPT-4 系列占 36.7%,主要应用于复杂需求分析;
  • GPT-3.5 系列占 25.3%,在常规分类任务中表现良好;
  • 开源替代方案(如 LLaMA、CodeLlama)仅占 11.6%。

这种过度依赖单一模型家族的现象,限制了多样化技术路径的探索。值得注意的是,CodeLlama 在代码 - 需求追溯任务中表现出色,幻觉率比通用模型低 23%,但采用率仍然很低。



Distribution of GenAI models (N=238).

提示工程的实践模式

在提示工程方面,研究呈现出以下特点:

  • 指令式提示占 62.2%,反映 RE 任务的高度结构化特性;
  • 少样本学习占 43.6%,成为最受欢迎的学习范式;
  • 零样本学习占 37.7%,适用于相对简单的 RE 任务;
  • 思维链(CoT)方法仅占 14.0%,采用率相对较低。

令人欣慰的是,超过 80% 的研究公开了提示词细节,这为研究的可复现性奠定了基础。



Distribution of learning paradigm (N=238).



Distribution of prompt types (N=238).

质量关注的偏颇

在软件质量特性方面,当前研究呈现明显的短期导向:

  • 功能适用性获得最多关注(124 次提及);
  • 可靠性次之(80 次);
  • 安全性仅被提及 39 次;
  • 可解释性准确性几乎被忽视。

这种关注度分布表明,研究者更注重即时的功能表现,而忽视了长期的系统级质量属性。这种质量关注的偏颇表明,当前研究仍以「可用性优先」驱动,而非「可靠性与可解释性优先」,这是 AI 走向工业级软件系统的最大隐患。

三大核心挑战:紧密交织的困境

研究识别出 10 个主要挑战,其中三个核心挑战形成了紧密关联的「三角关系」:

  • 可复现性(66.8%)可复现性是最严重的问题。LLM 的随机性、参数敏感性以及黑盒 API 的不透明性,使得研究结果难以验证和重现。这在需求生成和验证等关键场景中尤为严重。
  • 幻觉问题(63.4%)AI 生成的需求可能与输入冲突或包含虚构内容。在 RE 领域,需求的精确性和可追溯性至关重要,幻觉问题可能导致严重的系统设计偏差。
  • 可解释性(57.1%)LLM 的决策过程不透明,在医疗、法律等高风险领域尤为致命。研究发现,这三个挑战的共现率达 35%,表明它们必须被整体性地解决,而非孤立应对。



Correlations among the LLM issues reported in literature on RE (%).

可复现性影响幻觉问题的验证,幻觉问题又加剧可解释性缺失;三者相互强化,构成当前 GenAI 研究最难攻克的「信任瓶颈」。

评估实践:基础设施的薄弱环节

工具和数据集的可用性困境

尽管越来越多研究开发了工具和数据集,但实际可用性令人担忧:

  • 仅 23.9% 的研究公开发布了工具;
  • 45.8% 的研究使用了不公开的数据集;
  • 缺乏统一的基准测试框架。

评估指标的表面化

评估方法主要依赖传统 NLP 指标:

  • 精确率 / 召回率 / F1 分数最常用(119 项研究);
  • 准确率次之(40 项研究);
  • 人工评估较少(22 项研究);
  • 错误分析极为罕见(仅 11 项研究)。

这种表面化的评估无法捕捉 RE 任务的复杂性和领域特异性。



Distribution of tool and dataset availability (N=238)



Distribution of evaluation metrics and methodology (N=238)

当前 RE 领域缺乏类似 MMLU、HumanEval 那样的标准基准测试,导致学术成果难以横向比较,这也是产业界迟迟未能采用的重要原因。

工业落地:从实验室到生产的鸿沟

成熟度现状令人担忧

研究显示,GenAI 在 RE 领域的工业化进程严重滞后:

  • 90.3% 的研究停留在概念或原型阶段;
  • 仅 8.4% 达到原型或实验部署水平;
  • 只有 1.3% 实现生产级集成。



Industrial adoption stages of GenAI use in RE (N=238).

系统性障碍

研究识别出 11 类主要限制因素:

  • 泛化能力和领域适应(39.9%);
  • 数据质量和可用性(39.1%);
  • 评估方法(28.8%);
  • 人工介入需求(27.0%)。

值得注意的是,47.2% 的研究面临三个或以上的限制类别,表明这是系统性而非孤立的问题。

从产业角度看,GenAI 在 RE 的价值主要体现在「加速需求文档生成」和「减少沟通成本」,但由于缺乏合规性与风险控制标准,企业普遍持观望态度。

未来路线图:四阶段推进策略

基于系统性分析,研究团队提出了多阶段研究路线图:

  • 第一阶段:强化评估基础设施

建立标准化基准测试、RE 特定指标和可复现性协议,这是解决当前 90% 研究停留在早期阶段问题的关键。

  • 第二阶段:治理感知开发

将伦理审计、公平性约束和利益相关者验证纳入 GenAI 系统设计,应对当前治理相关问题关注不足的困境。

  • 第三阶段:可扩展的情境感知部署

采用模块化架构、参数高效微调(LoRA、PEFT)和 RAG 等技术,降低幻觉率,提高系统可控性。

  • 第四阶段:工业级标准化

建立社区驱动的工具包、开源基准和法律框架(如著作权治理),为生产级应用奠定基础。

对研究者和实践者的启示

给研究者的建议

  • 技术多元化:探索 GPT 之外的模型,开发 RE 特定的混合架构。
  • 评估体系重构:建立结合定量指标和人工洞察的混合评估方法。
  • 全生命周期关注:将研究扩展到需求管理和验证等被忽视的阶段。
  • 可复现性优先:建立提示词共享和实验协议的社区标准。

给实践者的建议

  • 谨慎采用:当前 GenAI 工具最适合作为辅助加速器,而非自主决策者。
  • 聚焦低风险任务:在自动化草稿生成、需求分类等结构化任务中应用。
  • 人机协同:在关键任务中保持人工监督,特别是在安全关键领域。
  • 关注新趋势:RAG 和混合方法显示出提高可靠性的潜力,值得持续关注。

结语

GenAI 在需求工程领域展现出变革性潜力,但要实现从学术探索到工业应用的跨越,仍需克服可复现性、幻觉控制和可解释性这三大核心挑战。研究表明,这些挑战高度关联,必须采用整体性解决方案。

更重要的是,成功应用 GenAI 需要技术健壮性、方法论成熟度和治理整合的协同发展。从 90% 的研究停留在早期阶段到仅 1.3% 达到生产级别的现状来看,这条路还很长。但随着评估基础设施的完善、治理框架的建立和标准化工作的推进,GenAI 终将成为需求工程领域不可或缺的智能助手。

这不仅是一场技术革命,更是软件工程实践的范式转变。当需求从「人工编写」转向「人机共创」,软件工程正进入一个全新的智能时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋介石的“龙脉”情节,风水先生预言成真,蒋母墓有这么神?

蒋介石的“龙脉”情节,风水先生预言成真,蒋母墓有这么神?

比利
2026-03-07 11:13:20
4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

寻途
2026-01-30 18:33:05
伊朗发动集群式袭击,美军空战中心、卫星通信中心、雷达等遭打击!美国承认“伊朗武器破坏性超预期”,向乌克兰求助抵御伊朗无人机

伊朗发动集群式袭击,美军空战中心、卫星通信中心、雷达等遭打击!美国承认“伊朗武器破坏性超预期”,向乌克兰求助抵御伊朗无人机

每日经济新闻
2026-03-07 19:58:08
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
2026年,又有一地不让补缴养老保险,满60岁不足15年的统一处理

2026年,又有一地不让补缴养老保险,满60岁不足15年的统一处理

社保精算师
2026-01-05 13:34:23
以军超80架战机空袭伊朗军事及基础设施

以军超80架战机空袭伊朗军事及基础设施

界面新闻
2026-03-07 14:15:54
“繁文缛节”竟然不读fán wén rǔ jié,正确读音是什么?

“繁文缛节”竟然不读fán wén rǔ jié,正确读音是什么?

AI读书
2026-03-05 14:07:21
随着山东泰山3-0辽宁铁人!诞生三大不可思议,两大不争事实!

随着山东泰山3-0辽宁铁人!诞生三大不可思议,两大不争事实!

丁蓳解说
2026-03-07 17:51:47
民生主题记者会丨各年龄段如何做好健康筛查 雷海潮给出建议

民生主题记者会丨各年龄段如何做好健康筛查 雷海潮给出建议

极目新闻
2026-03-07 12:05:50
亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

八斗小先生
2026-03-02 15:56:32
冯小刚徐帆离婚仅7月,与养女徐朵关系引争议,荒唐事曝光

冯小刚徐帆离婚仅7月,与养女徐朵关系引争议,荒唐事曝光

秋月寒江
2026-03-06 15:32:20
万万没想到!64岁的张凯丽,会因两会上的一个提案,实现口碑反转

万万没想到!64岁的张凯丽,会因两会上的一个提案,实现口碑反转

阿雹娱乐
2026-03-07 04:01:50
玛哈为讨好新宠竟穿粉色!奥拉侬地位直追诗妮娜,无子成最大阻碍

玛哈为讨好新宠竟穿粉色!奥拉侬地位直追诗妮娜,无子成最大阻碍

正经的烧杯1
2026-03-07 18:24:58
吉林女子将丈夫绑椅子上注射6只兽药,临死前哀求:再也不敢了

吉林女子将丈夫绑椅子上注射6只兽药,临死前哀求:再也不敢了

纪实录
2024-07-20 22:29:19
郭晶晶没想到,2026两会才刚开始,33岁陈若琳就再次让人刮目相看

郭晶晶没想到,2026两会才刚开始,33岁陈若琳就再次让人刮目相看

寻墨阁
2026-03-06 16:42:06
新卫星图公布!约旦的美军“萨德”系统雷达,确实被炸烂了

新卫星图公布!约旦的美军“萨德”系统雷达,确实被炸烂了

战风
2026-03-06 20:17:25
中国出使中东,日本有人想派武装,折射出美国弱点!

中国出使中东,日本有人想派武装,折射出美国弱点!

新民周刊
2026-03-06 09:11:14
一位日本专家称若中日战争爆发,日本要考虑的不是怎么坚持,而是能否撑得住

一位日本专家称若中日战争爆发,日本要考虑的不是怎么坚持,而是能否撑得住

荷兰豆爱健康
2026-03-05 10:35:34
扣押巨额资产,带走两名乌克兰战俘:泽连斯基要把欧尔班拉下马

扣押巨额资产,带走两名乌克兰战俘:泽连斯基要把欧尔班拉下马

鹰眼Defence
2026-03-07 18:14:39
钱再多也没用!身价千万的撒贝宁,面对家庭牵挂烦心事还是太多了

钱再多也没用!身价千万的撒贝宁,面对家庭牵挂烦心事还是太多了

不甜的李子
2026-03-02 16:59:30
2026-03-07 22:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12431文章数 142578关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

特朗普:伊朗今天将遭到极其猛烈的打击

头条要闻

特朗普:伊朗今天将遭到极其猛烈的打击

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

游戏
本地
时尚
数码
公开课

良性竞争比互黑重要!Arc玩家主动声援失落星船马拉松

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

这些才是适合普通人的穿搭!搭配腰带、多穿牛仔裤,简单舒适

数码要闻

解锁“她力量”专属存储方案,为每一份热爱精彩定格

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版