网易首页 > 网易号 > 正文 申请入驻

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

单元测试是软件开发流程中的一个关键环节,主要用于验证软件中的最小可测试单元,函数或模块是否按预期工作。单元测试的目标是确保每个独立的代码片段都能正确执行其功能,对于提高软件质量和开发效率具有重要意义。

然而,大模型自身无力为复杂待测函数(环复杂度大于 10)生成高覆盖率的测试样例集。为了解决该痛点,北京大学李戈教授团队提出一种全新的提升测试用例覆盖率的方法,该方法借助程序分片思想(Method Slicing),将复杂待测函数依据语义拆解为若干简单片段,进而让大模型为各个简单片段分别生成测试样例。生成单个测试样例时,大模型只需分析原待测函数的一个片段,分析难度减小,生成覆盖该片段的单元测试难度随之减小。由此推广,提升整体测试样例集代码覆盖率。

相关论文《HITS: High-coverage LLM-based Unit Test Generation via Method Slicing》近期被 ASE 2024(at the 39th IEEE/ACM International Conference on Automated Software Engineering)顶会接受。

论文地址:https://www.arxiv.org/pdf/2408.11324

接下来看看北大团队论文研究的具体内容:

HITS 使用大模型进行程序分片

程序分片指将一个程序依据语义划分为若干解决问题的阶段。程序是对一个问题解决方案的形式化表述。一个问题解决方案通常包含多个步骤,每个步骤对应着程序中的一片(slice)代码。如下图所示,一个色块对应着一片代码,也对应着一个问题解决的步骤。

HITS 要求大模型分别为每个代码片设计可以高效覆盖它的单元测试代码。以上图为例,当我们得到如图的分片后,HITS 要求大模型为 Slice 1(绿色),Slice 2(蓝色),Slice 3(红色)分别生成测试样例。为 Slice 1 生成的测试样例要尽可能覆盖 Slice 1,不用考虑 Slice 2 和 Slice 3,其余代码片同理。

HITS 起效的原因有二。其一,大模型要考虑覆盖的代码量降低。以上图为例,为 Slice 3 生成测试样例,则只需考虑 Slice 3 中的条件分支。要覆盖 Slice 3 中的某些条件分支,只需在 Slice 1 和 Slice 2 中找寻一条执行路径即可,无需考虑该执行路径对 Slice 1 和 Slice 2 覆盖率的影响。其二,依据语义(问题解决步骤)分割的代码片有助于大模型掌握代码执行中间状态。为顺序靠后的代码块生成测试样例,需要考虑先前代码对程序状态的改变。由于代码块依据实际问题解决步骤分割,因此可以用自然语言对先前代码块的操作进行描述(如上图中注释部分)。由于当前大语言模型多为自然语言与程序语言混合训练产物,良好的自然语言概括可帮助大模型更精准掌握代码对程序状态的改变。

HITS 使用大模型进行程序分片。问题的解决步骤通常为带有程序员主观色彩的自然语言表述,因而可以直接利用自然语言处理能力超群的大模型。具体而言,HITS 使用上下文学习方法(In-context learning) 调用大模型。团队利用过往在真实场景实践的经验,手工编写若干程序分片样例,经若干次调整后使大模型对程序分片的效果达到了研究团队的预期。

对代码片生成测试样例

给定要覆盖的代码片段,要生成对应测试样例,需经历以下 3 个步骤:1. 对片段的输入进行分析;2. 构造 prompt 指示大模型生成初始测试样例;3. 使用规则后处理和大模型 self-debug 调整测试样例使之可以正确运行。

对片段的输入进行分析,指提取要覆盖的片段所接受的一切外部输入,以备后续 prompt 使用。外部输入,指该片段所应用到的先前片段定义的局部变量,待测方法的形参,片段内调用的方法以及外部变量。外部输入的值直接决定了要覆盖的片段的执行情况,因此将该信息提取出来提示给大模型有助于有针对性地设计测试样例。研究团队在实验中发现大模型拥有良好的提取外部输入的能力,因此在 HITS 中由大模型来完成该任务。

接下来,HITS 构建思维链(Chain-of-thought)形式的 prompt 引导大模型生成测试样例。推理步骤如下。第一步,给定外部输入,分析要满足待覆盖代码片内的各种条件分支的排列组合,外部输入都分别需要满足哪些性质,如:组合 1,字符串 a 需要包含字符’x’,整数变量 i 需要非负;组合 2,字符串 a 需要非空,整数变量 i 需要为质数。第二步,对上一步中的每一种组合,分析相对应的待测代码执行时所处环境的性质,包括但不限于实参的特性,全局变量的设置。第三步,为每一种组合生成一个测试样例。研究团队为每一步手工构建了样例,以便于大模型能够正确理解并执行指令。

最后,HITS 通过后处理和 self-debug 使大模型生成的测试样例得以正确运行。大模型生成的测试样例往往难以直接使用,会出现各式各样的编译错误和来自于错误编写测试样例导致的运行时错误。研究团队根据自身观察及已有论文的总结,设计了若干规则和常见错误的修复案例。首先尝试依据规则修复。如果规则无法修复,则使用大模型 self-debug 的功能进行修复,在 prompt 中提供了常见错误的修复案例以供大模型参考。

HITS 的整体图解

实验验证

研究团队使用 gpt-3.5-turbo 作为 HITS 调用的大模型,分别在大模型学习过和未学习过的 Java 项目中的复杂函数(环复杂度大于 10)上对比 HITS,其他基于大模型的单元测试方法和 evosuite 的代码覆盖率。实验结果显示 HITS 相较于被比较的诸方法有较明显的性能提升。

研究团队通过样例分析展示分片方法如何提升代码覆盖率。如图所示。

该案例中,基线方法生成的测试样例未能完全覆盖 Slice 2 中的红色代码片段。然而,HITS 由于聚焦于 Slice 2,对其所引用的外部变量进行了分析,捕捉到 “如果要覆盖红色代码片段,变量’arguments’ 需要非空 “的性质,根据该性质构建了测试样例,成功实现了对红色区域代码的覆盖。

提升单元测试覆盖率,增强系统的可靠性和稳定性,进而提高软件质量。HITS使用程序分片实验证明,该技术不仅能大幅提升整体测试样例集代码覆盖率,且实施方法简洁直接,未来有望在真实场景实践中,帮助团队更早发现并修正开发中的错误,提升软件交付质量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年夏天很反常,六月不热早晚凉快,预兆着什么呢?

今年夏天很反常,六月不热早晚凉快,预兆着什么呢?

小谈食刻美食
2026-06-26 16:27:10
女人一进澡堂,才看懂了什么叫人间真实

女人一进澡堂,才看懂了什么叫人间真实

小陆搞笑日常
2026-06-25 18:12:30
邮报:阿森纳准备第二次报价吉马良斯,纽卡仍坚持非卖品立场

邮报:阿森纳准备第二次报价吉马良斯,纽卡仍坚持非卖品立场

懂球帝
2026-06-27 02:30:17
2026劳务派遣五大严查来了,你的企业踩了几条红线?

2026劳务派遣五大严查来了,你的企业踩了几条红线?

细说职场
2026-06-26 13:47:53
高压锅米饭,正在掀起新一轮“餐饮大战”

高压锅米饭,正在掀起新一轮“餐饮大战”

湘菜人微报
2026-06-26 16:11:37
19岁网红“钟美美”被波士顿大学录取引争议,网友到底在“酸”什么?

19岁网红“钟美美”被波士顿大学录取引争议,网友到底在“酸”什么?

新民周刊
2026-06-25 16:19:30
今天暴跌的原因找到了!

今天暴跌的原因找到了!

贩财局
2026-06-26 15:52:19
别被本科线骗了,今年真正能上本科的分,比你想象的高

别被本科线骗了,今年真正能上本科的分,比你想象的高

牛锅巴小钒
2026-06-26 11:53:43
澳门特大卖淫窝点被端,官媒公开详情,幕后操盘者身份大有来头

澳门特大卖淫窝点被端,官媒公开详情,幕后操盘者身份大有来头

橘仔看世界
2026-06-26 08:57:17
光通信板块遭重挫!“易中天”三巨头集体大跌

光通信板块遭重挫!“易中天”三巨头集体大跌

21世纪经济报道
2026-06-26 18:09:32
Anthropic合伙人:AI发展已踩不了刹车,它并非程序而是“模拟脑组织”,大模型会形成“品格”

Anthropic合伙人:AI发展已踩不了刹车,它并非程序而是“模拟脑组织”,大模型会形成“品格”

华尔街见闻官方
2026-06-25 10:57:19
中央定调,2026年基本养老金调整在即,企业退休涨幅2.6%难不难?

中央定调,2026年基本养老金调整在即,企业退休涨幅2.6%难不难?

虎哥闲聊
2026-06-26 17:27:29
狮子座,必看!6月27日后,这7件重锤大事落地

狮子座,必看!6月27日后,这7件重锤大事落地

朗威谈星座
2026-06-27 00:32:31
意难平!内马尔与布鲁娜相恋六年,分手五次终成陌路?

意难平!内马尔与布鲁娜相恋六年,分手五次终成陌路?

绿茵八卦君
2026-06-25 12:30:03
阿森纳即将紧急开会,讨论吉马良斯6000万镑级转会

阿森纳即将紧急开会,讨论吉马良斯6000万镑级转会

温柔且自由
2026-06-27 00:07:42
突发!刘强东痛失一员大将!

突发!刘强东痛失一员大将!

营销头版
2026-06-26 00:12:06
香港碎尸案蔡天凤的母亲,卷走海南老板两千万:男不好色女不贪财

香港碎尸案蔡天凤的母亲,卷走海南老板两千万:男不好色女不贪财

汉史趣闻
2026-06-26 11:52:49
天气预报|重庆周末天气如何?27日夜间起西南部有大到暴雨

天气预报|重庆周末天气如何?27日夜间起西南部有大到暴雨

上游新闻
2026-06-26 19:02:33
日本发生地震,东京震感强烈,成田机场部分跑道关闭

日本发生地震,东京震感强烈,成田机场部分跑道关闭

鲁中晨报
2026-06-26 16:43:03
原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

莫地方
2026-06-27 01:00:03
2026-06-27 02:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13370文章数 142682关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

房产
健康
旅游
教育
手机

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

“无糖汤圆”是否隐藏着健康陷阱?

旅游要闻

带家人露营总被装备、停车费压预算,这份省钱攻略看完立马省下一笔!

教育要闻

盘点那些上帝都造不出来的单词

手机要闻

vivo X Fold6 体验:折叠屏的下一步,是把任务流展开

无障碍浏览 进入关怀版