网易首页 > 网易号 > 正文 申请入驻

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

单元测试是软件开发流程中的一个关键环节,主要用于验证软件中的最小可测试单元,函数或模块是否按预期工作。单元测试的目标是确保每个独立的代码片段都能正确执行其功能,对于提高软件质量和开发效率具有重要意义。

然而,大模型自身无力为复杂待测函数(环复杂度大于 10)生成高覆盖率的测试样例集。为了解决该痛点,北京大学李戈教授团队提出一种全新的提升测试用例覆盖率的方法,该方法借助程序分片思想(Method Slicing),将复杂待测函数依据语义拆解为若干简单片段,进而让大模型为各个简单片段分别生成测试样例。生成单个测试样例时,大模型只需分析原待测函数的一个片段,分析难度减小,生成覆盖该片段的单元测试难度随之减小。由此推广,提升整体测试样例集代码覆盖率。

相关论文《HITS: High-coverage LLM-based Unit Test Generation via Method Slicing》近期被 ASE 2024(at the 39th IEEE/ACM International Conference on Automated Software Engineering)顶会接受。

论文地址:https://www.arxiv.org/pdf/2408.11324

接下来看看北大团队论文研究的具体内容:

HITS 使用大模型进行程序分片

程序分片指将一个程序依据语义划分为若干解决问题的阶段。程序是对一个问题解决方案的形式化表述。一个问题解决方案通常包含多个步骤,每个步骤对应着程序中的一片(slice)代码。如下图所示,一个色块对应着一片代码,也对应着一个问题解决的步骤。

HITS 要求大模型分别为每个代码片设计可以高效覆盖它的单元测试代码。以上图为例,当我们得到如图的分片后,HITS 要求大模型为 Slice 1(绿色),Slice 2(蓝色),Slice 3(红色)分别生成测试样例。为 Slice 1 生成的测试样例要尽可能覆盖 Slice 1,不用考虑 Slice 2 和 Slice 3,其余代码片同理。

HITS 起效的原因有二。其一,大模型要考虑覆盖的代码量降低。以上图为例,为 Slice 3 生成测试样例,则只需考虑 Slice 3 中的条件分支。要覆盖 Slice 3 中的某些条件分支,只需在 Slice 1 和 Slice 2 中找寻一条执行路径即可,无需考虑该执行路径对 Slice 1 和 Slice 2 覆盖率的影响。其二,依据语义(问题解决步骤)分割的代码片有助于大模型掌握代码执行中间状态。为顺序靠后的代码块生成测试样例,需要考虑先前代码对程序状态的改变。由于代码块依据实际问题解决步骤分割,因此可以用自然语言对先前代码块的操作进行描述(如上图中注释部分)。由于当前大语言模型多为自然语言与程序语言混合训练产物,良好的自然语言概括可帮助大模型更精准掌握代码对程序状态的改变。

HITS 使用大模型进行程序分片。问题的解决步骤通常为带有程序员主观色彩的自然语言表述,因而可以直接利用自然语言处理能力超群的大模型。具体而言,HITS 使用上下文学习方法(In-context learning) 调用大模型。团队利用过往在真实场景实践的经验,手工编写若干程序分片样例,经若干次调整后使大模型对程序分片的效果达到了研究团队的预期。

对代码片生成测试样例

给定要覆盖的代码片段,要生成对应测试样例,需经历以下 3 个步骤:1. 对片段的输入进行分析;2. 构造 prompt 指示大模型生成初始测试样例;3. 使用规则后处理和大模型 self-debug 调整测试样例使之可以正确运行。

对片段的输入进行分析,指提取要覆盖的片段所接受的一切外部输入,以备后续 prompt 使用。外部输入,指该片段所应用到的先前片段定义的局部变量,待测方法的形参,片段内调用的方法以及外部变量。外部输入的值直接决定了要覆盖的片段的执行情况,因此将该信息提取出来提示给大模型有助于有针对性地设计测试样例。研究团队在实验中发现大模型拥有良好的提取外部输入的能力,因此在 HITS 中由大模型来完成该任务。

接下来,HITS 构建思维链(Chain-of-thought)形式的 prompt 引导大模型生成测试样例。推理步骤如下。第一步,给定外部输入,分析要满足待覆盖代码片内的各种条件分支的排列组合,外部输入都分别需要满足哪些性质,如:组合 1,字符串 a 需要包含字符’x’,整数变量 i 需要非负;组合 2,字符串 a 需要非空,整数变量 i 需要为质数。第二步,对上一步中的每一种组合,分析相对应的待测代码执行时所处环境的性质,包括但不限于实参的特性,全局变量的设置。第三步,为每一种组合生成一个测试样例。研究团队为每一步手工构建了样例,以便于大模型能够正确理解并执行指令。

最后,HITS 通过后处理和 self-debug 使大模型生成的测试样例得以正确运行。大模型生成的测试样例往往难以直接使用,会出现各式各样的编译错误和来自于错误编写测试样例导致的运行时错误。研究团队根据自身观察及已有论文的总结,设计了若干规则和常见错误的修复案例。首先尝试依据规则修复。如果规则无法修复,则使用大模型 self-debug 的功能进行修复,在 prompt 中提供了常见错误的修复案例以供大模型参考。

HITS 的整体图解

实验验证

研究团队使用 gpt-3.5-turbo 作为 HITS 调用的大模型,分别在大模型学习过和未学习过的 Java 项目中的复杂函数(环复杂度大于 10)上对比 HITS,其他基于大模型的单元测试方法和 evosuite 的代码覆盖率。实验结果显示 HITS 相较于被比较的诸方法有较明显的性能提升。

研究团队通过样例分析展示分片方法如何提升代码覆盖率。如图所示。

该案例中,基线方法生成的测试样例未能完全覆盖 Slice 2 中的红色代码片段。然而,HITS 由于聚焦于 Slice 2,对其所引用的外部变量进行了分析,捕捉到 “如果要覆盖红色代码片段,变量’arguments’ 需要非空 “的性质,根据该性质构建了测试样例,成功实现了对红色区域代码的覆盖。

提升单元测试覆盖率,增强系统的可靠性和稳定性,进而提高软件质量。HITS使用程序分片实验证明,该技术不仅能大幅提升整体测试样例集代码覆盖率,且实施方法简洁直接,未来有望在真实场景实践中,帮助团队更早发现并修正开发中的错误,提升软件交付质量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江阴正在严查!周庄、璜土、青阳、祝塘……

江阴正在严查!周庄、璜土、青阳、祝塘……

最江阴
2026-02-05 00:04:14
48岁男子查出肺结节,1年后确诊肺癌晚期,医生叹息:无知惹的祸

48岁男子查出肺结节,1年后确诊肺癌晚期,医生叹息:无知惹的祸

医学原创故事会
2026-02-05 21:54:15
2026人社部官宣,城乡居民基础养老金全国最低标准再上调

2026人社部官宣,城乡居民基础养老金全国最低标准再上调

慧眼看世界哈哈
2026-02-04 22:19:15
中国一纸禁令,直接把特朗普的“无本万利”变成了“亿万负债”!

中国一纸禁令,直接把特朗普的“无本万利”变成了“亿万负债”!

达文西看世界
2026-02-05 15:53:00
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
减肥后反而掉粉?空姐蒋胖胖的流量密码,为何瘦了就不灵了?

减肥后反而掉粉?空姐蒋胖胖的流量密码,为何瘦了就不灵了?

锋哥与八卦哥
2026-02-05 17:22:41
杨幂工作室因座位问题公开喊话:很突然,很震惊,很无奈!微博之夜道歉

杨幂工作室因座位问题公开喊话:很突然,很震惊,很无奈!微博之夜道歉

现代快报
2026-02-05 22:21:35
官方:罗德里戈在欧冠被禁赛两场,无缘淘汰赛附加赛

官方:罗德里戈在欧冠被禁赛两场,无缘淘汰赛附加赛

懂球帝
2026-02-06 01:53:05
《亮剑》20年后,两位演员再也见不到了,漂亮的“秀芹”低调嫁人

《亮剑》20年后,两位演员再也见不到了,漂亮的“秀芹”低调嫁人

林轻吟
2026-02-05 09:27:39
社评:维护全球战略稳定,中国发挥关键作用

社评:维护全球战略稳定,中国发挥关键作用

环球网资讯
2026-02-05 02:13:07
日本足球迎来历史性转会窗:22人留洋创纪录,德甲成最大舞台

日本足球迎来历史性转会窗:22人留洋创纪录,德甲成最大舞台

星耀国际足坛
2026-02-05 23:51:33
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
关于高市早苗,日刊爆猛料

关于高市早苗,日刊爆猛料

环球时报国际
2026-02-06 00:11:09
从风控漏洞看大连银行的经营困局

从风控漏洞看大连银行的经营困局

户外钓鱼哥阿旱
2026-02-05 15:22:56
一天8次!43岁男子确诊肾衰竭,妻子痛哭:劝了多次都不听

一天8次!43岁男子确诊肾衰竭,妻子痛哭:劝了多次都不听

蜉蝣说
2026-02-01 20:34:25
冲着特朗普去的?中俄高层在北京一天干了六件大事,件件都是热点

冲着特朗普去的?中俄高层在北京一天干了六件大事,件件都是热点

梁濆爱玩车
2026-02-06 02:53:56
萝莉岛文件再公开!背后更可怕的,是每年50万“消失的孩子”

萝莉岛文件再公开!背后更可怕的,是每年50万“消失的孩子”

秋枫凋零
2026-02-04 21:04:24
爱泼斯坦那份藏着无数权贵秘密的名单里,唯一出现的亚洲名字

爱泼斯坦那份藏着无数权贵秘密的名单里,唯一出现的亚洲名字

果妈聊军事
2026-02-04 06:19:19
年轻时的童瑶脚好干

年轻时的童瑶脚好干

草莓解说体育
2026-01-29 03:21:56
特朗普与哥伦比亚总统会晤,两人还在白宫办公桌前一起吃鸡腿喝汽水?

特朗普与哥伦比亚总统会晤,两人还在白宫办公桌前一起吃鸡腿喝汽水?

风向观察
2026-02-04 21:07:43
2026-02-06 06:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12259文章数 142564关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

教育
家居
亲子
数码
时尚

教育要闻

弥勒融媒研学小记者走进国防教育,触摸历史

家居要闻

简雅序章 自然且闲适

亲子要闻

长大之后肠子都得悔青了

数码要闻

航嘉 高能 S140 Pro氮化镓安全快充深度评测

她随手打赏就是6两黄金:人美,心善,钱多!

无障碍浏览 进入关怀版