网易首页 > 网易号 > 正文 申请入驻

字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

0
分享至


机器之心发布

机器之心编辑部

在人工智能浪潮席卷全球的今天,大语言模型 (LLM) 正在重塑软件开发流程。近日,字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节,展示了 AI 在提升企业研发效率方面的重要进展。

论文地址:https://arxiv.org/abs/2501.15134

代码审查是保障软件质量的关键环节,但在大规模企业环境下面临严峻挑战。字节跳动内部数据显示,67% 的工程师表示迫切需要更高效的工具支持。虽然 LLM 在代码理解方面展现出巨大潜力,但要实现工业级应用仍面临三大挑战:评论准确性不足、价值有限的评论过多,以及缺乏系统化的改进机制。为此,字节跳动研究团队提出代码审查系统 BitsAI-CR,在服务超 1.2 万周活开发者的规模化验证中,实现 75% 的审查准确率与 26.7% 的评论过时率(Outdated Rate)。

两阶段评论生成架构确保高质量审查

传统 LLM 代码审查方案受限于准确率较低和幻觉频发,研究团队通过系统性实验发现,仅依赖单一模型微调,即使采用优化训练样本和强化学习等方法也收效有限。这促使研究团队引入专门的验证模块,形成了 "识别 + 验证" 的两阶段生成架构:

1. RuleChecker:针对 Code Diff,通过 Tree-sitter 实现精确的代码块识别和函数边界检测来组成上下文,基于字节内部 219 条多维审查规则,采用 LoRA 微调的 Doubao-Pro-32K-0828 模型来生成相关的审查评论。这些审查规则涵盖代码缺陷、安全漏洞、可维护性和性能问题等 4 大维度,同时 RuleChecker 也集成了动态规则黑名单,可实时剔除低效规则,确保审查标准与企业实践动态对齐。

2. ReviewFilter:针对模型幻觉与低价值评论,通过另一个微调的 Doubao-Pro-32K-0828 对 RuleChecker 的输出进行二次验证。ReviewFilter 针对每一条审查评论,输出一个二元判断(Yes 或 No)来决定是否保留评论,以及相应的判断依据。研究团队对 ReviewFilter 的推理模式进行了深入实验,比较了 "直接结论"、"推理在前" 和 "结论在前" 三种模式。最终,"结论在前" 模式以其优异的性能脱颖而出:准确率达 77.09%,同时保持了较低的推理时间。

在完成审查后,系统通过评论聚合机制处理输出结果。该机制使用基于 Doubao-embedding-large 的向量化方法计算评论相似度,从每组相似评论中随机保留一条,有效避免了开发者被过多重复信息打扰。实验表明,该架构使系统的评论准确率在 Go 语言的离线评测集上达到 65.59%。

其中 BitsAI-CR w/o Taxonomy 表示训练数据来自于没有进行审查分类的随机采样内部审查数据,BitsAI-CR 表示训练数据是根据审查规则分类法特别构建的,两者保持了相同的训练数据规模。结果表明,基于两阶段评论生成都提高了准确度,但分类指导的版本在所有审查类别中实现了更高的准确度。

Outdated Rate 评价指标

研究团队通过早期实践发现,开发者面对大量审查评论时往往采取完全忽视的策略,而初期的不准确评论更会严重损害用户信任。这促使团队将准确率作为首要优化目标。通过两阶段评论生成审查架构,BitsAI-CR 将评论准确率提升至 75%,显著提升了系统可用性。然而,仅依靠准确率指标存在两个根本性限制:无法反映开发者是否真正采纳了审查建议,且人工评估准确率需要大量人力投入。

数据飞轮驱动系统优化

为完善审查规则集并更好地利用用户反馈,研究团队设计了数据飞轮。最初,研究团队将代码样式指南与实际审查经验结合起来,设计了代码审查规则分类,包含 5 种编程语言和 219 条评审规则。随后从内部仓库中抽取了 12 万条 MR 中的审查评论,包括静态分析结果和人工审查反馈。在经历了数据清洗(过滤非实质性的内容,并依照代码审查规进行分类)和质量控制环节后,最终构成了 BitsAI-CR 的训练数据。

实践表明,代码审查规则需要持续优化以适应实际开发。某些规则虽然在技术上完全正确,但可能缺乏实际价值。BitsAI-CR 通过三个关键反馈渠道收集优化信号:

1. 用户的直接反馈(如点赞点踩)能够及时捕捉开发者的真实需求;

2. 每日抽样的人工准确率标注(抽样率不超过 10%)提供了高质量的评估基准和数据;

3. 每周的 Outdated Rate 监控则实现了大规模自动化评估。

数据飞轮机制会检测线上用户数据,识别准确率高但 Outdated Rate 低的审查规则,通过优化这些规则,确保系统始终保持高实用性。

这一机制的效果显著。在过去 18 周的部署过程中,BitsAI-CR 的评论准确率从初期的 25% 提升至 75%,Go 语言场景下的 Outdated Rate 达到了 26.7%,接近人工审查水平。目前,系统已在字节内部服务超过 1.2 万名周活开发者,用户调研显示 74.5% 的开发者认可其实际价值。

字节跳动此次披露 BitsAI-CR 的技术细节,不仅展示了其在 AI 辅助开发领域的探索成果,也为业界提供了宝贵的实践经验。该系统的成功部署证明了 LLM 在提升企业软件开发效率方面的巨大潜力,为未来 AI 编程助手的规模化应用提供了重要参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
美日达成一致,特朗普让日本在台海“打响第一枪”!中方反击到了

美日达成一致,特朗普让日本在台海“打响第一枪”!中方反击到了

寻迹追心
2026-03-26 09:15:11
黄金跳水跌破4430美元,白银失守70美元

黄金跳水跌破4430美元,白银失守70美元

21世纪经济报道
2026-03-26 14:15:54
现货黄金突破4540美元/盎司

现货黄金突破4540美元/盎司

证券时报
2026-03-26 09:22:05
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
特斯拉车主被售后暖到,15 万元电池免费换,还送带 FSD 的 Model 3 代步!

特斯拉车主被售后暖到,15 万元电池免费换,还送带 FSD 的 Model 3 代步!

新浪财经
2026-03-25 01:53:52
王国本:江西省人大常委会原副主任

王国本:江西省人大常委会原副主任

王姐懒人家常菜
2026-03-26 13:38:47
国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

体坛鉴春秋
2026-03-26 12:23:21
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
20亿美元还不够!中企宣布,对巴拿马索赔涨价,巴政府内部已乱套

20亿美元还不够!中企宣布,对巴拿马索赔涨价,巴政府内部已乱套

李健政观察
2026-03-26 11:11:27
以色列批准战争期间征召40万名预备役人员!美国陆军将新兵征召年龄上限从35岁提升至42岁,还给曾犯大麻持有罪的人开绿灯

以色列批准战争期间征召40万名预备役人员!美国陆军将新兵征召年龄上限从35岁提升至42岁,还给曾犯大麻持有罪的人开绿灯

大象新闻
2026-03-25 22:45:22
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

澎湃新闻
2026-03-25 13:14:37
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

铭记历史呀
2026-03-26 11:13:56
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

大风新闻
2026-03-26 08:55:08
等不来特朗普,普京抢先一步来华!美国终于认栽:拦不住中国了

等不来特朗普,普京抢先一步来华!美国终于认栽:拦不住中国了

小聪明说科普
2026-03-25 17:19:57
2026-03-26 14:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
艺术
数码
教育
公开课

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

艺术要闻

哪一座桥不是风景?

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

教育要闻

高考地理中的花海经济

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版