网易首页 > 网易号 > 正文 申请入驻

无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct

0
分享至


新智元报道

编辑:LRT

【新智元导读】通过StarCoder2-15B生成数千个指令-响应对,直接对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数据,也无需从GPT4等商业大模型中获取数据,StarCoder2-15B-Instruct成功挤进HumanEval榜单。

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。

这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。


StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。

该模型通过StarCoder2-15B生成数千个指令-响应对,直接对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数据,也无需从GPT4等商业大模型中获取数据,避免了潜在的版权问题。

在HumanEval测试中,StarCoder2-15B-Instruct以72.6%的Pass@1成绩脱颖而出,较CodeLlama-70B-Instruct的72.0%有所提升。

更为令人瞩目的是,在LiveCodeBench数据集的评估中,这一自对齐模型的表现甚至超越了基于GPT-4生成数据训练的同类模型。这一成果证明了,通过自身分布内的数据,大模型同样能够有效地学习如何与人类偏好对齐,而无需依赖外部教师大模型的偏移分布。

该项目的成功实施得到了美国东北大学Arjun Guha课题组、加州大学伯克利分校、ServiceNow和Hugging Face等机构的鼎力支持。

技术揭秘

StarCoder2-Instruct的数据生成流程主要包括三个核心步骤:


1. 种子代码片段的采集:团队从The Stack v1中筛选出高质量、多样化的种子函数,这些函数来自海量的获得许可的源代码语料库。通过严格的过滤和筛选,确保了种子代码的质量和多样性;

2. 多样化指令的生成:基于种子函数中的不同编程概念,StarCoder2-15B-Instruct能够创建出多样化且真实的代码指令。这些指令涵盖了从数据反序列化到列表连接、递归等丰富的编程场景;

3. 高质量响应的生成:对于每个指令,模型采用编译运行引导的自我验证方式,确保生成的响应是准确且高质量的。

每个步骤的具体操作如下:

精选种子代码片段的过程

为了提升代码模型在遵循指令方面的能力,模型需要广泛接触和学习不同的编程原理与实际操作。StarCoder2-15B-Instruct受到OSS-Instruct的启发,从开源代码片段中汲取灵感,尤其是The Stack V1中那些格式规范、结构清晰的Python种子函数。

在构建其基础数据集时,StarCoder2-15B-Instruct对The Stack V1进行了深度挖掘,选取了所有配备文档说明的Python函数,并借助autoimport功能自动分析并推断了这些函数所需的依赖项。

为了确保数据集的纯净性和高质量,StarCoder2-15B-Instruct对所有选取的函数进行了精细的过滤和筛选。

首先,通过Pyright类型检查器进行严格的类型检查,排除了所有可能产生静态错误的函数,从而保证了数据的准确性和可靠性。

接着,通过精确的字符串匹配技术,识别和剔除了与评估数据集存在潜在关联的代码和提示,以避免数据污染。在文档质量方面,StarCoder2-15B-Instruct更是采用了独特的筛选机制。

它利用自身的评估能力,通过向模型展示7个样本提示,让模型自行判断每个函数的文档质量是否达标,从而决定是否将其纳入最终的数据集。

这种基于模型自我判断的方法,不仅提高了数据筛选的效率和准确性,也确保了数据集的高质量和一致性。

最后,为了避免数据冗余和重复,StarCoder2-15B-Instruct采用了MinHash和局部敏感哈希算法,对数据集中的函数进行了去重处理。通过设定0.5的Jaccard相似度阈值,有效去除了相似度较高的重复函数,确保了数据集的独特性和多样性。

经过这一系列的精细筛选和过滤,StarCoder2-15B-Instruct最终从500万个带有文档的Python函数中,精选出了25万个高质量的函数作为其种子数据集。这一方法深受MultiPL-T数据收集流程的启发。

多样化指令的生成

当StarCoder2-15B-Instruct完成了种子函数的收集后,它运用了Self-OSS-Instruct技术来创造多样化的编程指令。这一技术的核心在于通过上下文学习,让StarCoder2-15B基座模型能够自主地为给定的种子代码片段生成相应的指令。

为实现这一目标,StarCoder2-15B-Instruct精心设计了16个范例,每个范例都遵循(代码片段,概念,指令)的结构。指令的生成过程被细分为两个阶段:

代码概念识别:在这一阶段,StarCoder2-15B会针对每一个种子函数进行深入分析,并生成一个包含该函数中关键代码概念的列表。这些概念广泛涵盖了编程领域的基本原理和技术,如模式匹配、数据类型转换等,这些对于开发者而言具有极高的实用价值。

指令创建:基于识别出的代码概念,StarCoder2-15B会进一步生成与之对应的编码任务指令。这一过程旨在确保生成的指令能够准确地反映代码片段的核心功能和要求。

通过上述流程,StarCoder2-15B-Instruct最终成功生成了高达238k个指令,极大地丰富了其训练数据集,并为其在编程任务中的表现提供了强有力的支持。

响应的自我验证机制

在获取Self-OSS-Instruct生成的指令后,StarCoder2-15B-Instruct的关键任务是为每个指令匹配高质量的响应。

传统上,人们倾向于依赖如GPT-4等更强大的教师模型来获取这些响应,但这种方式不仅可能面临版权许可的难题,而且外部模型并非总是触手可及或准确无误。更重要的是,依赖外部模型可能引入教师与学生之间的分布差异,这可能会影响到最终结果的准确性。

为了克服这些挑战,StarCoder2-15B-Instruct引入了一种自我验证机制。这一机制的核心思想是,让StarCoder2-15B模型在生成自然语言响应后,自行创建对应的测试用例。这一过程类似于开发人员编写代码后的自测流程。

具体而言,对于每一个指令,StarCoder2-15B会生成10个包含自然语言响应和对应测试用例的样本。随后,StarCoder2-15B-Instruct会在一个沙盒环境中执行这些测试用例,以验证响应的有效性。任何在执行测试中失败的样本都会被过滤掉。

经过这一严格的筛选过程,StarCoder2-15B-Instruct会从每个指令的通过测试的响应中随机选取一个,加入最终的SFT数据集。整个过程中,StarCoder2-15B-Instruct为238k个指令生成了总计240万个响应样本(每个指令10个样本)。在采用0.7的采样策略后,有50万个样本成功通过了执行测试。

为了确保数据集的多样性和质量,StarCoder2-15B-Instruct还进行了去重处理。最终,剩下5万个指令,每个指令都配有一个随机选取的、经过测试验证的高质量响应。这些响应构成了StarCoder2-15B-Instruct最终的SFT数据集,为模型的后续训练和应用提供了坚实的基础。

StarCoder2-15B-Instruct的卓越表现与全面评估

在备受瞩目的EvalPlus基准测试中,StarCoder2-15B-Instruct凭借其规模化优势,成功脱颖而出,成为表现最出色的自主可控大型模型。

它不仅超越了规模更大的Grok-1 Command-R+和DBRX,还与Snowflake Arctic 480B和Mixtral-8x22B-Instruct等业界翘楚性能相当。

值得一提的是,StarCoder2-15B-Instruct是首个在HumanEval基准上达到70+得分的自主代码大模型,其训练过程完全透明,数据和方法的使用均符合法律法规。

在自主可控代码大模型领域,StarCoder2-15B-Instruct显著超越了之前的佼佼者OctoCoder,证明了其在该领域的领先地位。

即便与拥有限制性许可的大型强力模型如Gemini Pro和Mistral Large相比,StarCoder2-15B-Instruct依然展现出卓越的性能,并与CodeLlama-70B-Instruct平分秋色。更令人瞩目的是,StarCoder2-15B-Instruct完全依赖于自生成数据进行训练,其性能却能与基于GPT-3.5/4数据微调的OpenCodeInterpreter-SC2-15B相媲美。


除了EvalPlus基准测试,StarCoder2-15B-Instruct在LiveCodeBench和DS-1000等评估平台上也展现出了强大的实力。

LiveCodeBench专注于评估2023年9月1日之后出现的编码挑战,而StarCoder2-15B-Instruct在该基准测试中取得了最优成绩,并且始终领先于使用GPT-4数据进行微调的OpenCodeInterpreter-SC2-15B

尽管DS-1000专注于数据科学任务,StarCoder2-15B-Instruct在训练数据中涉及的数据科学问题相对较少,但其在该基准测试中的表现依然强劲,显示出广泛的适应性和竞争力。


StarCoder2-15B-Instruct-v0.1的突破与启示

StarCoder2-15B-Instruct-v0.1的发布,标志着研究者们在代码模型自我调优领域迈出了重要一步。这款模型的成功实践,打破了以往必须依赖如GPT-4等强大外部教师模型的限制,展示了通过自我调优同样能够构建出性能卓越的代码模型。

StarCoder2-15B-Instruct-v0.1的核心在于其自我对齐策略在代码学习领域的成功应用。这一策略不仅提升了模型的性能,更重要的是,它赋予了模型更高的透明度和可解释性。这一点与Snowflake-Arctic、Grok-1、Mixtral-8x22B、DBRX和CommandR+等其他大型模型形成了鲜明对比,这些模型虽然强大,但往往因缺乏透明度而限制了其应用范围和可信赖度。

更令人欣喜的是,StarCoder2-15B-Instruct-v0.1已经将其数据集和整个训练流程——包括数据收集和训练过程——完全开源。这一举措不仅彰显了研究者的开放精神,也为未来该领域的研究和发展奠定了坚实的基础。

有理由相信,StarCoder2-15B-Instruct-v0.1的成功实践将激发更多研究者投入到代码模型自我调优领域的研究中,推动该领域的技术进步和应用拓展。同时,也期待这一领域的更多创新成果能够不断涌现,为人类社会的智能化发展注入新的动力。

作者简介

UIUC的张令明老师是一位在软件工程、程序语言和机器学习交叉领域具有深厚造诣的学者。他领导的课题组长期致力于基于AI大模型的自动软件合成、修复和验证研究,以及机器学习系统的可靠性提升。

近期,团队发布了多个创新性的代码大模型和测试基准数据集,并率先提出了一系列基于大模型的软件测试和修复技术。同时,在多个真实软件系统中成功挖掘出上千个新缺陷和漏洞,为提升软件质量做出了显著贡献。

参考资料:

StarCoder2-15B-Instruct-v0.1:指令调优模型

(https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1)

starcoder2-self-align:自我对齐流程

(https://github.com/bigcode-project/starcoder2-self-align)

StarCoder2-Self-OSS-Instruct:自生成的指令调优数据集

(https://huggingface.co/datasets/bigcode/self-oss-instruct-sc2-exec-filter-50k)

张令明老师课题组: http://lingming.cs.illinois.edu/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女单爆冷门:乒坛名将惨败一轮游,王艺迪绝杀,平野美宇剃光头

女单爆冷门:乒坛名将惨败一轮游,王艺迪绝杀,平野美宇剃光头

知轩体育
2024-05-31 18:48:44
废掉一个家庭最隐蔽的方式:父亲很忙,母亲很闲,孩子很乖

废掉一个家庭最隐蔽的方式:父亲很忙,母亲很闲,孩子很乖

布衣粗食68
2024-04-22 15:41:56
央八首播!开播一天就冲上全国收视率第一,丁勇岱加盟,阵容雄厚

央八首播!开播一天就冲上全国收视率第一,丁勇岱加盟,阵容雄厚

娱乐为信
2024-05-31 20:24:41
又曝出汪峰分手森林北,,刚在森林里找到北,一会报官宣

又曝出汪峰分手森林北,,刚在森林里找到北,一会报官宣

海梦游者
2024-05-31 18:22:52
72岁武则天召32岁薛怀义侍寝,薛面露难色,武则天:是嫌朕老吗?

72岁武则天召32岁薛怀义侍寝,薛面露难色,武则天:是嫌朕老吗?

百态人间
2024-05-30 11:50:06
这谁顶得住嘛!刘涛这身材,这才是尤物啊!

这谁顶得住嘛!刘涛这身材,这才是尤物啊!

冷却爱情
2024-05-11 09:09:15
鹈鹕必须在6月2日11点59分前通知湖人 是要17号签还是推迟到明年

鹈鹕必须在6月2日11点59分前通知湖人 是要17号签还是推迟到明年

直播吧
2024-05-31 22:05:20
上海市中心,毗邻瑞金医院!这里的居民将不出一分钱,原址住上带电梯的新房

上海市中心,毗邻瑞金医院!这里的居民将不出一分钱,原址住上带电梯的新房

上观新闻
2024-05-31 11:51:25
伊利牛奶当事人李师傅背刺卡维会!究竟是赔偿100万还是200万

伊利牛奶当事人李师傅背刺卡维会!究竟是赔偿100万还是200万

吃货的分享
2024-05-31 20:55:58
俄罗斯,踩中国线了

俄罗斯,踩中国线了

新动察
2024-03-14 09:44:14
奔驰S级库存2000多台,降价30万“无人问”,为何不再受人追捧?

奔驰S级库存2000多台,降价30万“无人问”,为何不再受人追捧?

户外小阿隋
2024-05-31 14:49:50
有种差距叫黄渤、徐峥和王宝强,泰囧10年后,三人如今成天壤之别

有种差距叫黄渤、徐峥和王宝强,泰囧10年后,三人如今成天壤之别

娱乐的小灶
2024-05-31 14:34:37
同样出演《庆余年》中的五竹,26岁和31岁的佟梦实,差异显而易见

同样出演《庆余年》中的五竹,26岁和31岁的佟梦实,差异显而易见

阿芒娱乐说
2024-06-01 01:07:34
美防长见到我防长前,五角大楼公开交了底,中方不是去香会吵架的

美防长见到我防长前,五角大楼公开交了底,中方不是去香会吵架的

叮当当科技
2024-05-31 11:30:37
我46岁光棍,她25岁水族姑娘,洞房夜那晚我愣住了

我46岁光棍,她25岁水族姑娘,洞房夜那晚我愣住了

小月文史
2024-05-04 16:19:29
哲思 | 人生最贵的5样东西,万望珍惜

哲思 | 人生最贵的5样东西,万望珍惜

人民论坛
2024-01-29 23:31:14
股民的悲哀!李先生炒股亏了毕生积蓄300万、且还患上心脏病

股民的悲哀!李先生炒股亏了毕生积蓄300万、且还患上心脏病

股海风云大作手
2024-05-31 15:14:28
这样的人越来越多了!

这样的人越来越多了!

吴女士
2024-05-29 10:58:00
独行侠进入总决赛,凯尔特人笑翻了!这回总冠军总算手拿把攥了

独行侠进入总决赛,凯尔特人笑翻了!这回总冠军总算手拿把攥了

小鬼头体育
2024-06-01 01:11:38
油价“一夜骤降”!6月1日调价后92/95号汽油价格,猪价如何

油价“一夜骤降”!6月1日调价后92/95号汽油价格,猪价如何

猪友巴巴
2024-05-31 13:57:29
2024-06-01 02:48:49
新智元
新智元
AI产业主平台领航智能+时代
11100文章数 65530关注度
往期回顾 全部

科技要闻

业务不卖了,字节跳动重新做游戏

头条要闻

江西上栗县一汽修店发生爆炸事故 已致3死25伤

头条要闻

江西上栗县一汽修店发生爆炸事故 已致3死25伤

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

证监会:对恒大地产罚款41.75亿

汽车要闻

外观内饰升级/六项权益 全新哈弗H6开启预售

态度原创

亲子
家居
时尚
本地
公开课

亲子要闻

孩子把奥特曼卡片放到爸爸驾照里,交警查到的时候问:你相信光吗

家居要闻

风雅自来 中式的和谐平衡

今年夏天,穿得越放松越时髦!

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版