网易首页 > 网易号 > 正文 申请入驻

训练AI写代码还在用GitHub ?Project CodeNet或是更优解:1400万代码,50种编程语言

0
分享至

新智元报道

来源:thenextweb

编辑:LRS

【新智元导读】深度学习的转折点往往都发生在不经意间。IBM的Project CodeNet发布五个多月仍未引起过多关注,但它可能是助力AI编程的最有用的数据集,但它的风头似乎都被Copilot抢走了,至今未见过多宣传,沦为小众数据集。

如今写代码已经成为各行各业的必备技能,学会写代码可以让计算机代替我们做一些重复的工作,极大提升工作效率。

但一个真正能帮你写代码的AI程序离我们还有多远?

5月5日,IBM向极少数媒体和学术界发布了Project CodeNet,在当时并未引起过多关注。

CodeNet完美继承了ImageNet的思想。ImageNet是一个大规模的图像及其描述数据集,为CV 的模型发展和标准化提供了巨大的帮助,也是深度学习计算机视觉进步的核心, 并且图像可免费用于非商业用途。

CodeNet的目标是为人工智能写代码提供一个标准的数据库,它包含超过1400 万个代码样本,涵盖50种编程语言,能够解决4000个编码问题。该数据集还包含许多附加数据,例如软件运行所需的内存量和运行代码的日志输出。

IBM表示,Project CodeNet是同类中最大、最具差异的数据集,它解决了当今编码中的三个主要用例:代码搜索(自动将一种代码翻译成另一种代码,包括像COBOL这样的遗留语言);代码相似性(识别不同代码之间的重叠和相似性);还有代码约束(根据开发人员的特定需求和参数定制约束)。

然而有安全研究人员认为CodeNet和类似项目最重要的影响不是优化代码,而是增加了自然语言编码(Natural Language Coding, NLC)的可能性。

近年来,OpenAI和Google等公司一直在快速改进自然语言处理(NLP)技术。这些是机器学习驱动的程序,旨在更好地理解和模仿自然人类语言并在不同语言之间进行翻译。训练机器学习系统需要访问包含以所需人类语言编写的文本的大型数据集。

但写代码是一项很难学习的技能,更不用说掌握了,经验丰富的编码员应该精通多种编程语言。相比之下,NLC利用NLP技术和诸如CodeNet之类的庞大数据库,能够利用英语来进行编程,最终使用任何其他自然语言都可以进行编码。

它可以使诸如设计网站之类的任务变得简单,只需输入一句话,然后就会出现一个符合要求的网站,这要求生成的代码都是可以运行的。

例如“制作带有飞机图像的红色背景,中间是公司的logo,下方有一个与我联系的按钮。“

很明显,如此科幻的想法除了IBM以外还有很多人在做。

GPT-3是OpenAI的一个NLP模型,在多项文本生成任务都遥遥领先,目前也已经被用于生成代码,输入就是预期的网站或者应用程序的自然语言描述,输出可运行的代码。

但是,在IBM的消息发布后不久,微软宣布已获得GPT-3的独家授权。

除了GPT-3外,微软还于2018年收购了互联网上最大的开源代码集合网站 GitHub。并且还开发了一个人工智能代码助手GitHub Copilot,可以在VS code等IDE辅助开发,能够简化开发过程,但它是付费的。

虽然Copilot离NLC的目标还有很大距离,但它已经是向前迈了一大步了。

不过后续的测试来看,Copilot除了抄袭开源代码和注释外,并不能创造代码,还会把其他用户的漏洞代码扩散开。

Copilot是朝着NLC迈出的一大步,但它还远远没有实现AI写代码的功能。

虽然NLC还没有完全可行,但目前的研究方向正在迅速走向一个不需要长时间训练也能编程的未来,并且影响是巨大的。

首先,更多的研究和开发人员会产生更多的成果。有人认为潜在创新者的数量越多,创新率越高。

如果每个人都能写代码,那编程带来的创新潜力就会更大。

此外,计算物理学和统计社会学等学科越来越依赖于定制的计算机程序来处理数据,简化编写这类程序所需的技能要求,将提高计算机科学以外专业领域的研究人员部署新方法、做出新发现的能力。

然而,NLC所需的人工智能的开发和部署资源相当昂贵,小公司根本无法支撑这种应用的开发和运行,所以最终很可能被微软、谷歌或IBM等主流巨头公司垄断。该服务可以收费提供,或者像大多数社交媒体服务一样免费提供。

并且我们有理由相信,由于机器学习需要大数据的支持,这些技术将由平台公司主导。从理论上讲,像Copilot这样的程序在引入新数据时会变得更好,也就是说使用的用户越多,效果越好,这种特性也使得新的竞争对手更难入场,即使他们有更强大或更良心的产品。

除非有强力的反垄断措施,否则大型资本主义企业集团似乎将成为下一次编码革命的把关人。

参考资料:

https://thenextweb.com/news/programming-natural-language-syndication

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
名宿:火箭不该拿杰伦-格林换杜兰特,只有詹姆斯能抵抗时间

名宿:火箭不该拿杰伦-格林换杜兰特,只有詹姆斯能抵抗时间

懂球帝
2026-05-06 13:54:47
眼红啊!南宁一教师月薪14044元的截图引热议,网友:副高五级吧

眼红啊!南宁一教师月薪14044元的截图引热议,网友:副高五级吧

火山詩话
2026-05-06 07:43:22
伊朗导弹再次砸向阿联酋!蝴蝶效应开始,美国出现巨头破产

伊朗导弹再次砸向阿联酋!蝴蝶效应开始,美国出现巨头破产

纵拥千千晚星
2026-05-06 13:35:17
暴跌13%,"不孕门"撕开中产遮羞布,Lululemon的性感生意还能撑多久

暴跌13%,"不孕门"撕开中产遮羞布,Lululemon的性感生意还能撑多久

毒sir财经
2026-05-05 22:28:53
女人有钱没钱,一眼就能看出来:没钱的女人,大多有这三个穷习惯

女人有钱没钱,一眼就能看出来:没钱的女人,大多有这三个穷习惯

荷兰豆爱健康
2026-05-04 12:57:32
38岁金秀贤消失一年近况曝光,坚强筹备今年复工

38岁金秀贤消失一年近况曝光,坚强筹备今年复工

汪巗的创业之路
2026-05-06 08:38:11
8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

小莜读史
2026-05-04 20:33:26
熔断!半导体暴涨,这些ETF封死涨停,现在上车还是等回调?

熔断!半导体暴涨,这些ETF封死涨停,现在上车还是等回调?

中国基金报
2026-05-06 20:44:54
三件大事!美军机抵达北京,王毅挂掉美外长电话,特朗普访华有变

三件大事!美军机抵达北京,王毅挂掉美外长电话,特朗普访华有变

媒体人解飞
2026-05-06 11:24:42
福建该市交通发展集团有限公司董事长因涉嫌严重违纪违法被查

福建该市交通发展集团有限公司董事长因涉嫌严重违纪违法被查

大闽门户
2026-05-06 15:28:57
王心凌演唱会突然大叫一声,被激光打到腿!观众不满:大面积扫射致手机等损坏

王心凌演唱会突然大叫一声,被激光打到腿!观众不满:大面积扫射致手机等损坏

上观新闻
2026-05-06 15:14:07
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
20万一针?国研“超低价”CAR-T申报上市,胃癌、胰腺癌等破冰!

20万一针?国研“超低价”CAR-T申报上市,胃癌、胰腺癌等破冰!

无癌家园i
2026-05-06 17:45:44
成龙拒特朗普施压仅5天,72岁双惊喜回馈广大观众

成龙拒特朗普施压仅5天,72岁双惊喜回馈广大观众

小七七体育解说
2026-05-06 18:41:01
山东俩儿非亲生再添猛料!男小3背景势力大,难怪敢盗取国家资源

山东俩儿非亲生再添猛料!男小3背景势力大,难怪敢盗取国家资源

另子维爱读史
2026-05-06 10:54:58
A股存储芯片股集体飙涨,多股20cm涨停,金螳螂11天9板,闻泰科技一字跌停

A股存储芯片股集体飙涨,多股20cm涨停,金螳螂11天9板,闻泰科技一字跌停

21世纪经济报道
2026-05-06 12:16:08
4000亿锁定,美联储引爆!巴菲特血洗美股,万亿巨头大气不敢喘!

4000亿锁定,美联储引爆!巴菲特血洗美股,万亿巨头大气不敢喘!

丁丁鲤史纪
2026-05-06 17:02:05
女游客坠亡的秋千项目:位于川东第一高瀑,当地曾发提醒

女游客坠亡的秋千项目:位于川东第一高瀑,当地曾发提醒

南方都市报
2026-05-06 09:19:53
悬崖秋千游乐项目致16岁女孩死亡!全球相似事故安全隐患太可怕!

悬崖秋千游乐项目致16岁女孩死亡!全球相似事故安全隐患太可怕!

英国报姐
2026-05-06 20:37:49
石破茂说得很透彻,中国军力再强也吓不倒高市,日本还会走老路的

石破茂说得很透彻,中国军力再强也吓不倒高市,日本还会走老路的

阿芒娱乐说
2026-05-06 17:06:05
2026-05-06 21:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15145文章数 66838关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

知情人士:伊朗将同意将铀浓缩材料运出伊朗

头条要闻

知情人士:伊朗将同意将铀浓缩材料运出伊朗

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

数码
时尚
本地
房产
旅游

数码要闻

三星宣布停止在中国市场销售所有家电产品

春天穿“黑色”太沉闷?学会这些搭配小技巧,显瘦减龄还洋气

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

旅游要闻

从“门票经济”到“沉浸共创”,广元市利州区“五一”文旅市场的破圈之路

无障碍浏览 进入关怀版