网易首页 > 网易号 > 正文 申请入驻

LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

0
分享至


新智元报道

编辑:LRS

【新智元导读】新模型bGPT是一个基于字节的Transformer模型,能够将不同类型的数据纳入同一框架之下,可以生成文本、图像和音频,还能模拟计算机行为,数字世界将迎来真正的大一统?

微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为我们探索数字世界开辟了新的大门。

与传统的基于词表的语言模型不同,bGPT的独特之处在于其对原始二进制数据的直接处理能力,不受特定格式或任务的限制,其目标是全面模拟数字世界。


论文:https://arxiv.org/abs/2402.19155

代码:https://github.com/sanderwood/bgpt

模型:https://huggingface.co/sander-wood/bgpt

项目主页:https://byte-gpt.github.io

研究团队在其论文中展示了bGPT在建模上的巨大潜力,通过字节级处理,bGPT不仅能生成文本、图像和音频,还能模拟计算机行为——从格式转换算法到CPU状态的建模。将所有数据视为字节序列的做法,使bGPT能够将不同类型的数据纳入同一框架之下。

bGPT的论文一经发布,便在X(Twitter)上引发了广泛的关注和讨论,标志着深度学习范式转变的可能性,使得模型能够真正理解并模拟数字世界中的各种活动。

二进制数据:构成数字世界的基础DNA

二进制数据是数字世界的基础,从计算机处理器到我们日常使用的电子产品的操作系统,构成了所有数据、设备和软件的核心。bGPT正是从这一点出发,旨在通过学习二进制数据序列来掌握数字系统的内部逻辑,以此来重建和模拟复杂的数字现象。

bGPT通过字节级的处理,不仅能应用于常规的AI生成和理解任务,还能处理更多的非传统应用。例如,它能直接模拟MIDI——一种音乐传输和存储的标准格式,这在之前的研究中由于MIDI的二进制本质而避免了直接建模。

但bGPT天生适合此类任务,能够精确模拟音乐数据的转换算法,将ABC记谱法转换为MIDI格式时,达到极低的错误率(0.0011 BPB)。

在实际应用中,bGPT通常能够准确地完成ABC符号与MIDI文件之间的转换,有时甚至能纠正原始文件中的错误,使音乐转换更加准确。


bGPT自动将ABC记谱法转换成MIDI格式(上图)与原MIDI数据(下图)的对比,凸显了关键的差异:虽然原MIDI数据中漏掉了一拍(见下图),导致和弦伴奏断开,但由bGPT转换的结果(见上图)正确填补了这一缺失,确保了和弦伴奏的流畅性。

研究团队还将CPU建模作为硬件行为模拟的代表性任务:该任务要求模型接收低级机器指令序列作为输入,其目标是准确预测每个指令执行后CPU状态如何更新,直至程序停止。

在这个任务中,bGPT展现出超过99.99%的准确率,显示了字节模型在处理原生二进制数据方面的强大能力和可扩展性。


在提供了程序和初始CPU状态的情况下,bGPT能够准确地预测CPU执行的完整过程,直到程序终止。在这个示例中,bGPT精确地处理了所有CPU指令。为了便于理解,这里将实际的字节序列转换成了更易读的格式。

从字节到万物:突破边界,向着统一的数据建模进发

bGPT不仅能处理原生二进制数据,还能将多种数据类型融合进一个统一的模型架构中,视一切数据为字节序列。

这种方法不但简化了数据建模流程,还使得从任何数据源的整合变得轻而易举,且无需为特定数据类型定制模型。

研究团队在论文中举例了传统文本、图像及音频文件,展现了bGPT在统一数据建模方面的能力。他们训练的bGPT模型拥有约1亿参数。

实验结果表明,在与GPT-2(文本模型)、ViT(视觉模型)和AST(音频模型)等同规模模型的比较中,bGPT在不同数据类型上均展现出了可媲美的性能。

bGPT在文本生成方面的表现非常出色。得益于其字节级的文本编码,该模型无需依赖词汇表,从而能支持所有语言。

它的分层Transformer架构,尽管计算开销与GPT-2相近,却能生成长达8KB的文本,大大超出了GPT-2的长度限制。在经过Wikipedia数据进行预训练后,bGPT生成的文本在风格和主题上都与GPT-2不相上下,证明了其在文本生成方面的强大能力。

bGPT在Wikipedia数据集上进行预训练,生成的文本样例质量和主题一致性与GPT-2相当。

bGPT可以通过预测图像字节序列中的下一个字节来生成图像。该模型在ImageNet数据集上进行了预训练,生成的图像分辨率为32x32像素。

虽然在当前规模下,通过字节序列准确捕捉图像的二维空间关系有所困难,导致生成的图像存在伪影和噪点,但纹理和光影效果通常还是比较准确的。

此外,这些生成的图像均能被正常解码为BMP文件。研究团队指出,通过扩大bGPT的规模,类似于OpenAI开发的iGPT在像素序列建模方面的方法,或许可以实现更高质量、更逼真的图像生成。

这些是由在ImageNet数据集上进行预训练的bGPT生成的一组图像。虽然图像的纹理和光影效果通常比较准确,但在这些生成的图像中识别主要物体却有一定难度。

bGPT将音频数据视为字节序列,能生成1秒长、采样率为8000 Hz的音频样本。


该模型在LibriSpeech数据集上完成了预训练,并进一步在Speech Commands v2数据集上进行微调和演示。bGPT生成的音频样本保持了较高的准确度,其中一些样本几乎与真实音频无法区分。以下是展示bGPT在音频生成领域能力的示例集。

在Speech Commands v2数据集上微调的bGPT生成的优秀示例。

包括“follow”、“no”、“zero”、“one”、“two”和“seven”的样本。

通过bGPT探索字节构成的数字世界

传统语言模型,不管它们有多强大,主要专注于处理自然语言文本。bGPT模型通过基于字节的处理机制,打破了这种仅限于文本处理的局限性,开辟了一个全新的数据处理范畴。

这一进步让bGPT有能力无缝地处理包括文本、图像、音频在内的各种数据类型,甚至能处理来自算法和硬件的原生二进制数据,为全面模拟和理解数字世界铺平了道路。

虽然bGPT展现出了引人注目的能力,但其在计算开销方面的局限性,如当前在常规显卡上仅能处理最大8KB的字节序列,对于那些需要生成或处理大量数据的应用来说,构成了明显的限制。未来的工作计划将集中在开发更高效的算法和利用硬件的进步上,旨在提高处理更大规模数据序列的能力。

全球的技术爱好者们已经开始展望bGPT未来的潜力,从网络修剪和自我学习的优化到超大规模网络的自我重构能力,这些讨论指向了一个共同的愿景:bGPT最终可能实现一个统一的模型,能够处理和输出所有类型的字节数据,真正成为数字世界的全面模拟器。


研究团队已将bGPT的代码和模型开源。这意味着你可以在自己的数据集上直接训练bGPT,无需做出任何模型架构上的调整,便可探索字节模型在数字领域的广阔前景。

参考资料:

https://arxiv.org/abs/2402.19155

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周鸿祎出售迈巴赫升至抖音热点榜第一

周鸿祎出售迈巴赫升至抖音热点榜第一

鞭牛士
2024-04-28 18:15:08
6个习惯让你保持年轻,中医说:美貌的尽头一定是养生!

6个习惯让你保持年轻,中医说:美貌的尽头一定是养生!

荷兰豆爱健康
2024-04-28 17:16:10
卖车直播无底线!女主播都穿“鲨鱼裤”,评论区全喊“钵钵鸡”!

卖车直播无底线!女主播都穿“鲨鱼裤”,评论区全喊“钵钵鸡”!

卧龙的心术
2024-04-23 11:42:43
巴尔韦德谈对曼城:这辈子都没这么累过!我是点球手但罚不动了

巴尔韦德谈对曼城:这辈子都没这么累过!我是点球手但罚不动了

直播吧
2024-04-28 19:08:13
王鸥恢复的真快,身材真好

王鸥恢复的真快,身材真好

娱乐八卦木木子
2024-04-28 10:46:58
妹妹被局长开除后摆地摊,五年后,哥哥调来担任市委书记

妹妹被局长开除后摆地摊,五年后,哥哥调来担任市委书记

乔生桂
2024-04-20 19:44:55
太残忍!东莞一棋牌室老板娘被人捅了多刀身亡,更多内幕曝光

太残忍!东莞一棋牌室老板娘被人捅了多刀身亡,更多内幕曝光

科学发掘
2024-04-28 12:30:24
人间清醒!都有谁看懂了掘金的策略?湖人才反应过来拿下一局

人间清醒!都有谁看懂了掘金的策略?湖人才反应过来拿下一局

林子说事
2024-04-28 13:14:39
穆里尼奥:近20年世界足坛,堪称世界顶级的仅3人,本泽马还不行

穆里尼奥:近20年世界足坛,堪称世界顶级的仅3人,本泽马还不行

天下足球资讯
2024-04-27 13:45:14
5月上旬,红鸾星动,桃花旺盛,极易表白成功的三个生肖

5月上旬,红鸾星动,桃花旺盛,极易表白成功的三个生肖

牛锅巴小钒
2024-04-28 20:24:25
我国首位女航天员刘洋,没生孩子就上太空,返回地球后消失人前

我国首位女航天员刘洋,没生孩子就上太空,返回地球后消失人前

搞笑的阿票
2024-04-25 07:55:03
原来这才是lisa 疯马秀的原图

原来这才是lisa 疯马秀的原图

娱乐八卦木木子
2024-04-28 16:17:32
致敬劳动者!四川195人获“四川省五一劳动奖章”

致敬劳动者!四川195人获“四川省五一劳动奖章”

封面新闻
2024-04-28 14:40:17
美国阴谋曝光!美打算在蒙古境内设立军事基地,蒙古回应很清醒

美国阴谋曝光!美打算在蒙古境内设立军事基地,蒙古回应很清醒

布衣的呼喊
2024-04-27 09:46:58
西游记演员程伟兵病逝,是六小龄童大师兄

西游记演员程伟兵病逝,是六小龄童大师兄

农人老寓
2024-04-28 03:58:25
航天员叶光富的妻子李璇,如花似玉,出生航天世家

航天员叶光富的妻子李璇,如花似玉,出生航天世家

追忆十六年
2024-04-27 05:29:14
私人影院提供特色观影服务?我试图前往体验,却发现掉入桃色陷阱

私人影院提供特色观影服务?我试图前往体验,却发现掉入桃色陷阱

亲爱的落落
2024-04-15 10:57:58
中国或笑到最后!美国继续向乌克兰、以色列打钱,给到了中国机会

中国或笑到最后!美国继续向乌克兰、以色列打钱,给到了中国机会

国学聚焦
2024-04-27 21:11:53
西部某省会城市,一家国企发不出来工资了!

西部某省会城市,一家国企发不出来工资了!

黄桷树财经
2024-04-28 20:15:48
天生就是“领导命”的4大生肖,想不当都难,一辈子不愁没钱花

天生就是“领导命”的4大生肖,想不当都难,一辈子不愁没钱花

牛锅巴小钒
2024-04-28 12:05:35
2024-04-28 21:36:49
新智元
新智元
AI产业主平台领航智能+时代
10967文章数 65460关注度
往期回顾 全部

科技要闻

特斯拉生死时速,马斯克西天取经

头条要闻

周鸿祎的二手迈巴赫以990万元成交 半个车圈到场

头条要闻

周鸿祎的二手迈巴赫以990万元成交 半个车圈到场

体育要闻

赢了!詹皇末节14分制胜咆哮 压力给到KD

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

上财万字报告深度解读Q1经济

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

亲子
数码
本地
房产
手机

亲子要闻

宝蓝游戏机组装挑战!宝蓝和朋友们一起组装玩具,玩得不亦乐乎!

数码要闻

AmpereOne-3将于明年推出 台积电3nm工艺 256核支持 PCIe 6.0 和 DDR5

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

手机要闻

苹果警告:睡觉时切勿将iPhone放枕头、身体下充电

无障碍浏览 进入关怀版