网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

【五号雷达-数据快讯】Matrix - 大规模开源双语预训练数据集

2024-05-13 15:22:52　来源: 五号雷达

上海举报

0

分享至

Matrix是M-A-P（Multimodal Art Projection）发布的一个大规模开源双语（英文和中文）预训练数据集。该数据集用于训练neo大模型，包含了46900亿个Token。Matrix数据集由多个元素构成，每个元素都来自不同的来源，并在语言建模和处理中发挥着不同的作用，以下是各个元素的简要介绍：

Common Crawl：汇聚互联网文本，涵盖网站、博客、新闻等，体现语言多样性。
代码：集成编程相关数据，丰富模型对技术语言的理解。
论文：融合多学科学术论文，提供专业和技术性语言素材。
书籍：涵盖文学、非虚构、教材等，拓宽语言模型的知识面。
指令：以问答形式呈现，增强模型对指令性语言的识别。
考试：整合学术考试材料，提升模型对教育性文本的处理能力。
新闻：集合新闻报道，使模型紧跟时事动态。
维基：不仅限于维基百科，包括百科全书类文章，覆盖广泛领域。
专利：纳入专利文献，为模型提供详尽的发明描述。

详情请参见五号雷达：https://www.5radar.com/result?key=Matrix

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

参不参加会议是个问题，想当“带头大哥”不容易

迎风立调侃 2024-05-29 06:44:19
2431 跟贴 2431
杭州不限购后河南购房者花2300多万3天连买8套房

鲁中晨报 2024-05-28 22:35:48
18980 跟贴 18980

越闹越大！王处长凭一己之力，把沈阳送上了热搜，评论区炸锅！

番茄说史聊 2024-05-28 22:00:59
196 跟贴 196

前京东副总裁蔡磊被传“装病” 好友晒图辟谣

都市快报橙柿互动 2024-05-28 16:51:04
3659 跟贴 3659
以军装甲部队进入加沙地带南部城市拉法市中心

央视新闻客户端 2024-05-28 17:06:07
18526 跟贴 18526

日本超市被曝西瓜按片卖！折合人民币接近5块钱，网友：日本人好可怜

可达鸭面面观 2024-05-29 09:47:48
6991 跟贴 6991

俄财政部长称俄罗斯人自己想提高税收，税收即将大幅上涨

亡海中的彼岸花 2024-05-29 07:48:02
831 跟贴 831
哈马斯拍摄假视频的幕后工作被猪队友传到了网上

狗剩说电影 2024-05-29 00:02:58
2964 跟贴 2964

政治局集体学习首提构建就业友好型发展方式，专家这样解读

第一财经资讯 2024-05-28 21:34:08
3133 跟贴 3133
挪威正式承认巴勒斯坦国

央视新闻客户端 2024-05-28 19:09:15
6892 跟贴 6892
大V揭台岛网军，分工明确：反串、假中立、酸文……在大陆各领域制造矛盾

不掉线电波 2024-05-28 21:15:25
4122 跟贴 4122
乌议长：泽连斯基将担任总统直至选举产生新总统

央视新闻客户端 2024-05-29 08:28:15
1504 跟贴 1504
一夜关店！中国“穷鬼”，正暴击米其林

金错刀 2024-05-29 09:59:26
1 跟贴 1
北京多区发放汽车消费券，实探车市：车企推限时购车权益抢客户

新京报 2024-05-28 18:03:19
2592 跟贴 2592
钟薛高创始人回应直播带货还债：拖欠729位员工薪资

财联社 2024-05-28 20:09:14
3437 跟贴 3437
新华社评论员：促进高质量充分就业

新华社 2024-05-28 23:54:08
829 跟贴 829
IMF上调今年中国经济增长预期0.4个百分点至5%

财联社 2024-05-29 10:04:06
2420 跟贴 2420
美股收盘：纳指突破17000点创新高英伟达狂飙近7%

财联社 2024-05-29 05:20:05
250 跟贴 250
这事儿｜选调生不满嘉峪关，官方确认其已离职

澎湃新闻 2024-05-29 07:18:27
1 跟贴 1
豪言不假！爱德华兹29+10+9连中制胜球拼到5犯终赢东契奇一场

醉卧浮生 2024-05-29 11:12:34
0 跟贴 0
39岁C罗渴望参加2026年世界杯！即将续约一年！FIFA主席公开点赞

风过乡 2024-05-29 07:16:51
0 跟贴 0

德国颁发“剽窃奖”，中国企业拿到手软

德国颁发“剽窃奖”，中国企业拿到手软

说故事的阿袭

2024-05-29 02:13:05

曝某幼儿园里的一幕：小朋友认真听老师讲解，屏幕上显示＂间谍可能就在你我身边＂

曝某幼儿园里的一幕：小朋友认真听老师讲解，屏幕上显示"间谍可能就在你我身边"

互联网大聪明

2024-05-29 13:58:28

收视率飙升！森林狼挽救赛点，挑战NBA第一神迹，绿军成赢家

收视率飙升！森林狼挽救赛点，挑战NBA第一神迹，绿军成赢家

天涯沦落人

2024-05-29 11:14:42

国台办回应围岛军演会否常态化

财联社

2024-05-29 10:37:32

揭秘中国高干病房：免费医疗背后的秘密

揭秘中国高干病房：免费医疗背后的秘密

灰产圈

2024-05-29 00:09:33

有的官员已经不管老百姓死活了

浮事记

2024-05-29 11:18:51

吃“春药”，是一种怎样的体验？分享2个案例，告诉你真实感受

吃“春药”，是一种怎样的体验？分享2个案例，告诉你真实感受

奇妙的本草

2024-05-23 19:00:03

霉霉带了60辆卡车来伯纳乌，花费3小时才运送完物资

霉霉带了60辆卡车来伯纳乌，花费3小时才运送完物资

懂球帝

2024-05-29 04:32:44

普京驳斥耶伦“中国产能过剩论”：我不认为美财长是个文盲，这只是在玩弄事实

普京驳斥耶伦“中国产能过剩论”：我不认为美财长是个文盲，这只是在玩弄事实

环球网资讯

2024-05-29 10:40:09

芬奇想通了？李凯尔G4上场时间西决最高森林狼终于赢了一局

芬奇想通了？李凯尔G4上场时间西决最高森林狼终于赢了一局

直播吧

2024-05-29 11:50:07

谭咏麟病愈后首次公开现身，瘦到青筋毕现感慨声线不好

谭咏麟病愈后首次公开现身，瘦到青筋毕现感慨声线不好

小萝卜天下事

2023-07-21 21:57:53

情侣因长得太像，为满足好奇心去做亲缘鉴定，当事人：结果出来了

情侣因长得太像，为满足好奇心去做亲缘鉴定，当事人：结果出来了

风起云间

2024-05-28 21:48:26

20岁宁波女生留学新加坡蹊跷坠亡，家属：离毕业不到10天，部分财物遗失

20岁宁波女生留学新加坡蹊跷坠亡，家属：离毕业不到10天，部分财物遗失

极目新闻

2024-05-28 22:18:53

郭有才凉了！

新动察

2024-05-29 09:48:19

潜伏美国37年的中共谍王暴露始末，因国际惯例，我方无法进行交换

潜伏美国37年的中共谍王暴露始末，因国际惯例，我方无法进行交换

干史人

2024-05-25 19:18:25

墨家灭绝，细思恐极

最爱历史

2024-05-28 20:29:05

以色列议会拟推动认定联合国机构为恐怖组织！

以色列议会拟推动认定联合国机构为恐怖组织！

鲁中晨报

2024-05-29 09:30:09

全世界都愤怒了，但美国却说：未过红线

全世界都愤怒了，但美国却说：未过红线

观察者网

2024-05-29 08:32:07

《庆余年》学历：中戏大团建，学历最高竟是五竹叔！还是211！

《庆余年》学历：中戏大团建，学历最高竟是五竹叔！还是211！

猫小狸同学

2024-05-29 12:15:02

王伟中、许昆林、王浩、周乃翔、王凯、黄强，最新发声！

王伟中、许昆林、王浩、周乃翔、王凯、黄强，最新发声！

政知新媒体

2024-05-28 20:46:18

探测数据要素市场，把握数字经济机遇。

154文章数 2关注度

往期回顾全部

科技要闻

王传福再放狠话，燃油车要成“非主流”

头条要闻

白天辉4年受贿11亿元获死刑曾在反腐片里揭露赖小民

头条要闻

白天辉4年受贿11亿元获死刑曾在反腐片里揭露赖小民

体育要闻

阿根廷一代神锋，击碎了沙特的金元足球梦

娱乐要闻

张若昀怎么剧外比剧内更惨兮兮…

财经要闻

东方通收购藏雷花6亿买来"业绩变脸"

汽车要闻

新哈弗H6苦练内功向燃油车绝缘智能SAY NO

态度原创

房产

游戏

本地

时尚

公开课

房产要闻

有点猛！最新房价：海南每㎡跌了2000多！

初来乍到的《世界启元》为何能打破SLG游戏“非肝即氪”的铁律？

本地新闻

食味印象｜歙县限定！枇杷味儿的清甜初夏

中年女人缺的不是衣服，而是这些搭配技巧，轻松打造女神范儿

公开课

近视只是视力差？小心并发症

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版