网易首页 > 网易号 > 正文 申请入驻

秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用

0
分享至

丰色 发自 凹非寺
量子位 | 公众号QbitAI

国产大模型刚刚出了一位全新选手:

参数670亿的DeepSeek。

它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的Llama 2

并尤其以推理、数学和编码能力为突出。

其中在数学能力上,它测了Grok刚刚参与过的匈牙利今年最新的高中数学考试题,得了65分

对比Grok当时公布的成绩:59分,以及GPT-4的68分,表现十分出色。

DeepSeek主打一个发布即开源:

共包含70亿和670亿两个参数版本,每个版本均含基础模型和指令微调模型,无需申请,即可免费商用

同时,它已开放了全面内测,注册一下就能玩。

Ps. DeepSeek的中文能力在GPT-3.5之上,可以使用中文进行测试。

在推特上,DeepSeek也引起了一大批技术同行的关注:

早期测试过的人表示没毛病。

还有人赞誉DeepSeek弥补了开源LLM在数学和编码上的短板。

那么,DeepSeek是如何训练出来的?

与Llama架构相同

DeepSeek使用与Llama相同的架构,即自回归Transformer解码器架构。

其中70亿参数的版本使用多头注意力,670亿参数版本使用分组查询注意力。

预训练在包含2万亿个中英文token的数据集(序列长度4096)和AdamW优化器上进行。

其中70亿参数版本的模型的训练batch size为2304,学习率为4.2e-4;670亿参数版本的模型的batch size为4608,学习率为3.2e-4。

DeepSeek的训练过程中特别采用了多步学习率计划

先从2000个预测步骤开始,然后在1.6万亿token时逐步达到最大值的31.6%,在1.8万亿token时逐步达到最大值的10%。

有网友看完表示:

这种从1.6万亿token时开启的学习率冷却阶段有点类似于“Scaling Vision Transformers”那篇论文中的lr计划消融操作。

这也与Llama的余弦学习率衰减(要求它们提前指定步数)完全不同,非常有趣。

下图是作者发布的DeepSeek训练损失曲线以及在几个基准上的曲线图:

数学和编码能力突出

我们重点关注DeepSeek进行的如下三大类测试结果。

一个是今年5月才发布的2023年匈牙利高中数学考试题。

尽管DeepSeek已经在GSM8k和MATH这两个标准基准上取得了不错的成绩:

但由于存在过度拟合这些数据集的风险,作者还是决定评估一下样本外的数学泛化能力。

如下图所示,位于右上角的670亿参数DeepSeek最终在样本内数学能力(纵轴GSM8K)排名第三,仅次于Claude 2和GPT-4,但在样本外数学能力(横轴Exam Score)排名第二,仅次于GPT-4

第二个是考验DeepSeek指令跟随能力的测试。

在此,作者使用了谷歌11月15日刚刚发布的指令跟随评测集,来评价模型的“听话程度”。

结果是领先一众开源模型,但59.1分的成绩与GPT-4还有20分的差距。

最后是代码能力测试。

同样,作者在这里重点关注了样本外能力,选择的是LeetCode今年7月2日到11月12日的最新真题进行测试。

结果是比国内常见的大模型都要好很多,并且也远远超越了GPT 3.5。

背后公司是谁?

经搜索,DeepSeek背后的公司名叫深度求索。base位于北京,今年5月正式成立。

目标不只是大模型,而是AGI。

就在11月初,这家公司就发布代码大模型DeepSeek Coder

与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先了9.3%、10.8%和5.9%。

特别值得一提的是,深度求索其实是从知名私募巨头幻方旗下独立出来的一家公司。

幻方这家公司听起来和AI“八杆子打不着”,但实际上,2019年时,幻方就发布了自研深度学习训练平台“萤火一号”。

据称该项目总投资近2亿元,共搭载了1100块GPU。

后来“萤火一号”又升级为“二号”,搭载的GPU数则达到了约1万张

参考链接:
[1]https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ
[2]https://twitter.com/johannes_hage/status/1730075189428494842
[3]https://twitter.com/jeremyphoward/status/1730113946345205970
[4]https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子欲望太大,除夕夜也要偷情,2018年情夫:扛不住了就杀了她

女子欲望太大,除夕夜也要偷情,2018年情夫:扛不住了就杀了她

汉史趣闻
2026-03-23 18:42:52
A股:2.5亿股民,今晚可能要超级慌了,你知道为什么吗?

A股:2.5亿股民,今晚可能要超级慌了,你知道为什么吗?

夜深爱杂谈
2026-03-23 19:36:49
霍尔木兹海峡,大消息!特朗普发声!黄金、白银,跳水!原油,突变!

霍尔木兹海峡,大消息!特朗普发声!黄金、白银,跳水!原油,突变!

证券时报e公司
2026-03-23 07:57:08
这次破案了,中方追回走私稀土,价值46个亿,美国砸重金收买内鬼

这次破案了,中方追回走私稀土,价值46个亿,美国砸重金收买内鬼

影孖看世界
2026-03-23 23:29:51
油价一夜大变!央妈出手控价,3月23日全国加油站最新价格公布

油价一夜大变!央妈出手控价,3月23日全国加油站最新价格公布

汽车大事记
2026-03-23 20:07:01
220吨!中国再次破获稀土走私,伪装“废铁”偷偷卖给美国军火商

220吨!中国再次破获稀土走私,伪装“废铁”偷偷卖给美国军火商

策前论
2026-03-23 20:10:45
阿里:裁员超66000人!

阿里:裁员超66000人!

最通信
2026-03-23 19:59:41
世体:阿韦洛亚在马德里德比中穿一件LV夹克,售价高达3900欧

世体:阿韦洛亚在马德里德比中穿一件LV夹克,售价高达3900欧

懂球帝
2026-03-23 21:41:08
泡沫破了!大批文旅项目开始批量倒闭

泡沫破了!大批文旅项目开始批量倒闭

新浪财经
2026-03-22 18:25:59
周琦8罚0中丢绝杀三分!北京爆冷遭吉林15分逆转 姜伟泽26+10

周琦8罚0中丢绝杀三分!北京爆冷遭吉林15分逆转 姜伟泽26+10

醉卧浮生
2026-03-23 21:24:17
价格太离谱了!华为正式发布大量全新车型

价格太离谱了!华为正式发布大量全新车型

XCiOS俱乐部
2026-03-23 16:24:23
能源危机来袭,中国真的要赢了

能源危机来袭,中国真的要赢了

阿亮评论
2026-03-23 15:58:14
金价断崖式下跌 全球抛售潮来袭!

金价断崖式下跌 全球抛售潮来袭!

闪电新闻
2026-03-23 10:52:49
最后24小时......

最后24小时......

西楼饮月
2026-03-23 23:37:01
金正恩再次当选朝鲜国务委员长!新标准像正式发布

金正恩再次当选朝鲜国务委员长!新标准像正式发布

IN朝鲜
2026-03-23 12:55:54
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

达文西看世界
2026-03-23 20:29:16
日外相唾面自干,主动为美开脱!高市没料到,中方公布重量级数据

日外相唾面自干,主动为美开脱!高市没料到,中方公布重量级数据

温读史
2026-03-23 21:17:31
因白酒带不上飞机,山东青岛一女子豪迈喝下:酒已经开封,扔掉太可惜就当场喝掉了,“已经记不得是53度还是42度”

因白酒带不上飞机,山东青岛一女子豪迈喝下:酒已经开封,扔掉太可惜就当场喝掉了,“已经记不得是53度还是42度”

洪观新闻
2026-03-23 16:51:22
北京飞上海MU5128航班落地虹桥机场后机舱起火,现场多辆消防车待命

北京飞上海MU5128航班落地虹桥机场后机舱起火,现场多辆消防车待命

极目新闻
2026-03-23 09:54:33
离谱!印度航空飞加拿大航班 飞至云南上空发现开错飞机返航

离谱!印度航空飞加拿大航班 飞至云南上空发现开错飞机返航

快科技
2026-03-23 18:32:34
2026-03-24 02:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12330文章数 176418关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

特朗普:伊朗还有最后一次机会

头条要闻

特朗普:伊朗还有最后一次机会

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

钟丽缇就女儿考拉争议道歉:女儿还小

财经要闻

市场见底了吗?谁在抛售?机构火线解读

汽车要闻

东风雪铁龙新凡尔赛C5X上市 官方一口价11.37万起

态度原创

手机
艺术
时尚
健康
军事航空

手机要闻

传闻折叠屏iPhone采用双层玻璃设计,进一步弱化折痕

艺术要闻

砸10亿!苏宁易购总部大楼,张近东雄心的象征

春天穿衣别太老气横秋,试试这些多巴胺穿搭,减龄养眼又舒适

转头就晕的耳石症,能开车上班吗?

军事要闻

伊朗回应美方威胁:将在战场上坚决对抗

无障碍浏览 进入关怀版