网易首页 > 网易号 > 正文 申请入驻

人工智能周刊#18:微软发布手机端大模型、Llama 3 中文模型列表、苹果开源新项目、

0
分享至


主打尊重隐私的搜索引擎 duckduckgo,也推出了 ai chat 服务,可以使用 chatgpt 或者 claude

机器学习周刊:关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录:

  • 1、Qwen1.5-110B:Qwen1.5 系列的首个千亿参数开源模型

  • 2、苹果开源了 openelm

  • 3、cohere 工具包:快速构建和部署 rag 应用

  • 4、LLM 迈向手机端,微软发布 phi-3-mini 模型

  • 5、culturebank: 在线社区驱动的知识库

  • 6、大模型微调工具 xtuner

  • 7、换衣应用在线体验

  • 8、hf llama 3 中文模型列表

  • 9、可视化 transfermor 模型的内部原理

  • 10、mistral 系列模型整理


链接跳转友好版:https://weekly.zhanglearning.com/

1、Qwen1.5-110B:Qwen1.5 系列的首个千亿参数开源模型

模型:https://huggingface.co/Qwen/Qwen1.5-110B/

博客:https://qwenlm.github.io/zh/blog/qwen1.5-110b/

Demo:https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo

阿里开源了 qwen1.5-110b 模型,模型在基础能力评估中与 Meta-Llama3-70B 相媲美,在 Chat 评估中表现出色,包括 MT-Bench 和 AlpacaEval 2.0。

支持高达 32k token 的上下文长度。

提供包括英语、中文、法语、西班牙语、日语、韩语、越南语等多种语言的多语言支持。

qwen2 也即将发布。


2、苹果开源了 openelm

论文:https://arxiv.org/abs/2404.14619

项目:https://github.com/apple/corenet

模型:https://huggingface.co/apple/OpenELM

苹果完全开源了 openelm 一系列模型,包括 270m、450m、1.1b 和 3b 四个规模的模型:

不仅包括模型权重和推理代码,还包括了在公开数据集上进行模型训练和评估的完整框架,涵盖训练日志、多个保存点和预训练设置。

还开源了 corenet:深度神经网络训练库:

使研究人员和工程师能够开发和训练各种标准及创新的小型和大型模型,适用于多种任务,如基础模型(例如,clip 和大语言模型(llm))、物体分类、检测以及语义分割。

openelm 采用按层分配参数的策略,有效提升了 transformer 模型各层的参数配置效率,显著提高模型精度。例如,在大约十亿参数的预算下,openelm 的准确率较 olmo 提升了 2.36%,且预训练所需的 token 数量减少了一半。


3、cohere 工具包:快速构建和部署 rag 应用

cohere 开源的工具包,用于开发 rag 应用,可以一键部署到微软 azure 上,也可以本地部署。

github:https://github.com/cohere-ai/cohere-toolkit


4、LLM 迈向手机端,微软发布 phi-3-mini 模型

论文:https://arxiv.org/abs/2404.14219

4k 模型:https://huggingface.co/microsoft/phi-3-mini-4k-instruct-onnx

128k 模型:https://huggingface.co/microsoft/phi-3-mini-128k-instruct-onnx


微软官方 phi-3 博客,很详细的阐释了 phi-3 参数选择的考虑和模型高质量的原因。

文中提到了 phi-3 在 slm 在端侧应用的场景和优势,认为 slm 和 llm 结合是更优解,也提到高质量数据在模型训练中的重要性。

博客地址:https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/?ocid=fy24_soc_omc_br_x_phi3

1)参数:拥有 38 亿参数
2)性能:与 mixtral 8x7b 和 gpt-3.5 等模型同级
3)手机端部署:足够小,且针对手机端进行了优化
4)更多模型:还提供了 70 亿 和 140 亿 的 phi-3-small 和 phi-3-medium 模型,性能远超 phi-3-mini


5、culturebank: 在线社区驱动的知识库

论文项目地址:https://culturebank.github.io

github 地址:https://github.com/salt-nlp/culturebank

culturebank 通过从 tiktok 和 reddit 等在线社区收集用户自述,构建了一个包含 1.2 万个文化描述符的数据库。与以往的文化知识资源不同,culturebank 不仅包含了多样的文化观点,还提供了具体的文化场景,以帮助对语言模型进行基于上下文的评估。对现有的大型语言模型(llms)进行文化意识评估,并微调了一个语言模型以提高其在文化相关任务上的表现。展示了如何将构建的管道应用于 reddit,证明了其可转移性。

文章还讨论了提高语言模型文化意识的未来方向,包括使用多样化的数据源、考虑文化内容的多个维度、进行深入的数据分析,以及在训练文化意识语言技术时考虑多轮对话设置和设计良好的训练范式。最后,文章提出了对文化数据的处理需要尊重个体和群体的尊严、隐私和文化敏感性,并呼吁社区共同努力,促进文化多样性和包容性。


6、大模型微调工具 xtuner

地址:https://github.com/InternLM/xtuner

XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。

  • 支持大语言模型 LLM、多模态图文模型 VLM 的预训练及轻量级微调。XTuner 支持在 8GB 显存下微调 7B 模型,同时也支持多节点跨设备微调更大尺度模型(70B+)。

  • 自动分发高性能算子(如 FlashAttention、Triton kernels 等)以加速训练吞吐。

  • 兼容 DeepSpeed [1] ,轻松应用各种 ZeRO 训练优化策略。

灵活

  • 支持多种大语言模型,包括但不限于 InternLM [2]、Mixtral-8x7B [3]、Llama 2 [4]、ChatGLM [5]、Qwen [6]、Baichuan [7]。

  • 支持多模态图文模型 LLaVA 的预训练与微调。利用 XTuner 训得模型 LLaVA-InternLM2-20B [8] 表现优异。

  • 精心设计的数据管道,兼容任意数据格式,开源数据或自定义数据皆可快速上手。

  • 支持 QLoRA [9]、LoRA [10]、全量参数微调等多种微调算法,支撑用户根据具体需求作出最优选择。

全能

  • 支持增量预训练、指令微调与 Agent 微调。

  • 预定义众多开源对话模版,支持与开源或训练所得模型进行对话。

  • 训练所得模型可无缝接入部署工具库 LMDeploy [11]、大规模评测工具库 OpenCompass [12] 及 VLMEvalKit [13]。

7、换衣应用在线体验

在线体验:https://huggingface.co/spaces/yisol/idm-vton


8、hf llama 3 中文模型列表

https://huggingface.co/models?pipeline_tag=text-generation&language=zh&sort=trending&search=llama+3

9、可视化 transfermor 模型的内部原理

facebook 发布了一个开源项目可以直接可视化 transfermor 模型的内部原理。作为直观理解 llm 基础原理很有帮助

https://github.com/facebookresearch/llm-transparency-tool


10、mistral 系列模型整理

mistral large:闭源,他家最强的模型,接近 gpt-4
mistral next:闭源,传言是新架构的模型
mistral medium:闭源,大致对应千问 1.5 72b 的能力
mixtral 8x22b:目前开源最佳
mistral small:即 mixtral 8x7b,最早的开源 moe 模型
mistral tiny:即 mistral 7b,7b 最佳基座

参考资料

DeepSpeed: https://github.com/microsoft/DeepSpeed

InternLM: https://huggingface.co/internlm

Mixtral-8x7B: https://huggingface.co/mistralai

Llama 2: https://huggingface.co/meta-llama

[5]

ChatGLM: https://huggingface.co/THUDM

[6]

Qwen: https://huggingface.co/Qwen

[7]

Baichuan: https://huggingface.co/baichuan-inc

[8]

LLaVA-InternLM2-20B: https://huggingface.co/xtuner/llava-internlm2-20b

[9]

QLoRA: http://arxiv.org/abs/2305.14314

[10]

LoRA: http://arxiv.org/abs/2106.09685

[11]

LMDeploy: https://github.com/InternLM/lmdeploy

[12]

OpenCompass: https://github.com/open-compass/opencompass

[13]

VLMEvalKit: https://github.com/open-compass/VLMEvalKit

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
未婚妻去桂林旅游时失踪,二十年后,我遇到一个长相酷似她的女孩

未婚妻去桂林旅游时失踪,二十年后,我遇到一个长相酷似她的女孩

羽怡文学工作室
2024-05-14 12:41:52
被枪击的斯洛伐克总理:平民政客历经沉浮第四次上台,父亲是叉车操作员

被枪击的斯洛伐克总理:平民政客历经沉浮第四次上台,父亲是叉车操作员

红星新闻
2024-05-16 12:54:26
3-0!日本开局2连胜,狂欢庆祝,中国女排迎坏消息:亚洲第一不保

3-0!日本开局2连胜,狂欢庆祝,中国女排迎坏消息:亚洲第一不保

侃球熊弟
2024-05-16 23:26:26
清华院长说:投降是获得和平的最快捷径。这其实是在为普通人发声

清华院长说:投降是获得和平的最快捷径。这其实是在为普通人发声

沸闻
2024-05-13 13:31:36
新时代的土匪进村了,开始明抢了。

新时代的土匪进村了,开始明抢了。

宝哥精彩赛事
2024-05-17 01:38:25
重磅!南京一著名民办更名?

重磅!南京一著名民办更名?

南京择校
2024-05-16 21:38:38
就在今天,酝酿推出房地产“重大举措”!好激动!

就在今天,酝酿推出房地产“重大举措”!好激动!

正经说个事儿
2024-05-17 07:06:07
2024年养老金调整,企退人员的上调金额,都是如何计算的?

2024年养老金调整,企退人员的上调金额,都是如何计算的?

碎月导师
2024-05-17 07:00:02
这下彻底死心了!罗斯携丈夫现身王室授勋仪式,儿子为查尔斯提袍

这下彻底死心了!罗斯携丈夫现身王室授勋仪式,儿子为查尔斯提袍

记录生活日常阿蜴
2024-05-17 00:18:51
江疏影看古力娜扎的眼神充满了敌意

江疏影看古力娜扎的眼神充满了敌意

阿芒娱乐说
2024-05-16 20:47:43
美为何不敢对华开战?英专家一语道破:中国除核武器另有王牌

美为何不敢对华开战?英专家一语道破:中国除核武器另有王牌

环球Talk
2024-04-23 23:48:35
匿名球队成员:抽中今年的状元签就像用第一顺位选择了拖把

匿名球队成员:抽中今年的状元签就像用第一顺位选择了拖把

直播吧
2024-05-17 00:50:10
新冠新毒株在美国下水道系统发现?KP.2 一代更比一代强?

新冠新毒株在美国下水道系统发现?KP.2 一代更比一代强?

春雨医生
2024-05-14 18:25:50
外媒:最后的纷争将是犹太人和中国的较量,原因让人细思极恐!

外媒:最后的纷争将是犹太人和中国的较量,原因让人细思极恐!

小lu侃侃而谈
2024-05-15 21:28:30
再见哈登?快船队拒绝提供顶薪,年薪3300万,很够意思了

再见哈登?快船队拒绝提供顶薪,年薪3300万,很够意思了

篮球国度
2024-05-16 15:24:56
庾澄庆和伊能静现身儿子毕业典礼,分站在场外和场内,遗憾没合体

庾澄庆和伊能静现身儿子毕业典礼,分站在场外和场内,遗憾没合体

娱乐圈酸柠檬
2024-05-16 22:00:20
他42岁主政宁夏,62岁任国务院总理,四个子女都无人为官

他42岁主政宁夏,62岁任国务院总理,四个子女都无人为官

华人星光
2024-05-15 17:40:38
2.88万下车费风波 新娘悔婚父母道歉 新郎高情商处理

2.88万下车费风波 新娘悔婚父母道歉 新郎高情商处理

山水缥缈
2024-05-17 03:45:32
发改委处长出轨已婚女下属:露骨聊天和开房记录曝光,双方被扒

发改委处长出轨已婚女下属:露骨聊天和开房记录曝光,双方被扒

冬日无雪
2024-05-16 13:37:28
《我的阿勒泰》周依然:别整容,演艺圈不缺美女,缺这样的剧抛脸

《我的阿勒泰》周依然:别整容,演艺圈不缺美女,缺这样的剧抛脸

凌晨一点的猫
2024-05-15 10:23:33
2024-05-17 09:34:44
机器学习与Python社区
机器学习与Python社区
机器学习算法与Python
2420文章数 10249关注度
往期回顾 全部

科技要闻

京东加大营销减少研发,逐渐回归零售公司

头条要闻

普京在华致辞:在中国我感觉就像在家里一样

头条要闻

普京在华致辞:在中国我感觉就像在家里一样

体育要闻

生命最后一年,他决定完成自己的“遗愿清单”

娱乐要闻

街头打代驾?李溪芮想翻红那真挺难的

财经要闻

魅族造车,黄章这次不会再输雷军?

汽车要闻

内饰改款/功能升级 新博越L将于5月19日上市

态度原创

健康
本地
房产
数码
军事航空

在中国,到底哪些人在吃“伟哥”?

本地新闻

吃火锅减肥?还得是宁夏人敢想

房产要闻

约2.9万套,超300万㎡!海口安居房存量太炸裂!

数码要闻

飞利浦推出 49M2C8900L 带鱼屏显示器:双 2K 144Hz QD-OLED

军事要闻

印防长称印度将开始建第三艘母

无障碍浏览 进入关怀版