网易首页 > 网易号 > 正文 申请入驻

Stability、Mistral、Databricks、通义、A21 Labs开源五连招,其中三个是MoE!|大模型一周大事

0
分享至


大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。 InfoQ研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,开源领域五模型先后问世,Stability AI 开源了 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model, Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,A21 Labs 宣布开源 MoE 大模型 Jamba。其中,DBRX、Qwen1.5-MoE-A2.7B 和 Jamba 都是 MoE 模型(混合专家模型)。自从去年关于 GPT-4 的爆料和下半年 Mistral AI 开源了其 Mixtal-8×7B-MoE 模型,在广泛的关注下,MoE 成为了大语言模型的一个重要研究方向。MoE 本质是将计算负载分配给专门处理特定任务的专家,术业有专攻,这种方式不仅有利于模型进行更高效的预训练和推理速度,还有助于提升模型处理复杂任务的能力。我们也期待更加高效的模型架构,为 AI 带来更多的可能性。

二、具体内容

大模型持续更新

距离 Grok-1 的发布仅过去一周,3 月 29 日,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,并优化了数学和代码相关任务中的性能。

多模态领域


  1. 华中科技大学和金山的研究人员在最新的研究《TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document》中提出了一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型 TextMonkey。在多个场景文本和文档的测试中,TextMonkey 处于国际领先地位,在办公自动化、智慧教育、智慧金融等行业有着强大的应用潜力。

  2. Suno 团队近日推出的 V3 模型首次实现了生成广播质量的音乐。它可以根据简单的提示创建从歌词到人声和配器的所有内容,甚至可以引导它准确选择想要的流派,从三角洲蓝调(Delta Blues)到电子寒潮,还可以变换方言。

  3. 来自理海大学、微软研究院的研究者在最新的研究《Mora: Enabling Generalist Video Generation via A Multi-Agent Framework》提出了一种多智能体框架 Mora,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。广泛的实验结果表明,Mora 在各种任务中达到了接近 Sora 的性能。然而,当从整体上评估时,Mora 与 Sora 之间存在明显的性能差距。

  4. Picsart AI Resarch 等多个机构联合提出了一种新的文生视频方法:StreamingT2V。这也是一种自回归方法,并配备了长短期记忆模块,进而可以生成具有时间一致性的长视频。据了解,生成的视频帧数可达 1200 帧,时间可达 2 分钟。相关研究成果发布在论文《StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text》中。

  5. 3 月 27 日,创新奇智在北京举办的发布会上发布了更为强大的奇智孔明工业大模型 2.0 版本( AInno-75B )。这款大型模型拥有处理多种信息形态的能力,涵盖了文本、图像和视频等。它甚至能够整合工业场景中特有的数据类型,例如计算机辅助设计(CAD)图纸和脑电图(EEG)信号。其输出同样具有多样性,可以生成包括文本、图像、视频、计算机辅助设计图以及具体操作行为等多种形式的信息。


开源领域


  1. 3 月 25 日,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。这是一个基于 Stable Code 3B 的指令调整编码语言模型。给出自然语言 prompt,该模型可以处理各种任务,例如代码生成、数学和其他软件工程相关的任务。这款模型不仅增强了代码补全能力,还支持自然语言交互,旨在提高编程和软件开发相关任务的效率和直观性。

  2. 3 月 25 日,Mistral AI 宣布 Mistral 7B v0.2 Base Model 开源,其是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型。此次更新主要包括三个方面:① 将 8K 上下文提到了 32K;② Rope Theta = 1e6;③ 取消滑动窗口。据了解,此次开放基础模型之后,开发者们就可以根据自己的需求进行微调了。

  3. 3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

  4. 3 月 28 日,通义千问团队发布了他们的第一个 MoE 模型,Qwen1.5-MoE-A2.7B。模型大小缩小三分之一,性能却并未折损。同时,相比 Qwen1.5-7B,Qwen1.5-MoE-A2.7B 的训练成本降低了 75%,推理速度则提升了 1.74 倍。

  5. 3 月 29 日,A21 Labs 宣布开源 520 亿参数的全新 MOE 大模型 Jamba,支持 256K 的上下文长度。


科研领域


  1. 同济大学和中国科学院的研究团队开发了一种机器学习预测器 PSPIre,它结合了残基级和结构级特征,用于精确预测相分离蛋白质(PSP)。同时,各种数据集的评估表明,该模型在将 noID-PSP 与非 PSP 进行分类方面显著优于当前的预测器。相关研究成果撰写在论文《Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions》中。

  2. 跨维智能、香港中文大学(深圳)及华南理工大学的研究人员在《SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation》中创新性地提出了 SAM-6D 框架,该框架在零样本条件下实现 6D 物体姿态估计。它利用零样本分割技术生成候选对象,并借助独特的物体匹配分数来识别目标物体。此外,SAM-6D 将姿态估计转化为局部到局部的点集匹配问题,通过引入 Background Token 设计和两阶段点集匹配模型,为任意物体的姿态估计提供了有效的解决方案。

应用探索

新产品新应用 / 功能


  1. 阿里通义千问重磅升级,向所有人免费开放 1000 万字的长文档处理功能,成为全球文档处理容量第一的 AI 应用。所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和 APP 快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。

  2. 淘宝天猫集团自研大模型“淘宝星辰”官网已经上线,预计布局之后向公众开放。淘宝星辰的训练数据库中有大量电商消费数据,据推测将会为用户提供面向电商和生活服务场景增强的文案生成、多轮会话、知识问答、智能决策等能力。

  3. 百度智能云最近一口气升级了 7 个大模型企业级应用,并且全部推出 SaaS 版本,企业在网页端即可使用,无需进行复杂的部署和配置,真正实现了开箱即用。这一举措将大大降低企业使用大模型的门槛,推动大模型技术在企业中的普及和应用。这 7 个应用分别是百度智能云曦灵数字人平台、百度智能云客悦智能客服平台、内容创作平台“一念”、知识管理平台“甄知”、超级办公入口“超级助理”、生成式 BI 产品“百度 GBI”、代码助手“Baidu Comate”。


智能体


  1. 吉林大学、上海交通大学和伦敦大学学院合作提出了 DS-Agent,这一智能体的角色定位是一名数据科学家,其目标是在自动化数据科学中处理复杂的机器学习建模任务。技术层面上,团队采用基于案例的推理策略,赋予了智能体 “参考” 他山之石的能力,使其能够利用以往解决类似问题的经验来解决新问题。相关成果发表在《DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning》中。

  2. 立志成为 Cognition AI 的 Devin 的竞争性开源替代方案 Devika 已发布。Devika 拥有高级 AI 规划和推理能力,可以进行针对性的上下文关键词提取、多种编程语言的代码编写和动态代理状态跟踪和可视化,同时也可以无缝进行网络浏览和信息收集。当然,deviika 也可以通过聊天界面进行自然语言交互,并支持 Claude 3、GPT-4、GPT-3.5 和通过 Ollama 支持的本地语言模型。


终端 AI


  1. 3 月 26 日,2024 全新英特尔商用客户端AI PC产品发布会在北京举办,基于 ChatGLM 端侧模型打造的「智谱 AI PC 智能助手」也正式发布。该款智能助手是针对英特尔全新的酷睿 Ultra 处理器,在 ChatGLM 端侧模型的基础上训练、适配并部署的最新端侧 AI 模型,拥有高性能、低延迟的特点。在远程管理、安全防护、跨设备 IT 管理和运维等方面可为 PC 用户提供更加轻松、高效的 AI 体验。

  2. 3 月 28 日,阿里云与知名半导体公司 MediaTek 联发科联合宣布,通义千问 18 亿、40 亿参数大模型已成功部署进天玑 9300 移动平台,可离线流畅运行即时且精准的多轮 AI 对话应用,连续推理功耗增量不到 3W,实现了手机 AI 体验的大幅提升。


基础设施

3 月 28 日,云天励飞举办 AI 大模型产品发布会,正式发布“深目” AI 模盒,实现了算法在线学习、自我迭代。据介绍,该产品能够做到“3 个 90%”——覆盖场景超过 90%、算法精度超过 90%,使用成本降低 90 %。可以说真正地解决大模型在场景落地最后一公里的问题,帮助更多中小企业客户轻松使用大模型。

报告预告

Sora 来袭,国内如何迅速跟上?开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,其能力是否有所提升和刷新?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?InfoQ 研究中心即将发布的《2024 年第 1 季度大模型监测报告》,即将给出答案。


内容推荐

大模型应用挑战赛已拉开帷幕。现阶段,多数语言模型已完成 3 轮更新,大模型赛道入场券所剩无几。同时,2023 年超 200 款大模型产品问世,典型场景又有哪些产品动向?对于现阶段的文生图产品而言,四大维度能力究竟如何?以上问题的回答尽在《2023 年第 4 季度中国大模型季度监测报告》,欢迎大家扫码关注「 AI 前线」公众号,回复「 季度报告」领取。

AICon 全球人工智能与大模型开发与应用大会暨通用人工智能开发与应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

今天是会议 9 折购票阶段,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“80后”胡江辉,任厅长

“80后”胡江辉,任厅长

新京报政事儿
2024-05-31 19:01:00
周杰伦演唱会门票卖家违约“退一赔一”,有歌迷最高获赔一万八

周杰伦演唱会门票卖家违约“退一赔一”,有歌迷最高获赔一万八

上游新闻
2024-05-31 18:24:14
国民党主席朱立伦想访大陆,邱毅猜测:他或向大陆开出3个条件

国民党主席朱立伦想访大陆,邱毅猜测:他或向大陆开出3个条件

小郑户外赶海呀
2024-05-31 08:09:10
5月31日,工商银行储蓄利率更新:存入30万元,两年利息是多少?

5月31日,工商银行储蓄利率更新:存入30万元,两年利息是多少?

王五说说看
2024-05-31 07:21:10
外媒:中国将对恒大的审计公司普华施以创纪录罚款

外媒:中国将对恒大的审计公司普华施以创纪录罚款

头条爆料007
2024-05-31 17:46:55
稀缺金属第一龙头,比黄金稀有百倍,外资抄底买爆,未来潜力大

稀缺金属第一龙头,比黄金稀有百倍,外资抄底买爆,未来潜力大

落叶玫瑰
2024-05-29 12:58:44
他8次上春晚,作死被捕入狱,今55岁无人问津,老拍档也断了联系

他8次上春晚,作死被捕入狱,今55岁无人问津,老拍档也断了联系

兰子记
2024-05-12 17:25:35
21分大胜!独行侠4-1晋级,森林狼为什么打不过?苏群这话很实在

21分大胜!独行侠4-1晋级,森林狼为什么打不过?苏群这话很实在

刺头体育
2024-05-31 23:56:37
5月29日,马伊琍,官宣了!

5月29日,马伊琍,官宣了!

仙人掌说娱乐
2024-05-29 16:39:29
郑钦文:为大坂直美感到可惜,这是她复出以来打得最好的一场比赛

郑钦文:为大坂直美感到可惜,这是她复出以来打得最好的一场比赛

全网球APP
2024-05-31 10:21:40
三张图告诉你什么叫美的发光,鹤立鸡群。

三张图告诉你什么叫美的发光,鹤立鸡群。

小米虫侃人物
2024-05-14 17:07:26
紧急!即将登陆!厦门全市预警!下班赶紧回家

紧急!即将登陆!厦门全市预警!下班赶紧回家

鲁中晨报
2024-05-31 14:23:16
演员杨绣惠发文表明立场:我是台湾人,不赚人民币也能逍遥自在?

演员杨绣惠发文表明立场:我是台湾人,不赚人民币也能逍遥自在?

香蕉你个波娜娜
2024-05-29 20:31:31
江西萍乡上栗县一沿街楼房发生爆炸,有人员受伤

江西萍乡上栗县一沿街楼房发生爆炸,有人员受伤

界面新闻
2024-05-31 21:13:30
去了香港玩了三天,我真的要碎掉了

去了香港玩了三天,我真的要碎掉了

悠闲葡萄
2024-05-31 15:42:49
两位市委书记覃卫国、李中,同日晋升安徽省副省长

两位市委书记覃卫国、李中,同日晋升安徽省副省长

政知新媒体
2024-05-31 11:50:34
一纸问询函,股价一分钟闪崩跌停,吓尿了!

一纸问询函,股价一分钟闪崩跌停,吓尿了!

股海风云大作手
2024-05-31 19:05:53
2-5!意甲豪门轰然倒下!AC米兰已沦为二流,换帅解决不了问题

2-5!意甲豪门轰然倒下!AC米兰已沦为二流,换帅解决不了问题

体育世界
2024-05-31 21:28:29
“露内裤边”的网红式穿搭,到底带偏多少普通的中国女孩?

“露内裤边”的网红式穿搭,到底带偏多少普通的中国女孩?

潮人志Fashion
2024-05-30 18:25:08
米尔斯海默:TikTok是以色列的灾难!

米尔斯海默:TikTok是以色列的灾难!

芯怡飞
2024-05-31 00:05:58
2024-06-01 01:00:49
AI前线
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
164文章数 20关注度
往期回顾 全部

科技要闻

业务不卖了,字节跳动重新做游戏

头条要闻

江西上栗县一汽修店发生爆炸事故 已致3死25伤

头条要闻

江西上栗县一汽修店发生爆炸事故 已致3死25伤

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

证监会:对恒大地产罚款41.75亿

汽车要闻

外观内饰升级/六项权益 全新哈弗H6开启预售

态度原创

本地
手机
艺术
健康
公开课

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

手机要闻

好消息:iOS18 AI功能基本清晰!坏消息:正式版无缘!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版