划重点:
百度智能云宣布超级助理、Comate等7款产品全面saas化
马斯克表示本周内Grok将向X所有高级账户开放
微软工程师爆料 GPT-6已经开始训练
vivo AI 大模型升级,蓝心千询、vivo 办公套件开放下载
抖音发布不当利用 AI 治理公告
苹果 WWDC 定档6月10日,或将公布 AI 技术成果
商汤集团:2023年生成式AI收入达 12亿元 同比增长200%
麻省理工大学携手 Adobe 演示 DMD AI 技术
资讯详情:
百度智能云宣布超级助理、Comate等7款产品全面saas化
在百度今天举办的AI Cloud Day:大模型应用产品发布会上,百度宣布面向企业营销、对客服务、知识管理、数据洞察、代码编程等多个通用场景,推出了七大升级产品。
这七款产品分别是数字人平台百度智能云曦灵、智能客服平台百度智能云客悦、内容创作平台“一念”、知识管理平台“甄知”、超级办公入口“超级助理”、生成式BI产品“百度GBI”以及代码助手“Baidu Comate”。这七大产品已经实现了全面的SaaS化。
马斯克表示本周内Grok将向X所有高级账户开放
马斯克今天在X平台宣布,将在本周晚些时候向所有 X 平台的高级订阅用户开放聊天机器人 Grok。
Grok-1 模型已经在上周正式开源,该模型遵循 Apache 2.0 协议开放模型权重和架构,号称是“迄今为止全球参数量最大的开源大语言模型”。
微软工程师爆料 GPT-6已经开始训练
据认证用户Kyle Corbitt 在 X 平台上表示,OpenAI 已经启动了 GPT-6 的训练计划,且该计划部署了大规模GPU集群,使得微软的电网出现崩溃情况。
同时,OpenAI内部的消息曝光显示,GPT-5和GPT-6的训练早已开始,这表明了AI技术发展的持续进步。然而,尽管模型的能力不断提升,但它们仍未能达到AGI的标准,因为它们未解决量子引力问题。
vivo AI 大模型升级,蓝心千询、vivo 办公套件开放下载
据 vivo 官方消息,vivo 旗下的 AI 大模型 蓝星大模型迎来全新升级,整体数据量跨越式升级到端侧 7B+云侧 70B的超大组合。
据官方介绍,vivo自研蓝心大模型发布五个月,在权威榜单中依然保持中文能力第一,vivo自研蓝心大模型在手机行业首个荣获“信通院4星+可信AI大模型”认证,已覆盖超2000万用户。此外 vivo表示,蓝心大模型应用现在全面开放下载,不是 vivo 手机也能用,包括蓝心千询 AI 助手、vivo 办公套件都可以自行下载使用。
抖音发布不当利用 AI 治理公告
据抖音安全中心消息,抖音近期发现有不当使用AI技术生成虚拟人物发布内容的账号,平台进行了严厉处置。
抖音表示,针对违规使用AI生成虚拟人物的行为,平台会对违规视频下架,对违规账号进行取消其投稿和营利权限、抹除账号粉丝、封禁账号等处置,并利用模型、技术识别能力等手段,进行长期系统的识别发现和处置。
苹果 WWDC 定档6月10日,或将公布 AI 技术成果
据苹果官方消息,今年的苹果开发者大会 WWDC 2024 定在太平洋时间6月10日至6月14日。
据苹果表示,他们将会在6月10日在美国加州的 Apple Park 举办主题演讲,届时将公布苹果各项技术的最新进展。此外有消息称,苹果将会在本次 WWDC 上公布其 AI 技术成果。
商汤集团:2023年生成式AI收入达 12亿元 同比增长200%
商汤集团昨晚发布截至2023年12月31日经审核全年业绩。期内,集团生成式AI业务爆发式增长,收入达12亿元,同比增长200%。
商汤大模型基础设施大装置SenseCore总算力规模突破性增长至12000 petaFLOPS,运营GPU数量达4.5万卡。由此支持“日日新”大模型体系高速迭代至4.0版本,实现万卡万参的大模型训练能力,在基模型、多模态、编程和工具调用、百万字无损上下文、终端小模型方面都达到国内领先水平。
麻省理工大学携手 Adobe 演示 DMD AI 技术
麻省理工大学近日宣布,他们与Adobe 公司达成合作,研发出一项名为 DMD 的 AI 技术,可以在尽量不影响图像质量的情况下,加快图像生成速度。
DMD 技术的全称是 Distribution Matching Distillation,将多步扩散模型简化为一步图像生成解决方案。团队表示:“我们的核心理念是训练两个扩散(diffusion)模型,不仅能预估目标真实分布(real distribution)的得分函数,还能估计假分布(fake distribution)的得分函数。”
今日重点论文:
穆罕默德·本·扎耶德人工智能大学:
《Efficient Video Object Segmentation via Modulated Cross-Attention Memory》
文章提出了一种名为MAVOS的基于transformer的视频对象分割方法,旨在解决长视频GPU内存需求大的问题。MAVOS通过引入优化和动态的长期调制交叉注意力(MCA)内存来建模时间平滑性,而无需频繁扩展内存。该方法有效地编码各种粒度级别的局部和全局特征,同时在不同视频长度下保持一致的速度。
论文地址:
https://arxiv.org/html/2403.17937v1
马克斯普朗克计算机科学研究所:
《ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis》
该论文旨在解决多模态手势合成中语义对齐的问题,提出了一种基于扩散的方法,可以根据语音输入生成手势,并实现手势合成的可控性。该论文提出了两个指导目标,允许用户调节不同调节模态的影响,以及选择在手势过程中强调某些单词。这方法可以训练生成单一语音的手势,也可以生成交互手势,同时发布了包含5个人互动的6小时手势数据集。实验结果表明该方法在多种任务上有效,并提供了补充视频和开源代码。
论文地址:
https://arxiv.org/abs/2403.17936v1
复旦大学:
《OmniVid: A Generative Framework for Universal Video Understanding》
论文旨在解决视频理解任务中存在的模型架构和注释格式不一致的问题,提出一种基于语言标签和时间、框架标记的视频理解方法,使得不同类型的视频任务可以在同一编码器-解码器框架下进行处理。论文的关键思路是将不同类型的视频任务都转化为基于语言标签和时间、框架标记的生成任务,从而实现在同一编码器-解码器框架下进行处理。这种方法可以提高模型的泛化能力和可扩展性,并在多个视频任务数据集上取得了最先进或有竞争力的结果。
论文地址:
https://arxiv.org/abs/2403.17935v1
商汤科技:
《AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation》
本论文旨在提出一种全新的一步式框架AiOS,用于多种表现力人体姿态和形状恢复,无需额外的人体检测步骤。本文使用DETR作为基础模型,并在其基础上引入了解码器标记,扩展到人体姿态和形状恢复任务中。首先,使用一个人体标记来探测图像中的人体位置并为每个实例编码全局特征,为后续的变压器块提供粗略的位置。然后,引入一个关节相关标记来探测图像中的人体关节并编码细粒度的局部特征,与全局特征协同工作以回归整个身体网格。
论文地址:
https://arxiv.org/abs/2403.17934v1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.