网易首页 > 网易号 > 正文 申请入驻

清华团队提出“智能体医院”:医生智能体可实现自我进化|大模型周报

0
分享至


本周值得关注的大模型 / AIGC 前沿研究:

  • 清华团队提出“智能体医院”:医生智能体可实现自我进化

  • 清华、智谱AI 团队推出无限超分辨率模型 Inf-DiT

  • 具有 3D 理解能力的语言-图像模型

  • 清华、智谱AI 团队推出代码评测基准 NaturalCodeBench

  • 美团提出视频生成模型 Matten,采用 Mamba-Attention 架构

  • 注意力驱动的免训练扩散模型效率提升

  • IBM 推出开源代码大模型 Granite

  • AWS 团队提出基于目标的幻觉基准 THRONE

  • “文生视频”新研究:多场景文生视频的时间对齐字幕

  • StyleMamba:高效文本驱动图像风格迁移的状态空间模型

想要第一时间获取每日最新大模型热门论文? 扫描下方二维码,加入「大模型技术分享群」。 或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。

1.清华团队提出“智能体医院”:医生智能体可实现自我进化

在这项工作中,来自清华大学的研究团队提出了一种名为“智能体医院”(Agent Hospital)的模拟医院,它可以模拟治疗疾病的整个过程。其中,所有病人、护士和医生都是由大型语言模型(LLM)驱动的自主智能体。

该研究的核心目标是让医生智能体学会如何在模拟环境中治疗疾病。为此,研究团队提出了一种名为 MedAgent-Zero 的方法。由于仿真系统可以根据知识库和 LLM 模拟疾病的发生和发展,医生智能体可以不断从成功和失败的病例中积累经验。

模拟实验表明,医生智能体在各种任务中的治疗效果都在不断提高。更有趣的是,医生智能体在“智能体医院”中获得的知识适用于现实世界的医疗保健基准。在治疗了约一万名患者后(现实世界中的医生可能需要花费两年多的时间),进化后的医生智能体在涵盖主要呼吸系统疾病的 MedQA 数据集子集上达到了 93.06% 的准确率。

论文链接:

https://arxiv.org/abs/2405.02957


2.清华、智谱AI 团队推出无限超分辨率模型 Inf-DiT

近年来,扩散模型在图像生成方面表现出了卓越的性能。然而,由于在生成超高分辨率图像(如 4096*4096)的过程中内存会二次增加,生成图像的分辨率往往被限制在 1024*1024。

在这项工作中,来自清华和智谱AI 的研究团队提出了一种单向块(unidirectional block)注意力机制,其可以在推理过程中自适应地调整内存开销,并处理全局依赖关系。在此模块的基础上,他们采用 DiT 结构进行上采样,并开发了一种无限超分辨率模型,能够对各种形状和分辨率的图像进行上采样。

综合实验表明,这一模型在生成超高分辨率图像方面达到了机器和人工评估的 SOTA 性能。与常用的 UNet 结构相比,这一模型在生成 4096*4096 图像时可以节省 5 倍以上的内存。

论文链接:

https://arxiv.org/abs/2405.04312


3.具有 3D 理解能力的语言-图像模型

多模态大型语言模型(MLLMs)在各种 2D 视觉和语言任务中表现出了惊人的能力。来自德州大学奥斯汀分校、英伟达的研究团队将 MLLM 的感知能力扩展进了 3D 空间的图像基准(ground)和推理。

他们首先开发了一个大规模的 2D 和 3D 预训练数据集——LV3D,该数据集将现有的多个 2D 和 3D 识别数据集结合在一个共同的任务表述下:作为多轮问题解答;然后,他们提出了一种名为 Cube-LLM 的新型 MLLM,并在 LV3D 上对其进行了预训练。研究表明,纯粹的数据缩放可以产生强大的 3D 感知能力,而无需特定的 3D 架构设计或训练目标。

另外,Cube-LLM 具有与 LLM 相似的特性:1)Cube-LLM 可以应用思维链提示,从 2D 上下文信息中提高 3D 理解能力;2)Cube-LLM 可以遵循复杂多样的指令,并适应多种输入和输出格式;3)Cube-LLM 可接受视觉提示,如专家提供的 2D box 或一组候选 3D box。

室外基准测试表明,Cube-LLM 在 3D 基础推理 Talk2Car 数据集和复杂驾驶场景推理 DriveLM 数据集上的表现,明显优于现有基准,分别比 AP-BEV 高出 21.3 分和 17.7 分。此外,Cube-LLM 还在 MLLM 基准(如用于 2D 基础推理的 refCOCO)以及视觉问题解答基准(如用于复杂推理的 VQAv2、GQA、SQA、POPE 等)中显示出具有竞争力的结果。

论文链接:

https://arxiv.org/abs/2405.03685

项目地址:

https://janghyuncho.github.io/Cube-LLM/


4.清华、智谱AI 团队推出代码评测基准 NaturalCodeBench

大型语言模型(LLM)在为生产活动生成代码方面表现出强大的能力。然而,目前的代码合成基准,如 HumanEval、MBPP 和 DS-1000,主要面向算法和数据科学的入门任务,不能充分满足现实世界中普遍存在的编码挑战要求。

为了填补这一空白,来自清华大学和智谱AI 的研究团队提出了自然代码基准(NaturalCodeBench,简称 NCB),这是一个具有挑战性的代码基准,旨在反映真实编码任务的复杂性和场景的多样性。

据介绍,NCB 由 402 个 Python 和 Java 中的高质量问题组成,这些问题都是从在线编码服务的自然用户查询中精心挑选出来的,涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难,他们还提出了一个半自动化管道,从而提高测试用例构建的效率。与人工解决方案相比,其效率提高了 4 倍多。

他们在 39 个 LLM 上进行的系统实验发现,HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大,这表明我们对实际代码合成场景缺乏关注,或者对 HumanEval 进行了过度优化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。

论文链接:

https://arxiv.org/abs/2405.04520

GitHub 地址:

https://github.com/THUDM/NaturalCodeBench


5.美团提出视频生成模型 Matten,采用 Mamba-Attention 架构

在这项工作中,来自美团的研究团队提出了一种采用 Mamba-Attention 架构、用于视频生成的潜在扩散模型——Matten。Matten 采用空间-时间注意力进行局部视频内容建模,采用双向 Mamba 进行全局视频内容建模,计算成本低。

综合实验评估表明,在基准性能方面,Matten 与当前基于 Transformer 和 GAN 的模型相比具有很强的竞争力,可获得更高的 FVD 分数和效率。此外,他们还观察到所设计模型的复杂度与视频质量的改善之间存在直接的正相关关系,这表明 Matten 具有出色的可扩展性。

论文链接:

https://arxiv.org/abs/2405.03025

6.注意力驱动的免训练扩散模型效率提升

扩散模型(DMs)在生成高质量和多样化的图像方面表现出优越的性能。

然而,这种卓越的性能以昂贵的架构设计为代价,特别是在领先模型中大量使用了 attention 模块。现有工作主要采用再训练流程来提高数据挖掘效率。这在计算上是昂贵的,且不太可扩展。

为此,来自普林斯顿大学和 Adobe 的研究团队提出了注意力驱动的免训练高校扩散模型(AT-EDM)框架,其利用注意力图来执行冗余 Token 的运行时修剪,而不需要任何再训练。具体来说,对于单步去噪修剪,他们开发了一种新的排序算法—— 通用加权页面排序(G-WPR),从而识别冗余的 Token,以及一种基于相似性的方法去恢复卷积操作的 Token。此外,他们还提出了一种去噪步骤感知的剪枝(DSAP)方法,来调整不同去噪时间步的剪枝预算,从而获得更好的生成质量。

广泛的评估表明,AT-EDM 在效率方面优于现有技术(例如,与 Stable Diffusion XL 相比,节省了 38.8% 的 FLOPs 和高达 1.53 倍的加速),同时保持与完整模型几乎相同的 FID 和 CLIP 分数。

论文链接:

https://arxiv.org/abs/2405.05252

GitHub 地址:

https://atedm.github.io/

7.IBM 推出开源代码大模型 Granite

经过代码训练的大型语言模型(LLM)正在彻底改变软件开发过程。为了提高人类程序员的工作效率,越来越多的代码 LLM 被集成到软件开发环境中,而基于 LLM 的智能体也开始显示出自主处理复杂任务的前景。要充分发挥代码 LLM 的潜力,需要具备广泛的能力,包括代码生成、修复错误、解释和维护资源库等。

在这项工作中,IBM 团队提出了用于代码生成任务的纯解码器 Granite 系列代码模型,这些模型是用 116 种编程语言编写的代码训练而成的,由大小从 30 亿到 340 亿个参数不等的模型组成,适用于从复杂的应用现代化任务到设备内存受限用例等各种应用。

对一整套任务的评估表明,在现有的开源代码 LLM 中,Granite 代码模型的性能始终处于领先水平。另外,Granite 代码模型系列针对企业软件开发工作流程进行了优化,在一系列编码任务(如代码生成、修正和解释)中表现出色。此外,团队已在 Apache 2.0 许可下发布了所有 Granite 代码模型,供研究和商业使用。

论文链接:

https://arxiv.org/abs/2405.04324

8.AWS 团队提出基于目标的幻觉基准 THRONE

在大型视觉语言模型(LVLM)中减少幻觉仍然是一个未解决的问题。目前的基准并没有解决开放式自由回答中的幻觉问题, 即“第一类幻觉”,相反,其关注的是对非常具体的问题格式做出反应的幻觉——通常是关于特定对象或属性的多项选择反应——即“第二类幻觉”。此外,此类基准通常需要外部 API 调用模型,而这些模型可能会发生变化。

在实践中,来自 AWS 和牛津大学的研究团队发现,减少第二类幻觉并不会导致第一类幻觉的减少,相反,这两种形式的幻觉往往互不相关。为了解决这个问题,他们提出了 THRONE,这是一个基于对象的新型自动框架,用于定量评估 LVLM 自由形式输出中的第一类幻觉。

他们使用公共语言模型来识别 LVLM 反应中的幻觉,并计算相关指标。通过使用公共数据集对大量最新的 LVLM 进行评估,他们发现,现有指标的改进并不会导致第一类幻觉的减少,而且现有的第一类幻觉测量基准并不完整。最后,他们提供了一种简单有效的数据增强方法,从而减少第一类和第二类幻觉,并以此作为强有力的基准。

论文链接:

https://arxiv.org/abs/2405.05256


9.“文生视频”新研究:多场景文生视频的时间对齐字幕

文生视频(T2V)模型可以在文本提示的条件下生成高质量的视频。这些 T2V 模型通常产生单场景视频片段,描述执行特定动作的实体(比如,一只小熊猫爬树)。然而,生成多场景视频是非常重要的,因为它们在现实世界中无处不在(比如,一只小熊猫爬上树,然后睡在树顶上)。

为了从预训练的 T2V 模型生成多场景视频,来自加州大学洛杉矶分校和谷歌的研究团队提出了时间对齐字幕(TALC)框架,增强了 T2V 模型中的文本条件作用机制,从而识别视频场景和场景描述之间的时间对齐。例如,他们用第一个场景描述(一只小熊猫在爬树)和第二个场景描述(小熊猫睡在树顶上)的表示对生成视频的早期和后期场景的视觉特征进行条件约束。T2V 模型可以生成符合多场景文本描述的多场景视频,并在视觉上保持一致(如实体和背景)。

此外,他们使用 TALC 框架用多场景视频-文本数据对预训练的 T2V 模型进行微调。研究表明,用 TALC 微调的模型在总分数上比基线方法高出 15.5 分。

论文链接:

https://arxiv.org/abs/2405.04682

GitHub 地址:

https://talc-mst2v.github.io/


10.StyleMamba:高效文本驱动图像风格迁移的状态空间模型

来自帝国理工学院、芬兰奥卢理工大学和戴尔的研究团队提出了一种有效的图像风格迁移框架——StyleMamba,其能够将文本提示翻译为相应的视觉风格,同时保留原始图像的内容完整性。

现有的文本引导样式化需要数百次训练迭代,并且需要大量的计算资源。为加快这一过程,他们提出了一种条件状态空间模型 StyleMamba,用于有效的文本驱动图像风格迁移,按顺序将图像特征与目标文本提示对齐。为了增强文本和图像之间的局部和全局风格一致性,他们提出了掩码和二阶方向损失来优化风格化方向,将训练迭代次数显著减少5次,推理时间显著减少3次。

广泛的实验和定性评估证实,与现有的基线相比,所提出方法达到了 SOTA。

论文链接:

https://arxiv.org/abs/2405.05027


|点击关注我 记得标星|

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
理想汽车裁员切到“大动脉”?员工:好久没见过下午六点的天空!

理想汽车裁员切到“大动脉”?员工:好久没见过下午六点的天空!

火山诗话
2024-06-05 05:51:37
“80后”万东,拟升正厅

“80后”万东,拟升正厅

鲁中晨报
2024-06-05 20:47:09
再见孙颖莎!再见王楚钦!刘国梁意外决定,国乒六大奥运主力弃赛

再见孙颖莎!再见王楚钦!刘国梁意外决定,国乒六大奥运主力弃赛

室内设计师阿喇
2024-06-05 14:07:18
五竹的现代装,笑起来根本认不出,史上唯一不想他摘掉眼罩的人

五竹的现代装,笑起来根本认不出,史上唯一不想他摘掉眼罩的人

小飞象解说游戏
2024-06-05 05:33:10
杰伦布朗正式确立球队老大地位,塔图姆面临NBA生涯最大危机

杰伦布朗正式确立球队老大地位,塔图姆面临NBA生涯最大危机

热爱排球君
2024-06-05 22:43:42
小宝探花翻车记,部分视频堪称业内颜值巅峰

小宝探花翻车记,部分视频堪称业内颜值巅峰

挪威森林
2024-05-31 13:46:59
一生留下2首诗,只用一首击败李白和杜甫,被称为“孤篇盖全唐”

一生留下2首诗,只用一首击败李白和杜甫,被称为“孤篇盖全唐”

汉江忆史
2024-06-04 19:31:33
正式确认!广东队威姆斯签约新东家,名记:能找到工作就是好事

正式确认!广东队威姆斯签约新东家,名记:能找到工作就是好事

体育哲人
2024-06-05 20:43:33
因失恋接拍三级片,她被多少人男人存在硬盘?

因失恋接拍三级片,她被多少人男人存在硬盘?

华人星光
2024-06-02 15:17:31
将船拖走!中方下达最后通牒!西部战区司令被撤职,菲方彻底慌了

将船拖走!中方下达最后通牒!西部战区司令被撤职,菲方彻底慌了

慎独赢
2024-05-24 13:05:54
杠精!北京一家长大闹幼儿园,怒怼老师孩子有“特权”,网友抨击

杠精!北京一家长大闹幼儿园,怒怼老师孩子有“特权”,网友抨击

台球杂说
2024-06-05 17:59:03
浙大跌出前三,华科不敌西交!2025QS中国内地大学排行榜出炉

浙大跌出前三,华科不敌西交!2025QS中国内地大学排行榜出炉

智学园
2024-06-05 22:56:27
62岁退休阿姨的相亲标准:男人想娶我,就得满足我4个要求

62岁退休阿姨的相亲标准:男人想娶我,就得满足我4个要求

多久情感
2024-06-04 07:45:07
伊朗召见中国大使,抗议得很突然:望华考虑清楚!外交部回应来了

伊朗召见中国大使,抗议得很突然:望华考虑清楚!外交部回应来了

小豆豆赛事
2024-06-05 09:21:13
飞行嘉宾无视规定夜排导致跑男被举报,这个锅别想甩给常驻嘉宾!

飞行嘉宾无视规定夜排导致跑男被举报,这个锅别想甩给常驻嘉宾!

娱乐贴士站
2024-06-05 23:27:00
碧桂园紧急回应

碧桂园紧急回应

中国基金报
2024-06-05 20:03:11
哈兰德戴帽,挪威3-0完胜,球迷:想不通挪威为啥进不了欧洲杯

哈兰德戴帽,挪威3-0完胜,球迷:想不通挪威为啥进不了欧洲杯

侧身凌空斩
2024-06-06 04:03:24
森林北陪汪峰过儿童节!穿镂空休闲上衣配小白裤,真是又美又飒

森林北陪汪峰过儿童节!穿镂空休闲上衣配小白裤,真是又美又飒

点点细语
2024-06-02 22:25:40
台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

星辰故事屋
2024-05-24 20:01:38
刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

纸鸢奇谭
2024-05-15 12:21:33
2024-06-06 06:30:44
学术头条
学术头条
致力于学术传播和科学普及,重点关注人工智能、生命科学等前沿科学进展。
1014文章数 5023关注度
往期回顾 全部

科技要闻

9家车企拿到自动驾驶落地入场券,没特斯拉

头条要闻

9旬老人去世后被发现与小38岁保姆结婚 房产被过户

头条要闻

9旬老人去世后被发现与小38岁保姆结婚 房产被过户

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

员工证实周大福关闭深圳工厂

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

艺术
游戏
本地
公开课
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

杰夫推特:《野狗子》将出席夏日游戏节

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

公开课

近视只是视力差?小心并发症

军事要闻

乌方:俄乌冲突升级 所有“红线”不复存在

无障碍浏览 进入关怀版