网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

2024-03-05 01:02:10　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。

每个人想要的大模型，是真·智能的那种......

这不，谷歌团队就做出来了一个强大的「读屏」AI。

研究人员将其称为ScreenAI，是一种理解用户界面和信息图表的全新视觉语言模型。

论文地址：https://arxiv.org/pdf/2402.04615.pdf

ScreenAI的核心是一种新的屏幕截图文本表示方法，可以识别UI元素的类型和位置。

值得一提的是，研究人员使用谷歌语言模型PaLM 2-S生成了合成训练数据，以训练模型回答关屏幕信息、屏幕导航和屏幕内容摘要的问题。

举个栗子，比如打开一音乐APP页面，可以询问「有几首歌时长少于30秒」？

ScreenAI便给出了简单的答案：1。

再比如命令ScreenAI打开菜单，就可以选中。

架构灵感来源——PaLI

图1中展示了ScreenAI模型架构。研究人员受到了PaLI系列模型架构（由一个多模态编码器块组成）的启发。

该编码器块包含一个类似ViT的视觉编码器和一个消费图像（consuming image）和文本输入的mT5语言编码器，后接一个自回归解码器。

输入图像通过视觉编码器转化为一系列嵌入，这些嵌入与输入文本嵌入结合，一起输入mT5语言编码器。

编码器的输出传递给解码器，生成文本输出。

这种泛化公式能够使用相同的模型架构，解决各种视觉和多模态任务。这些任务可以重新表述为文本+图像（输入）到文本（输出）的问题。

与文本输入相比，图像嵌入构成了多模态编码器输入长度的重要部分。

简而言之，该模型采用图像编码器和语言编码器提取图像与文本特征，将二者融合后输入解码器生成文本。

这种构建方式可以广泛适用于图像理解等多模态任务。

另外，研究人员还进一步扩展了PaLI的编码器-解码器架构，以接受各种图像分块模式。

原始的PaLI架构只接受固定网格模式的图像块来处理输入图像。然而，研究人员在屏幕相关领域遇到的数据，跨越了各种各样的分辨率和宽高比。

为了使单个模型能够适应所有屏幕形状，有必要使用一种适用于各种形状图像的分块策略。

为此，谷歌团队借鉴了Pix2Struct中引入的一种技术，允许根据输入图像形状和预定义的最大块数，生成任意网格形状的图像块，如图1所示。

这样能够适应各种格式和宽高比的输入图像，而无需对图像进行填充或拉伸以固定其形状，从而使模型更通用，能够同时处理移动设备（即纵向）和台式机（即横向）的图像格式。

模型配置

研究人员训练了3种不同大小的模型，包含670M、2B和5B参数。

对于670M和2B参数模型，研究人员从视觉编码器和编码器-解码器语言模型的预训练单峰检查点开始。

对于5B参数模型，从 PaLI-3的多模态预训练检查点开始，其中ViT与基于UL2的编码器-解码器语言模型一起训练。

表1中可以看到视觉和语言模型之间的参数分布情况。

自动数据生成

研究人员称，模型开发的预训练阶段很大程度上，取决于对庞大且多样化的数据集的访问。

然而手动标注广泛的数据集是不切实际的，因此谷歌团队的策略是——自动数据生成。

这种方法利用专门的小模型，每个模型都擅长高效且高精度地生成和标记数据。

与手动标注相比，这种自动化方法不仅高效且可扩展，而且还确保了一定程度的数据多样性和复杂性。

第一步是让模型全面了解文本元素、各种屏幕组件及其整体结构和层次结构。这种基础理解对于模型准确解释各种用户界面并与之交互的能力至关重要。

这里，研究人员通过爬虫应用程序和网页，从各种设备（包括台式机、移动设备和平板电脑）收集了大量屏幕截图。

然后，这些屏幕截图会使用详细的标签进行标注，这些标签描述了UI 元素、它们的空间关系以及其他描述性信息。

此外，为了给预训练数据注入更大的多样性，研究人员还利用语言模型的能力，特别是PaLM 2-S分两个阶段生成QA对。

首先生成之前描述的屏幕模式。随后，作者设计一个包含屏幕模式的提示，指导语言模型生成合成数据。

经过几次迭代后，可以确定一个有效生成所需任务的提示，如附录C所示。

为了评估这些生成响应的质量，研究人员对数据的一个子集进行了人工验证，以确保达到预定的质量要求。

该方法在图2中进行了描述，大大提升预训练数据集的深度与广度。

通过利用这些模型的自然语言处理能力，结合结构化的屏幕模式，便可以模拟各种用户交互和情景。

两组不同任务

接下来，研究人员为模型定义了两组不同的任务：一组初始的预训练任务和一组后续的微调任务。

这两组的区别主要在于两个方面：

- 真实数据的来源：对于微调任务，标记由人类评估者提供或验证。对于预训练任务，标记是使用自监督学习方法推断的或使用其他模型生成的。

- 数据集的大小：通常预训练任务包含大量的样本，因此，这些任务用于通过更扩展的一系列步骤来训练模型。

表2显示所有预训练任务的摘要。

在混合数据中，数据集按其大小按比例加权，每个任务允许的最大权重。

将多模态源纳入多任务训练中，从语言处理到视觉理解和网页内容分析，使模型能够有效处理不同的场景，并增强其整体多功能性和性能。

研究人员在微调期间使用各种任务和基准来估计模型的质量。表3总结了这些基准，包括现有的主要屏幕、信息图表和文档理解基准。

实验结果

图4显示了ScreenAI模型的性能，并将其与各种与屏幕和信息图形相关的任务上的最新SOT结果进行了比较。

可以看到，ScreenAI在不同任务上取得的领先性能。

在表4中，研究人员呈现了使用OCR数据的单任务微调结果。

对于QA任务，添加OCR可以提高性能（例如Complex ScreenQA、MPDocVQA和InfoVQA上高达4.5%）。

然而，使用OCR会稍微增加输入长度，从而导致整体训练速度更慢。它还需要在推理时获取OCR结果。

另外，研究人员使用以下模型规模进行了单任务实验：6.7亿参数、20亿参数和50亿参数。

在图4中可以观察到，对于所有任务，增加模型规模都可以改进性能，在最大规模下的改进还没有饱和。

对于需要更复杂的视觉文本和算术推理的任务（例如InfoVQA、ChartQA和Complex ScreenQA），20亿参数模型和50亿参数模型之间的改进明显大于6.7亿参数模型和20亿参数模型。

最后，图5显示了，对于长宽比>1.0的图像（横向模式图像），pix2struct分割策略明显优于固定网格分割。

对于纵向模式图像，趋势相反，但固定网格分割仅稍微好一些。

鉴于研究人员希望ScreenAI模型能够在不同长宽比的图像上使用，因此选择使用pix2struct分割策略。

谷歌研究人员表示，ScreenAI模型还需要在一些任务上进行更多研究，以缩小与GPT-4和Gemini等更大模型的差距。

参考资料：

https://the-decoder.com/googles-screenai-reliably-navigates-smartphone-screens/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

机器之心Pro 2024-03-07 15:09:59
0 跟贴 0

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
0 跟贴 0

李彦宏，西二旗新卷王

市界 2024-02-10 17:08:12
0 跟贴 0
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0

奥特曼：GPT5性能远超GPT4，OpenAI不怕copy

华尔街见闻官方 2024-04-26 11:13:10
12 跟贴 12

普通人终于能感觉到大模型有啥用了

虎嗅APP 2023-11-02 19:01:48
114 跟贴 114
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
217 跟贴 217

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

机器之心Pro 2023-11-29 15:35:14
22 跟贴 22
PyTorch团队重写「分割一切」模型，比原始实现快8倍

机器之心Pro 2023-11-22 11:44:54
17 跟贴 17
字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

量子位 2023-11-04 13:47:32
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
6 跟贴 6
这台新机一发布，全世界垃圾佬都得疯

雷科技 2024-01-25 21:32:36
218 跟贴 218
扎克伯格,决定掀桌子了

虎嗅APP 2024-04-25 16:41:07
66 跟贴 66
Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

量子位 2024-03-04 16:53:32
27 跟贴 27
GPT-4V学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

量子位 2023-11-04 13:48:01
212 跟贴 212
再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

机器之心Pro 2023-12-21 16:39:08
6 跟贴 6
布林肯二度访华，望不虚此行！他能带回什么？

新民晚报 2024-04-27 09:45:19
2139 跟贴 2139
GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
3 跟贴 3
CBA最新消息！郭艾伦正式回归，深圳放弃周鹏，山西有意孙铭徽！

中国篮坛快讯 2024-04-27 14:31:21
1252 跟贴 1252
28岁华人Meta软件工程师辞去37万美元工作，理由竟是

新智元 2023-11-05 12:49:48
0 跟贴 0
独行侠2-1快船卡椒仅16分威少1分&被驱逐东契奇22+10

网易体育 2024-04-27 10:49:06
3472 跟贴 3472
河北一屋顶遭铅球般大小冰雹持续猛砸 “杀伤力巨大”

奇闻吉 2024-04-27 15:47:17
4499 跟贴 4499
记者实测苹果手机输入"发现石油"会自动定位:安卓也是

南方都市报 2024-04-25 08:08:16
6463 跟贴 6463
Adobe Photoshop 图像处理软件下载；ps全版本资源包齐全！！！

周博桥 2024-04-26 17:17:31
4 跟贴 4
上海一处新楼盘民宿扎堆业主：陌生人24小时频繁进出

上观新闻 2024-04-27 11:41:56
4662 跟贴 4662
外媒爆料：美军竟然在偷偷使用北斗导航原来中国已大幅超越GPS

军评陈光文 2024-04-27 09:49:56
1313 跟贴 1313
爷爷临终前在监控下叫孙女名字：小林啊明天我要走了

爆料视频 2024-04-27 08:05:20
4816 跟贴 4816
网易号平台每日辟谣公告（四月二十七日第一则）

网易号官方平台 2024-04-27 11:54:00
3083 跟贴 3083
消息称哈马斯和法塔赫26日在北京会面外交部回应

环球网 2024-04-26 16:24:19
589 跟贴 589
再这么搞下去，失业的人只会越来越多！政府该做些什么？

鹏飞深文 2024-04-27 13:40:46
270 跟贴 270
外媒：哥大理事会通过决议批评管理层阻止学生抗议，“违背常春藤盟校传统”

环球网资讯 2024-04-27 09:46:18
1872 跟贴 1872
5月初奔月嫦娥六号完成垂直转运

央视新闻客户端 2024-04-27 10:34:02
3325 跟贴 3325
进一步规范电动自行车充电停放！本市发布出台《电动自行车集中充电和停放场所设计标准》

上观新闻 2024-04-27 08:08:10
438 跟贴 438
大妈街头卖蔬菜遭城管劝离下一秒摆好姿势唱起歌

爆料视频 2024-04-27 18:19:10
0 跟贴 0
弹药供应到位乌军两架战机齐出猛轰俄军阵地

火炼树 2024-04-27 17:53:27
0 跟贴 0
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
0 跟贴 0
俄罗斯冻结美国最大银行在俄资产！乌方：俄乌冲突以来已获得854亿美元财政援助

每日经济新闻 2024-04-27 00:24:09
13 跟贴 13
“花满庭”（郴州四合院）建成图片

新民居四合院 2024-04-27 09:34:58
2 跟贴 2
时隔18年广东最大水库新丰江水库开闸泄洪

新京报 2024-04-27 16:52:09
899 跟贴 899

被新疆淘汰，郭士强摊牌发声，官宣决定，去向曝光，辽宁期待

被新疆淘汰，郭士强摊牌发声，官宣决定，去向曝光，辽宁期待

东球弟

2024-04-27 07:43:57

用小腿肌肉顶一罐可乐，格拉利什花式官宣自己成为百事代言人

用小腿肌肉顶一罐可乐，格拉利什花式官宣自己成为百事代言人

懂球帝

2024-04-26 20:40:15

悲情！"墨西哥吴镇宇",38岁奥乔亚十年内在法西意3支球队降级

悲情！"墨西哥吴镇宇",38岁奥乔亚十年内在法西意3支球队降级

直播吧

2024-04-27 07:49:21

广东卫健系统三任前一把手被查，一局长被点名“吃高档菜肴”

广东卫健系统三任前一把手被查，一局长被点名“吃高档菜肴”

澎湃新闻

2024-04-27 13:32:27

金靖回应不官宣结婚原因，大赞老公舒奕橙温柔，孩子代号首曝光

金靖回应不官宣结婚原因，大赞老公舒奕橙温柔，孩子代号首曝光

扒虾侃娱

2024-04-25 20:46:34

聊聊易建联移居美国

阿牛体育说

2024-04-26 17:09:26

无意间在网上看到了一张饭票，这也许可以反击很多人的观点！

无意间在网上看到了一张饭票，这也许可以反击很多人的观点！

翻开历史和现实

2024-04-17 08:53:37

准备打仗？好消息传来，中国五大军种有新变化，国防部捅破窗户纸

准备打仗？好消息传来，中国五大军种有新变化，国防部捅破窗户纸

朝晖前哨

2024-04-25 10:11:59

他弃医从政，曾担任上海副市长，现任湖南省委书记，百姓的父母官

他弃医从政，曾担任上海副市长，现任湖南省委书记，百姓的父母官

蹲马桶看历史

2024-04-27 17:26:27

有网友总结：在中国，想失业比考北大还要难，真正符合失业标准的少之又少！

有网友总结：在中国，想失业比考北大还要难，真正符合失业标准的少之又少！

可达鸭面面观

2024-04-26 18:55:09

布林肯：美国会在乌克兰局势背景下对中国采取新制裁

布林肯：美国会在乌克兰局势背景下对中国采取新制裁

周观环宇

2024-04-27 00:50:04

局部降温10℃！山东迎新一波冷空气！这些地区有雨，阵风7级

局部降温10℃！山东迎新一波冷空气！这些地区有雨，阵风7级

鲁中晨报

2024-04-27 18:37:05

当代第一阳谋！“借警寻妻”迎来终极反转，丈夫以身入局堪称一绝

当代第一阳谋！“借警寻妻”迎来终极反转，丈夫以身入局堪称一绝

金哥说新能源车

2024-04-27 17:22:05

65个国家都收到了“邀请函”，却唯独没有中国，中方正式表态

65个国家都收到了“邀请函”，却唯独没有中国，中方正式表态

慢聊的历史

2024-04-26 14:21:34

林彪的最后24小时：秘书李文普不愿当叛徒，中途跳车遭林立果枪击

林彪的最后24小时：秘书李文普不愿当叛徒，中途跳车遭林立果枪击

拙言问史

2024-04-25 17:15:21

脸都被打肿了！俄罗斯征兵官员说漏嘴：以目前兵力，我们无法应付

脸都被打肿了！俄罗斯征兵官员说漏嘴：以目前兵力，我们无法应付

娱宙观

2024-04-27 09:30:22

私人影院提供特色观影服务？我试图前往体验，却发现掉入桃色陷阱

私人影院提供特色观影服务？我试图前往体验，却发现掉入桃色陷阱

亲爱的落落

2024-04-15 10:57:58

就在刚刚，A股突发王炸消息，原来上涨只是开始，下周将惊天巨浪

就在刚刚，A股突发王炸消息，原来上涨只是开始，下周将惊天巨浪

彩云的夕阳

2024-04-27 18:57:12

震惊我！汪峰居然秃着后脑勺去看车展了！笑晕在网友的评论区里！

震惊我！汪峰居然秃着后脑勺去看车展了！笑晕在网友的评论区里！

小娱乐悠悠

2024-04-27 09:13:17

太会玩了！以收购为名狂拉11个涨停，接着宣布收购失败大割韭菜！

太会玩了！以收购为名狂拉11个涨停，接着宣布收购失败大割韭菜！

云姐闲聊

2024-04-27 08:42:52

AI产业主平台领航智能+时代

10963文章数 65460关注度

往期回顾全部

科技要闻

特斯拉这款车型刚上市几天，就上调价格

头条要闻

林生斌行程信息被公布引发官司其曾宣布再婚生女被骂

头条要闻

林生斌行程信息被公布引发官司其曾宣布再婚生女被骂

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富海狮 07EV正式到店

态度原创

时尚

艺术

本地

数码

家居

容貌玄学，适合我这样的普通人

艺术要闻

画廊周北京迎来第八年， “漂留” 主题聚集 30 余家艺术机构与 40 场展览

本地新闻

蛋友碰碰会空降西安！5.1山海境等你！

数码要闻

达墨将推出 3.5 英寸移动硬盘：8TB 版本 799元，20TB 版本2399元

家居要闻

光影之间空间暖意打造生活律动

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版