本期为TechBeat人工智能社区第678期线上Talk。
北京时间4月17日(周四)20:00,加州大学圣克鲁兹分校博士生范越的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是:“图形用户界面智能体的任务规划与语意视觉定位”,届时他将介绍在设计一个能够高效、稳定地执行复杂任务的GUI智能体的过程中面临的两个核心问题——任务规划(Planning)和语义视觉定位(Grounding)。
Talk·信息
主题:图形用户界面智能体的任务规划与语意视觉定位
嘉宾:加州大学圣克鲁兹分校 · 博士生 - 范越
时间:北京时间4月17日(周四)20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
Talk·介绍
在现代人机交互中,图形用户界面(GUI)智能体正逐步从简单的自动化工具发展为具备自主决策和环境适应能力的智能系统。然而,设计一个能够高效、稳定地执行复杂任务的GUI智能体仍然面临诸多挑战,其中任务规划(Planning)和语义视觉定位(Grounding)是两个核心问题。
Talk大纲
本本次讲座将围绕这两个关键问题展开讨论,并介绍我们实验室在该领域的两个相关研究项目:
1.Agent S:旨在构建一个通用的智能体框架,使其能够像人类一样积累经验并自主规划操作用户界面
2.GUI-Bee:探索如何通过收集数据,让智能体在陌生的GUI环境中精准执行语意定位
Talk·预习资料
论文链接: https://arxiv.org/pdf/2410.08164
![]()
论文链接: https://arxiv.org/pdf/2501.13896
Talk·提问交流
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
范越
加州大学圣克鲁兹分校 · 博士生
范越是加州大学圣克鲁兹分校(UC Santa Cruz)计算机科学与工程(CSE)系的博士研究生,由 Prof. Xin Eric Wang 指导。他的主要研究方向包括多模态大语言模型(MLLM)、图形用户界面智能体(UI Agents)和具身智能(Embodied AI)。 他本科毕业于山东大学(自动化专业),随后在约翰霍普金斯大学(Johns Hopkins University)获得机器人学硕士学位。他的研究成果已发表在ACL、EMNLP等顶级会议。他曾参与了亚马逊Alexa Prize SocialBot Grand Challenge和Simbot Challenge,团队均取得了前三名的优异成绩。他曾在Adobe Research实习,专注于图形界面智能体的相关领域的研究。
个人主页: https://www.techbeat.net/grzytrkj?id=44376
-The End-
如果你也想成为讲者
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
预约本期Talk
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.