EgoThink是清华大学提出的一个以第一人称为视角的视觉问答基准数据集。该数据集由700张图像组成,覆盖6个核心能力,并细分为12个维度。EgoThink来源于Ego4D第一人称视频数据集的采样图片,为保证数据多样性,每条视频最多只采样出两张图片。数据集图片同样经过了严格的筛选,只留下了拥有较好质量和能明显体现第一人称视角思考的图片。数据集采用人工标注,每个维度至少包含50条详细标注的问答问题,并来源于多个第一视角的现实场景。EgoThink的应用领域广泛,特别是在评估和提升VLMs在第一人称视角任务中的性能,为未来的具身人工智能和机器人研究提供了宝贵的资源。
详情请参见五号雷达:https://www.5radar.com/result?key=EgoThink
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.