品玩4月23日讯,据 marktechpost 报道,英伟达近日推出多模态视觉语言 AI 模型Eagle 2.5,模型性能堪比GPT-4O。
该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B,Eagle 2.5 在 Video-MME 基准测试(512 帧输入)中得分高达 72.4%,媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规模模型。
英伟达表示,Eagle 2.5-8B 在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图像基准测试中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.