Pinocchio数据集由清华大学、伊利诺伊大学芝加哥分校和剑桥大学的研究人员联合创建,旨在全面评估大型语言模型(LLMs)在事实知识存储与推理能力方面的表现。该数据集包含了20,000个多样化的事实问题,这些问题覆盖了不同的来源、时间线、领域、地区和语言。数据集涵盖了7个不同的任务来测试LLMs在多事实推理、处理结构化与非结构化知识、识别细微事实差异、抵抗对抗性示例等方面的能力。Pinocchio为研究人员提供了一个强大的工具,以理解模型在多个维度上的能力,并促进LLMs在事实知识方面的发展。
详情请参见五号雷达:https://www.5radar.com/result?key=Pinocchio
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.