UltraSafety数据集由人民大学、清华大学和腾讯联合创建,旨在评估和提升大模型安全性。该数据集包含3,000个关于越狱的指令样本,每个样本都配有GPT-4给出的无害性评级,其中1表示无害,0表示有害。这些样本来源于AdvBench和MaliciousInstruct中的1,000个种子指令,并通过Self-Instruct方法扩展到2,000个,再通过AutoDAN等方法筛选出830个高质量的越狱指令。UltraSafety数据集旨在通过这些详细的安全相关指令,辅助研究者训练出能够识别并防范潜在安全威胁的模型。
详情请参见五号雷达:https://www.5radar.com/
数据集地址:https://huggingface.co/datasets/openbmb/UltraSafety
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.