CantTalkAboutThis是英伟达发布的一个旨在帮助语言模型在对话中保持话题专注度的数据集。该数据集包含1080个人工合成的对话,覆盖健康、银行、保险等多个领域,每个对话中均嵌入了使聊天机器人偏离预设话题的干扰项。数据集的创建过程包括三个步骤:首先,生成跨多种场景的话题跟踪提示;其次,使用类似于对话修复的技术创建遵循这些话题指令的对话;最后,在这些对话中整合干扰项,以测试模型在对话中保持话题的能力。通过在该数据集上微调,大模型在遵循复杂对话指令方面的表现显著提升,同时在未见过的领域中也能更好地识别并避免离题的交互,此外,该数据集还有助于提高模型在零样本情境下的安全对齐性能。
详情请参见五号雷达:https://www.5radar.com/result?key=CantTalkAboutThis
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.