反着用scaling law验证数据：群聊场景指代消歧|算法|豆哥|软件安装包

反着用scaling law验证数据：群聊场景指代消歧

2024-05-13 08:25:42　来源: 将门创投

北京举报

分享至

本文介绍了在群体聊天中如何通过微调大型语言模型来提高指代消歧的准确度，并开发了一种利用规模化法则原则获取高质量数据的方法。通过对58k真实聊天记录的预处理和2.3k问题的手动标注，利用规模化法则确保了标注的可靠性。其相关脚本、原始数据以及实验跟踪已开源，且已获得用户数据隐私授权。

我们之前开源了 LLM 群聊助手茴香豆（以下简称豆哥），它的特点是：

设计了一套拒答 pipeline，实用于群聊场景。能够有效抵抗各种文本攻击、过滤无关话题，累计面对 openmmlab 数千用户运行半年（ 17 个群、7w 条群消息）。这个过程确认了 text2vec 模型更适合反着用
工业级开源。除算法 pipeline 外，还实现对应的 android、web service， License 支持商用
成本低。配合 LLM API 只需要 1.5G 显存

此外我们还工程优化了 ReRoPE，llama2 13B 在 A100 单卡上不训练，就可以从 8k 外推到 40k token。

然而在群聊中，豆哥往往会遇到类似对话：

张三：mmpose 支持移动端部署么？李四：搭车问一下，怎么把它部署到 TX2 ？王二：你们说的是哪家的算法框架？

显然 “它” 应该替换成 "mmpose"，然而豆哥处理李四的问题时，不能直接输入所有人的对话，否则会影响 pipeline 精度；受成本约束，也不能每一句都消，所以整件事第一步是，判断应不应该消歧。

项目链接：https://github.com/internlm/huixiangdou

为了解决上述问题，我们使用的方法是手工标注 + SFT 优化 LLM，也就是 NLPer 常见地，用 LLM 优化下游 NLP 任务。

最终结果如上图，"0.5B 媲美 14B"。

绿色的是训练前的 precision 曲线，证明反反复复标一周没白干，确实能靠 scaling law 明确问题和训数据；

蓝色的是训练后的 F1 score 曲线。

14B 的 recall 是最高的、能达到 92.11
32B 的 F1 score 最高，到了85.58
额外地，MoE-2.7B 涨了 +29.07，详见 arXiv（见附录）里的表格

本文贡献是：

1、如何证明标注本身没有 bias ？我们使用 scaling law 定义问题、确认标注可靠。

scaling law 是说数据内容不变，精度随参数量和训练数据量线性增大。反过来想，取一组相同架构的 LLM（qwen 0.5～32B）不变，prompt 和数据标注变化。如果数据的精度表现，随模型体积而改善，那是不是证明了数据标得好？当然这个 “标得好” 更多的是和 qwen 更契合，更容易 finetune、更适合 GPU-poor

2、数据来自微信群聊——卷卷群（ncnn contributors group），我们开源了 2.3k 手工标注数据和对应的 LoRA weights，授权见末尾。

3、所有实验均可复现，trick 已在论文中注明。

一、数据准备

数据来源。选 ncnn 卷卷群是因为：

群友背景复杂，当老板的打工的读书的都有、软件硬件女装啥都会。AKA 数据范化性强。
ncnn 不是某个 team 维护的，大小事情是靠爱发电，导致平均群活跃高达 87 条/人月。

预处理。原始输入取了 58,000 条，直接标注能标死我。所以做了 concat 和 filter 两步预处理：一来是用户确实发 2 句话才讲 1 个事；二来大部分内容也不是问题，豆哥并不关心陈述句。预处理后得到 2,302 句问题。

标注过程是个循环，不是手工标一次搞定的。

STEP1. 按指代消歧的定义构造 prompt，想清了问题再手动标

STEP2. 标好了用 7 个 vanilla LLM 跑精度

STEP3. 如果 precision 不随参数量增长，检查 prompt 和问题定义，看哪里没明确。重复 STEP1

如此重复 5 轮，得到 alpaca.json

二、训练

参照知乎其他人的 finetune 经验， 2k 数据量上不了 further pretrain，fp16 的 SFT 也未必好。

虽然 LoRA 不靠谱，可听人劝吃饱饭。我们用的 axolotl，顺手发了个 typo PR。

第一轮 LoRA epoch=1，lr=2e-4，rank=64，4B F1 score 掉点 -12，其他模型都在涨。

想象中，4B 的 F1 score 应该在 62.9 到 69.22 之间。

那咋整？继续治疗呗..

我们尝试了 lr=2e-5；不同的 rank；换 LoRA+，也就改 lr 能让损失缩小到 -3。

注意缩小 lr 对其他模型（7B、1.8B、2.7B）都没用，并不是个可靠方法。

果然 LoRA 不靠谱，继续遍历参数已经没有意义。我们也尝试过全量微调，2 个 epoch 后模型会退化为下游 NLP 任务中的分类器，尽管 F1 score 高达 71.38，全量微调后的模型已经失去通用能力。

三、结论

现在看来 base 模型和数据是可靠的，但训练方法不太行。

检查 weight ，看训练方法为啥不行，即 4B 上 low-rank 前提被满足了多少？
现在有个 recall 92 的模型，只是应用的第一步。我估计后面实用还都是坑 qaq

附录论文地址： https://arxiv.org/abs/2405.02817alpaca 训练数据： https://huggingface.co/datasets/tpoisonooo/HuixiangDou-CR/tree/mainLoRA 14B 权重： https://huggingface.co/tpoisonooo/HuixiangDou-CR-LoRA-Qwen-14BLoRA 32B 权重： https://huggingface.co/tpoisonooo/HuixiangDou-CR-LoRA-Qwen-32BWanDb 实验记录： https://wandb.ai/tpoisonooo/huixiangdou-cr 复现步骤： https://github.com/InternLM/HuixiangDou/tree/main/sft

来源：公众号【InternLM】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.