网易首页 > 网易号 > 正文 申请入驻

反着用scaling law验证数据:群聊场景指代消歧

0
分享至

本文介绍了在群体聊天中如何通过微调大型语言模型来提高指代消歧的准确度,并开发了一种利用规模化法则原则获取高质量数据的方法。通过对58k真实聊天记录的预处理和2.3k问题的手动标注,利用规模化法则确保了标注的可靠性。其相关脚本、原始数据以及实验跟踪已开源,且已获得用户数据隐私授权。

我们之前开源了 LLM 群聊助手茴香豆(以下简称豆哥),它的特点是:

  • 设计了一套拒答 pipeline,实用于群聊场景能够有效抵抗各种文本攻击、过滤无关话题,累计面对 openmmlab 数千用户运行半年( 17 个群、7w 条群消息)。这个过程确认了 text2vec 模型更适合反着用

  • 工业级开源除算法 pipeline 外,还实现对应的 android、web service, License 支持商用

  • 成本低配合 LLM API 只需要 1.5G 显存

此外我们还工程优化了 ReRoPE,llama2 13B 在 A100 单卡上不训练,就可以从 8k 外推到 40k token。

然而在群聊中,豆哥往往会遇到类似对话:

张三:mmpose 支持移动端部署么? 李四:搭车问一下,怎么把它部署到 TX2 ? 王二:你们说的是哪家的算法框架?

显然 “它” 应该替换成 "mmpose",然而豆哥处理李四的问题时,不能直接输入所有人的对话,否则会影响 pipeline 精度;受成本约束,也不能每一句都消,所以整件事第一步是,判断应不应该消歧。

项目链接:https://github.com/internlm/huixiangdou

为了解决上述问题,我们使用的方法是手工标注 + SFT 优化 LLM,也就是 NLPer 常见地,用 LLM 优化下游 NLP 任务。


最终结果如上图,"0.5B 媲美 14B"。

绿色的是训练前的 precision 曲线,证明反反复复标一周没白干,确实能靠 scaling law 明确问题和训数据;

蓝色的是训练后的 F1 score 曲线。

  • 14B 的 recall 是最高的、能达到 92.11

  • 32B 的 F1 score 最高,到了85.58

  • 额外地,MoE-2.7B 涨了 +29.07,详见 arXiv(见附录)里的表格

本文贡献是:

1、如何证明标注本身没有 bias ?我们使用 scaling law 定义问题、确认标注可靠。

scaling law 是说数据内容不变,精度随参数量和训练数据量线性增大。 反过来想,取一组相同架构的 LLM(qwen 0.5~32B)不变,prompt 和数据标注变化。如果数据的精度表现,随模型体积而改善,那是不是证明了数据标得好 ? 当然这个 “标得好” 更多的是和 qwen 更契合,更容易 finetune、更适合 GPU-poor

2、数据来自微信群聊——卷卷群(ncnn contributors group),我们开源了 2.3k 手工标注数据和对应的 LoRA weights,授权见末尾。

3、所有实验均可复现,trick 已在论文中注明。

一、数据准备

数据来源选 ncnn 卷卷群是因为:

  • 群友背景复杂,当老板的打工的读书的都有、软件硬件女装啥都会。AKA 数据范化性强。

  • ncnn 不是某个 team 维护的,大小事情是靠爱发电,导致平均群活跃高达 87 条/人月。

预处理原始输入取了 58,000 条,直接标注能标死我。所以做了 concat 和 filter 两步预处理:一来是用户确实发 2 句话才讲 1 个事;二来大部分内容也不是问题,豆哥并不关心陈述句。预处理后得到 2,302 句问题。


标注过程是个循环,不是手工标一次搞定的。

STEP1. 按指代消歧的定义构造 prompt,想清了问题再手动标

STEP2. 标好了用 7 个 vanilla LLM 跑精度

STEP3. 如果 precision 不随参数量增长,检查 prompt 和问题定义,看哪里没明确。重复 STEP1

如此重复 5 轮,得到 alpaca.json

二、训练

参照知乎其他人的 finetune 经验, 2k 数据量上不了 further pretrain,fp16 的 SFT 也未必好。

虽然 LoRA 不靠谱,可听人劝吃饱饭。我们用的 axolotl,顺手发了个 typo PR。

第一轮 LoRA epoch=1,lr=2e-4,rank=64,4B F1 score 掉点 -12,其他模型都在涨。


想象中,4B 的 F1 score 应该在 62.9 到 69.22 之间。

那咋整?继续治疗呗..

我们尝试了 lr=2e-5;不同的 rank;换 LoRA+,也就改 lr 能让损失缩小到 -3。


注意缩小 lr 对其他模型(7B、1.8B、2.7B)都没用,并不是个可靠方法。

果然 LoRA 不靠谱,继续遍历参数已经没有意义。我们也尝试过全量微调,2 个 epoch 后模型会退化为下游 NLP 任务中的分类器,尽管 F1 score 高达 71.38,全量微调后的模型已经失去通用能力。

三、结论

现在看来 base 模型和数据是可靠的,但训练方法不太行。

  • 检查 weight ,看训练方法为啥不行,即 4B 上 low-rank 前提被满足了多少?

  • 现在有个 recall 92 的模型,只是应用的第一步。我估计后面实用还都是坑 qaq

附录 论文地址: https://arxiv.org/abs/2405.02817alpaca 训练数据: https://huggingface.co/datasets/tpoisonooo/HuixiangDou-CR/tree/mainLoRA 14B 权重: https://huggingface.co/tpoisonooo/HuixiangDou-CR-LoRA-Qwen-14BLoRA 32B 权重: https://huggingface.co/tpoisonooo/HuixiangDou-CR-LoRA-Qwen-32BWanDb 实验记录: https://wandb.ai/tpoisonooo/huixiangdou-cr 复现步骤: https://github.com/InternLM/HuixiangDou/tree/main/sft

来源:公众号【InternLM】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江强降水落区有变!明起高温扩大,冲至36℃再猛降

浙江强降水落区有变!明起高温扩大,冲至36℃再猛降

鲁中晨报
2024-06-20 18:47:11
抗日神剧八路军的伙食,不是海鲜就是法国菜,主打的就是一个上流

抗日神剧八路军的伙食,不是海鲜就是法国菜,主打的就是一个上流

附允历史观
2024-06-19 16:45:10
这届618,抖音颓了,天猫笑了

这届618,抖音颓了,天猫笑了

钛媒体APP
2024-06-20 18:58:32
《海天雄鹰》为何骂声一片?军旅剧四个烂大街的俗套,一个也不少

《海天雄鹰》为何骂声一片?军旅剧四个烂大街的俗套,一个也不少

指尖阻挡流年
2024-06-20 16:11:11
令人泪目!山西8岁男孩:反正穷光蛋,长大捡破烂吧,能活着就好

令人泪目!山西8岁男孩:反正穷光蛋,长大捡破烂吧,能活着就好

贾文彬的史书
2024-06-18 23:36:34
俄乌战争打到现在,俄罗斯才访问朝鲜?彼得大帝都要气疯了

俄乌战争打到现在,俄罗斯才访问朝鲜?彼得大帝都要气疯了

小哆啦的游戏屋
2024-06-19 10:50:03
解放战争中,如果国民党获得胜利,今天的中国会是什么样

解放战争中,如果国民党获得胜利,今天的中国会是什么样

史诗长歌
2024-05-13 13:34:32
美洲杯揭幕战-阿根廷vs加拿大首发:梅西、迪马利亚先发 麦卡出战

美洲杯揭幕战-阿根廷vs加拿大首发:梅西、迪马利亚先发 麦卡出战

直播吧
2024-06-21 06:32:12
严查腐败作风问题 湖北一地追责问责27人

严查腐败作风问题 湖北一地追责问责27人

鲁中晨报
2024-06-20 11:23:07
她北大毕业,是全国最年轻的女副省长,才貌双全,履历惊人

她北大毕业,是全国最年轻的女副省长,才貌双全,履历惊人

蹲马桶看历史
2024-04-30 17:41:11
退出管理层!告别独行侠!23年大老板生涯结束

退出管理层!告别独行侠!23年大老板生涯结束

篮球教学论坛
2024-06-20 00:35:41
“不怕夏至雨,就怕夏至晴”,今日夏至,为啥怕晴?今夏热到哭吗?看农谚咋说

“不怕夏至雨,就怕夏至晴”,今日夏至,为啥怕晴?今夏热到哭吗?看农谚咋说

阿龙美食记
2024-06-21 00:19:34
玩偶姐姐新任男助理疑已招到,要求八块腹肌颜值高会做糖醋排骨

玩偶姐姐新任男助理疑已招到,要求八块腹肌颜值高会做糖醋排骨

挪威森林
2024-05-01 14:10:03
60岁落马的女干部被“双开”!曾与“老虎”共事

60岁落马的女干部被“双开”!曾与“老虎”共事

上观新闻
2024-06-20 12:02:22
【李霁野】鲁迅晚年幻灭,对中共说:你们来到,先杀的恐怕是我?

【李霁野】鲁迅晚年幻灭,对中共说:你们来到,先杀的恐怕是我?

年之父
2024-05-04 06:10:03
动工了!曝库班正式报价克莱,扶正莱夫利,三人被交易!

动工了!曝库班正式报价克莱,扶正莱夫利,三人被交易!

运筹帷幄的篮球
2024-06-20 16:52:42
官方:因行为不当,欧足联对阿尔巴尼亚和塞尔维亚足协进行处罚

官方:因行为不当,欧足联对阿尔巴尼亚和塞尔维亚足协进行处罚

直播吧
2024-06-20 09:44:19
中国女排完败日本,惠若琪指出输球原因,张常宁领衔二队铩羽而归

中国女排完败日本,惠若琪指出输球原因,张常宁领衔二队铩羽而归

海宝爱体育
2024-06-20 19:35:40
两天票房53万,张学友和谢霆锋终究关闭了“港片之窗”

两天票房53万,张学友和谢霆锋终究关闭了“港片之窗”

影视原说a
2024-06-20 18:15:03
最新人事任免

最新人事任免

锡望
2024-06-20 22:21:22
2024-06-21 09:42:44
将门创投
将门创投
加速及投资技术驱动型初创企业
1837文章数 585关注度
往期回顾 全部

科技要闻

美媒:苹果正与百度阿里百川等谈AI合作

头条要闻

媒体:中国外交部刚批评美国 五角大楼就送来"神助攻"

头条要闻

媒体:中国外交部刚批评美国 五角大楼就送来"神助攻"

体育要闻

1-0"吊打"意大利 西班牙这就叫冠军相?

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

普华永道,引火烧身

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

艺术
家居
健康
手机
公开课

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

自然开放 实现灵动可变空间

晚餐不吃or吃七分饱,哪种更减肥?

手机要闻

曝小米14T系列影像将迎来重大突破 给友商上压力?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版