网易首页 > 网易号 > 正文 申请入驻

清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

0
分享至

新智元报道

编辑:静音

【新智元导读】最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。

我们都知道,在科研界,LLM在解决简单科学问题时表现得游刃有余,但在应对复杂问题时往往会出现幻觉。于是,为了让模型更靠谱,研究人员尝试给模型装上科学工具,帮助它们解决高难度任务。

然而,一旦用上工具,模型就「上瘾」了!甚至连一些不怎么难的问题都要靠工具解决。这不仅让计算成本暴涨,还影响了模型自己「独立思考」的能力——就像有的人有了计算器就不再心算一样。

相较而言,人类科学专家在解决科学问题时,通常会先评估问题的复杂性,再决定使用基本推理或专业工具。

正是受这种解决问题流程的启发,一支来自UCSD和清华的研究团队提出了一种全新的微调方法,让模型「边适应边学习」,学会在使用外部科学工具和依赖内部知识之间做出合理选择。

论文地址:https://arxiv.org/abs/2411.00412

这一方法的显著意义在于它大大提高了模型效率。

研究人员仅使用一个拥有80亿参数的LLM——远小于行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。

这挑战了AI开发中的一个惯有想法:更大的模型必然能带来更好的结果。

教会AI在使用外部工具和依赖内部知识之间进行判断——就像训练一位年轻科学家如何在相信自己计算的同时知道何时咨询专业设备——可能比单纯地卷AI计算能力更为重要。

微调方法简介

微调方法由两部分组成:World Knowledge Distillation(WKD)和Tool Usage Adaptation(TUA)。

World Knowledge Distillation可以翻译为「世界知识蒸馏」。在WKD过程中,LLM通过学习那些借助工具生成的解答,来掌握和积累特定领域的知识。

WKD分为监督微调和偏好优化两部分。

对于所有问题,研究人员提示LLM使用工具生成确定性的解答,然后将这些解答作为目标,进行监督微调(SFT)。

在遇到开放式问题时,除了进行监督微调外,LLM会生成一组不同的解答提议,并使用预定义的指标对这些提议进行排序,以构建偏好对;然后利用这些数据进行偏好优化。

而在Tool Usage Adaptation中,研究人员首先在基准数据集的问题上评估经过WKD微调后的LLM。对于每个问题,他们采样生成一组直接回答,以计算其准确率。

基于预设的准确率阈值,他们将问题分为两个子集:简单问题集,即LLM可以直接解决的问题;以及复杂问题集,即LLM需要借助工具回答的问题。

对于简单问题集,保持与WKD一致的对齐目标,即继续通过内化已有知识直接作答;而对于复杂问题集,研究人员将对齐目标切换为包含工具使用轨迹的增强解答,并训练LLM准确地遵循这些轨迹。

实验过程

研究人员使用Llama-3.1-8B-Instruct作为微调方案的基础模型。同时还对其他最先进的开源和闭源模型进行了广泛评估,包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

数据集

研究人员使用了两个现有的公开数据集MATH和SciBench,并构建了四个新的科学数据集用于实验:Mujoco、偏微分方程(PDEs)、气候科学和流行病学。

四个数据集的构建遵循系统化流程:首先,基于专家咨询和模拟器功能设计了特定领域的问题模板;接着,通过在科学合理的参数范围内进行采样,生成单独的问题;最后,利用LLMs和工具使用轨迹生成相应的解答。

Mujoco中主要涉及刚体和柔体动力学相关问题。

在偏微分方程(PDEs)中,研究人员设计了内部的数值求解器,并编制了关于热传递、化学工程、人口模拟等领域的问题。

气候科学问题数据集则以神经代理模型为中心。该模型接受时间、气候情景(如SSP126、SSP245)、温室气体排放(CO₂,CH₄)和气溶胶气体(BC,SO₂)等输入,输出相应的地表温度。

流行病学问题数据集使用了最先进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件,用于描述流行病状态。模型输出未来28天的流行病状态预测。

四个自定义数据集主要由多项选择题构成,而其中的气候科学数据集还包含开放式问题(例如关于气候变化缓解的政策建议)。公开的MATH和SciBench数据集则完全由数值问题组成。

外部科学工具

研究人员为不同数据集使用了不同的工具。

对于Mujoco数据集,他们使用了官方API;

对于PDEs数据集,他们利用了内部的数值求解器;

对于气候和流行病学数据集,他们使用了封装对应神经代理模型的API;

对于开放式数据集,他们采用了Python代码解释器。

评估指标

实验主要评估了两种准确率:答案准确率和工具使用准确率。

答案准确率

答案准确率量化了模型提供的正确答案比例。

对于自定义数据集中的多项选择题(MCQs),研究人员根据模型是否选择正确选项来分配二进制分数。

对于MATH和SciBench数据集中的数值答案,如果答案在真实值的±5%的容差范围内,则视为正确答案。

工具使用准确率

工具使用准确率评估模型是否能在工具使用方面做出智能决策,即在回答较难问题时使用工具,而在回答较简单问题时直接作答。

问题根据训练模型是否可通过Pn(无工具使用)回答来划分为简单(E)或困难(H)。当使用允许工具选择的Pi时,决策进一步标记为T(使用工具)或N(不使用工具)。例如,HT表示模型在处理一个困难问题时选择使用工具。

工具使用准确率定义为:

实验结果

答案准确率

该微调方法在自定义数据集上的表现显著优于所有基准模型,这些数据集通常未在预训练中涵盖。

尽管在公开数据集上,微调过的模型并未超越当前的最先进模型,但相比于未微调的基础模型,该方法显示出显著的改进。这一在公开基准测试上的性能差距,可能是由于当前最先进模型具有更多的参数量,并对开源数据集进行了特定优化。

工具使用准确率

总体而言,训练模型在所有数据集上均实现了最佳的工具使用准确率,除了在SciBench数据集上排名第二。

相比之下,其他模型的准确率大约为50%,表明两种典型情况:要么过度依赖工具,要么从不尝试使用工具。

除了表中展示的优势外,研究人员还进一步分析了MATH数据集上的工具使用决策情况,该数据集在下图中根据问题难度提供了先验标签。

训练模型在问题难度增加时显示出合理的工具使用增长。基础模型则无论问题难度如何均表现出对工具的过度依赖;而Claude 3.5在面对简单和困难问题时均表现出更多的直接回答信心,可能是因为MATH是一个公开数据集,该模型在训练期间已接触到类似问题。

作者介绍

Bohan Lyu

Bohan Lyu目前在清华大学修读计算机科学与经济学双学位。

2023年,他加入清华NLP实验室,受刘知远教授的指导。

2024年夏天,他前往加州大学圣地亚哥分校(UCSD)的计算机科学与工程系Rose-STL实验室,导师是Rose Yu教授。本研究部分工作在他访问UCSD期间完成。

他的研究兴趣是设计创新的计算机科学方法,特别是专注于语言技术、知识发现和数据挖掘,以解决现实世界的挑战。

此前,他曾担任过ICLR 2024、ICML 2024和ACL 2024研讨会的审稿人。

YadiCao

Yadi Cao在加州大学圣地亚哥分校(UCSD)计算机科学与工程系担任博士后研究员,导师是Rose Yu教授。

此前,他在加州大学洛杉矶分校(UCLA)获得了计算机科学博士学位,导师是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程(PDE)的数值解和机器学习方法,特别是在计算固体和流体动力学方面。

参考资料:

https://venturebeat.com/ai/uc-san-diego-tsinghua-university-researchers-just-made-ai-way-better-at-knowing-when-to-ask-for-help/

https://arxiv.org/abs/2411.00412

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

鬼菜生活
2026-06-02 17:31:32
荷兰没料到,闯中国领空这事没完,当着多国的面,让荷兰难堪至极

荷兰没料到,闯中国领空这事没完,当着多国的面,让荷兰难堪至极

流史岁月
2026-06-02 16:10:03
为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

黯泉
2026-06-01 15:33:05
离谱!飞机落地滑行58分钟,乘客坐崩溃:飞2小时,滑1小时!

离谱!飞机落地滑行58分钟,乘客坐崩溃:飞2小时,滑1小时!

白浅娱乐聊
2026-06-02 18:26:05
6月4日,人社部关于2026年调整退休人员基本养老金的通知公布了吗

6月4日,人社部关于2026年调整退休人员基本养老金的通知公布了吗

社保小达人
2026-06-03 09:50:27
美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

商业财经风向
2026-06-03 11:41:48
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

共工之锚
2026-06-01 13:17:56
实名举报:一非监考教师进入考场,指导考生!教育局已介入

实名举报:一非监考教师进入考场,指导考生!教育局已介入

山东教育
2026-06-03 12:11:22
饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

卷史
2026-06-01 11:19:40
人到晚年才醒悟,每月3000退休金,别指望子女养老,亲情也很现实

人到晚年才醒悟,每月3000退休金,别指望子女养老,亲情也很现实

烙任情感
2026-06-02 14:51:19
59年粟裕仕途不顺,铁道部长来看望他,见面后粟裕直喊:老首长!

59年粟裕仕途不顺,铁道部长来看望他,见面后粟裕直喊:老首长!

微野谈写作
2026-06-03 15:50:07
长寿的人,手背多有这4个表现,占一个都不错,快看看你有几个?

长寿的人,手背多有这4个表现,占一个都不错,快看看你有几个?

芹姐说生活
2026-05-31 22:41:04
印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

网络易不易
2026-06-02 06:00:35
“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

药识局
2026-05-30 21:11:23
浙江一只小狗偶遇一条大蛇,当场缠斗在一起,狗被蛇紧紧缠绕,依旧死死咬住不肯松口,主人见状出手解围,狗狗才平安无事

浙江一只小狗偶遇一条大蛇,当场缠斗在一起,狗被蛇紧紧缠绕,依旧死死咬住不肯松口,主人见状出手解围,狗狗才平安无事

洪观新闻
2026-06-03 16:05:01
女友的女儿进来喊“牙掉了”,直播中的维斯塔潘:是啊,会发生的

女友的女儿进来喊“牙掉了”,直播中的维斯塔潘:是啊,会发生的

懂球帝
2026-06-03 12:12:32
难以置信!求姐姐每月资助5000元考研,“共赢式”巨婴乞讨引热议

难以置信!求姐姐每月资助5000元考研,“共赢式”巨婴乞讨引热议

火山詩话
2026-06-02 14:50:29
今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

背包旅行
2026-06-02 11:48:18
别浪费这功能了!洗衣机“桶自洁”一直用错,难怪有味还伤衣

别浪费这功能了!洗衣机“桶自洁”一直用错,难怪有味还伤衣

家电小超人
2026-06-01 16:45:03
2026-06-03 16:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

数码
手机
健康
公开课
军事航空

数码要闻

告别充电线 闪极直插口充电宝上市 一机搞定苹果安卓

手机要闻

荣耀确认Robot Phone手机初代抗跌落已经是旗舰水平

违规干细胞抗衰美容,为何肆无忌惮

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版