网易首页 > 网易号 > 正文 申请入驻

战胜100多位NLP研究人员!杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类

0
分享至

新智元报道

编辑:LRS

【新智元导读】斯坦福大学的最新研究通过大规模实验发现,尽管大型语言模型(LLMs)在新颖性上优于人类专家的想法,但在可行性方面略逊一筹,还需要进一步研究以提高其实用性。

大型语言模型(LLMs)在各个领域都是一个优秀的助手,广大科研人员也对LLM在加速科学发现方面的潜力充满期待,比如已经有研究提出了能够自主生成和验证新想法的研究智能体。

然而,至今还没有评估结果能够证明LLM系统能够生成新颖的、达到专家水平的想法(idea),更不用说接手完成整个研究流程了。

为了填补这一空白,斯坦福大学的研究人员最近发布了耗时一年完成的新实验,获得了第一个具有统计学意义的结论:LLM生成的想法比人类专家撰写的想法更新颖!

论文链接:https://arxiv.org/pdf/2409.04109

在论文中,研究人员设计了一个完整的实验,可以评估模型在新研究思路生成方面的能力,同时对可能的干扰因素进行控制,首次将专家级的自然语言处理(NLP)研究人员与LLM创意代智能体进行直接比较。

实验招募了超过100名高水平NLP研究人员来撰写新想法,然后对LLM生成的想法和人类想法进行盲审,参与者来自 36 个不同的机构,大部分是博士和博士后。

通过这种方式,研究人员首次得出「LLM在研究创意生成」能力的统计显著结论:LLM生成的想法在新颖性方面优于人类专家的想法(p < 0.05),但在可行性方面略逊一筹。

在深入研究基线模型时,研究人员发现了构建和评估研究智能体中的一些开放性问题,包括LLM自我评估的不足以及在生成过程中缺乏多样性。

在实验过程中,研究人员意识到,即使是专家,对想法新颖性的判断可能也非常困难,因此,文中提出了一个端到端的研究设计,招募研究人员将这些想法转化为完整的项目。

问题设置

研究人员将科研想法评估(research idea evaluation)分为三个独立的子部分,主要关注潜在的混杂因素,如研究领域、研究想法的格式和评估过程。

1. 想法本身,根据指令产生;

2. 传达想法的书面报告(writeup);

3. 专家对书面报告的评估。

构想的范围和指令(Ideation Scope and Instructions )

研究想法既可以是一个能够提高模型性能的技巧,也可以是博士论文中描述的大规模研究计划,任何关于构想的实验都必须仔细平衡研究想法的「现实性」和「趣味性」。

受思维链等项目的启发,一些简单的提示思路就能大幅提升LLM的性能,还能够在不复杂的计算硬件上执行,所以研究人员选择「基于提示的自然语言处理」研究作为初步实验领域。

在提示词的编写思路上,LLM更倾向于安全的主题,与人类的偏好不一致,所以研究人员为了统一目标,从最近的NLP会议的征稿页面中提取了七个具体的研究主题,包括偏见(bias)、编码(coding)、安全性(safety)、多语言性(multilingual)、事实性(factuality)、数学(math)和不确定性(uncertainty)。

想法书面报告(idea writeup)

一个想法只有在被写出来后,其他人才能以此交流并评估,但写作过程会引入其他混杂因素,例如人类研究者可能会用春秋笔法让研究内容看起来更高大上,比如包括更多的例子和实现细节。

研究人员从资助申请中使用的指南中获得灵感,编写了一个模板来指定想法提案的结构和详细程度,包括标题、问题陈述、动机、提出的方法、逐步实验计划、测试用例示例和备选计划等字段。

不过,即使有了模板,可能仍然存在微妙的写作风格差异,例如,人类可能倾向于以更具吸引力和非正式的语气写作。

为此,研究人员又开发了一个风格标准化提示,使用LLM将所有想法转换为相同的写作和格式化风格,而不改变原始内容。

评审和评估(review and evaluation)

对研究想法的评审往往是主观的,研究人员的目标是设计一个明确定义所有评审标准的表格,以尽可能地将评审过程标准化和锚定评估。

研究人员在设计评审表格时,遵循了AI领域会议(如ACL和ICLR)评审的最佳实践,定义了四个分解指标,包括新颖性(novelty)、兴奋度(excitement)、可行性(feasibility)和预期效果(expected effectiveness)。

每个指标在评审时,都有一个1-10的数字评分,和一段文本作为理由。

盲审评估从三种不同条件下对想法进行对比:

1. 人类想法(human ideas):由招募的专家研究者撰写的想法提案。

2. AI想法:由LLM智能体生成的想法提案,直接从智能体的输出中获取排名靠前的想法。

3. AI想法+人类重新排名:由LLM智能体生成的想法提案,再由人工手动从LLM智能体生成的所有想法中选择了排名靠前的想法,以便更好地估计AI想法的上限质量。

想法生成智能体(idea generation agent)

论文检索

为了使创意生成有据可依,智能体需要检索与给定研究主题相关的论文,以便在生成新创意时能够了解相关研究。

研究人员利用检索增强生成(RAG),给定一个研究主题后,例如「能够提高事实性并减少大型语言模型幻觉的新型提示方法」,首先提示一个LLM生成一系列对Semantic Scholar API的函数调用,然后使用claude-3-5-sonnet-20240620作为智能体的骨干模型,论文检索的动作空间包括:{KeywordQuery(关键词), PaperQuery(论文ID), GetReferences(论文ID)}。

然后根据一系列标准对检索到的文献进行评分和排序,包括文献与主题的相关性、是否包含计算实验的经验性研究,以及文献的创新性和启发性,最多检索120篇论文。

创意生成

研究人员的思路是,首先用LLM为每个研究主题生成4000个种子创意,创意生成提示包括示范示例和检索到的论文;然后用排序器来从中选取出一小部分高质量的,为了从庞大的候选创意池中去除重复的创意,使用Sentence-Transformers中的all-MiniLM-L6-v2对所有种子创意进行编码,然后计算成对的余弦相似度来进行一轮去重,最后得到大约5%非重复创意。

创意排名

为了对创意进行排名,研究人员利用了1200篇ICLR 2024会议中与大型语言模型相关的论文及其评审分数和接受决定的数据。

结果发现,当直接要求LLMs预测论文的最终分数或接受决定时,模型的预测准确性不高,但在成对比较中判断哪篇论文更优秀时,却能够达到较高的准确性。

研究人员使用Claude-3.5-Sonnet模型作为自动排名器,在零样本提示下,通过成对比较任务达到了71.4%的准确率,优于其他模型。

为了确保所有项目提案的排名可靠性,采用瑞士制比赛系统进行多轮评分;在验证集上,发现排名前10的论文与排名后10的论文在平均评审分数上有明显差异,证明了排序器的有效性;在实验中,选择了5轮作为评分标准。

此外,为了比较AI排序器与人类专家的差异,研究人员还设置了一个条件,即由人工手动对生成的项目提案进行重排,结果显示两种排名方法存在一定差异。

参考资料:

https://x.com/ChengleiSi/status/1833166031134806330

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

番外行
2026-06-02 14:19:47
23小时锁单破万,星耀7靠什么颠覆中级车市场?

23小时锁单破万,星耀7靠什么颠覆中级车市场?

《新车新技术》
2026-05-31 20:39:11
网传同济大学解聘在岗教师,教师职称涵盖讲师、副教授、教授?

网传同济大学解聘在岗教师,教师职称涵盖讲师、副教授、教授?

文忆天下
2026-06-03 07:09:35
稻城亚丁占省道反转!央媒曝猛料,就算景区敛财,游客也全力支持

稻城亚丁占省道反转!央媒曝猛料,就算景区敛财,游客也全力支持

小鋭有话说
2026-06-03 11:45:29
“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

深圳梦
2026-06-02 20:54:51
学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪
2026-06-02 22:12:58
两万多买的联动云下线“观致5”,深夜莫名被拖走,数十名车主陷维权困局

两万多买的联动云下线“观致5”,深夜莫名被拖走,数十名车主陷维权困局

大风新闻
2026-06-03 11:40:10
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

映射生活的身影
2026-06-03 08:35:49
DeepSeek V4 第一天就能跑!本地Token生产平台来了

DeepSeek V4 第一天就能跑!本地Token生产平台来了

智东西
2026-06-02 19:04:28
男子为寻“刺激”半夜侵犯女性,2016年33名女子遭侵犯仅4人报案

男子为寻“刺激”半夜侵犯女性,2016年33名女子遭侵犯仅4人报案

汉史趣闻
2026-06-03 10:50:35
多人“跪”在街头紧急报警!重要提醒

多人“跪”在街头紧急报警!重要提醒

日照日报
2026-06-01 13:00:19
痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

小鋭有话说
2026-06-03 11:19:08
解密“何式定律”背后,徐直军首次披露华为芯片突围始末

解密“何式定律”背后,徐直军首次披露华为芯片突围始末

钛媒体APP
2026-05-29 12:40:34
19岁连子欣选美夺冠,珠圆玉润打破白幼瘦审美观

19岁连子欣选美夺冠,珠圆玉润打破白幼瘦审美观

最美的笔触
2026-06-03 09:30:58
哈马斯宣布:愿移交加沙所有治理权!以军遭无人机袭击,多人受伤,真主党:不接受“部分停火”!遭特朗普怒斥“疯了”,以总理强硬表态

哈马斯宣布:愿移交加沙所有治理权!以军遭无人机袭击,多人受伤,真主党:不接受“部分停火”!遭特朗普怒斥“疯了”,以总理强硬表态

每日经济新闻
2026-06-03 12:38:20
苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

三湘都市报
2026-06-03 13:19:08
买了34层一套房 收房时得知只建到32层;开发商仲裁代理人:“当时是计划建设到34层,但盖到32层就不让盖了”

买了34层一套房 收房时得知只建到32层;开发商仲裁代理人:“当时是计划建设到34层,但盖到32层就不让盖了”

大风新闻
2026-06-03 08:06:11
时速1000公里!我国将建首条超级高铁,马斯克:中国高铁比飞机快

时速1000公里!我国将建首条超级高铁,马斯克:中国高铁比飞机快

火星方阵
2026-06-03 10:27:21
2026-06-03 15:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

本地
旅游
亲子
房产
游戏

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

主持人点点带你打卡北美高端亲子品牌Jolly Bubble 波浪谷全国首店,解锁高质量亲子游玩体验,烟台遛娃首选!

亲子要闻

孩子长高选什么赖氨酸好?2026推荐度高的氨基丁品牌测评,科学激活发育潜能

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

越能搬砖,活得越久?MMO 搬砖怎么从"毒瘤"熬成了"香饽饽"

无障碍浏览 进入关怀版