网易首页 > 网易号 > 正文 申请入驻

AI生成的科研想法比人类专家更有创意,但无法替代人类

0
分享至

对于大语言模型(Large Language Model,LLM)而言,提出新的想法并不难,真正难的是,提出那些新颖且有价值的想法。

如同 Wolfram 所说:“实际上,做出原创性的工作是非常简单的,你只需选择一堆随机数。那些随机数序列非常出人意料、有创意、也很有独创性,但这对我们来说,并没有太大意义,我们真正感兴趣的是那些有原创性而‘有趣’的东西。

毕竟,让用户吃胶水和石头的想法不也是很新颖的吗?

图丨此前谷歌发布的 AI 搜索曾产生一系列的谎言和错误信息,包括建议在披萨食谱中使用胶水以及摄入石头来补充营养等,引起轩然大波(来源:New York Times)

因此,要评估 AI 想法的新颖性,必须要附带一个额外条件:它们至少要与人类专家提出的想法水平相当。

但目前,还没有相关研究证明 LLM 系统能够生成达到专家水平的新颖想法。

于是,为了弥补这方面研究的缺失,探明 AI 在科学研究中的创新潜力,来自斯坦福大学的研究团队展开了一项研究,对当前 LLM 是否能够生成人类专家级的创新性研究想法进行了探究。

图丨相关论文(来源:arXiv)

为了进行对比,团队招募了 104 位 NLP 研究者,让其中 49 位写下创新研究想法,然后再让 79 位专家对 LLM 和人类给出的思路进行盲测(其中有 24 位也参与了想法的撰写,但他们不会审查自己的想法)。

而与他们对垒的主干模型则是 claude-3-5-sonnet-20240620,同时结合了 RAG 论文检索、创意生成和创意排名等功能,以更好地产出科研思路。

实验设置的研究问题与七个主题相关:偏见、编程、安全性、多语言、事实性、数学和不确定性,而最后的评估则主要围绕新颖度、令人兴奋的程度、可行性和有效性四个维度展开。

先说主要结论,与人类专家的想法相比,LLM 生成的想法更为新颖(p < 0.05),但在可行性方面则相对逊色。

那么实验具体是如何来展开的呢?

在设置好问题后,人类专家与 LLM 会生成与之相关的研究思路,而这些思路需要被书写出来并用于交流时,其价值才能被评估,然而,这一过程本身却带来了额外的挑战。比如,人类研究人员在表达自己的研究设想时,往往会通过更丰富的例子和详细的实施方案来增强说服力,这无形中增加了评估的复杂性。

为了解决这个问题,研究者设计了一套模板,让所有人按照同样的格式提交创意提案,包括标题、问题陈述、方法建议等内容。同时,他们还使用了一种风格标准化工具,将所有提案转换成统一的写作风格,避免了个人风格对评分的影响。

图丨风格标准化工具(来源:arXiv)

另一方面,对研究思路的审查也同样不可避免地具有主观性。因此,研究团队参考一些 AI 顶会的评审,设计了一份详细的审查表,明确了所有评估标准,力求使评估过程更加标准化。

除了给出总体评分外,还设定了四个具体的评估指标:新颖性、吸引力、可行性和预期效果。评审员需要根据指标给出 1-10 的分数,并附上理由说明。

除了人类专家提出的与 AI 自动筛选出(AI Ideas)的想法,研究者还从 AI 生成的想法中手动筛选出了一些最为优秀的(AI Ideas + Human Rerank),以评估 AI 创意的最大潜力。

图丨实验流程图(来源:arXiv)

最终的结果如上所述,无论是 AI Ideas 还是 AI Ideas + Human Rerank,都在新颖性方面显著优于人类专家的想法(p < 0.01)。在可行性方面,则稍有逊色。而在激动人心(excitement)评分上,AI 生成的思路的优势更为明显(p < 0.05)

图丨最终的评审结果(来源:arXiv)

即使是由人类重新排序的 AI 思路,其整体得分也超过了人类专家提出的想法(p < 0.05)。至于有效性方面,AI 生成的思路得分略高于人类思路,但差异不大。

不过,需要注意的是,尽管 LLM 有能力生成大量的创意,但这些创意的多样性有限。团队分析了每个主题下生成的 4000 个想法,发现新想法中非重复的比例逐渐下降,最终趋于稳定。4000 个想法中只有200个是非重复的

图丨新生成想法中非重复想法的百分比;随着AI不断生成新想法,累积的非重复想法(来源:arXiv)

而且,在评估创意的能力上,LLM 也远不如人类专家。例如,表现最好的 LLM 评估者——Claude-3.5 成对排序器,其准确率只有 53.3%,而人类评审员之间的评分一致性为 56.1%。

这么看来,AI 的确有能力提出很多有价值的新颖想法,或许在很多时候能给我们带来意想不到的惊喜,但至少目前为止,AI 科学家,尚未成为现实。

只有人类与 AI 协作起来,才能达到 1+1>2 的效果,而进一步探索如何优化这种协作方式,也是研究团队未来的目标之一。

参考链接:https://arxiv.org/abs/2409.04109

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

往史过眼云烟
2026-02-13 19:43:23
56岁王菲断崖式衰老,45岁张柏芝依旧鲜嫩,两人差距越来越大

56岁王菲断崖式衰老,45岁张柏芝依旧鲜嫩,两人差距越来越大

阿讯说天下
2026-02-18 20:50:55
农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

长歌侃娱
2026-02-20 13:19:06
曼联大地震!周薪 25 万巨星遭清洗,卡里克一决定彻底判死刑

曼联大地震!周薪 25 万巨星遭清洗,卡里克一决定彻底判死刑

澜归序
2026-02-21 04:31:53
俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

来科点谱
2026-02-21 07:19:41
带娃坐地铁收到“新年第一份惊喜”!游客:深圳真是发达城市

带娃坐地铁收到“新年第一份惊喜”!游客:深圳真是发达城市

南方都市报
2026-02-21 11:54:19
《时代》周刊首发大学排名,北大第25浙大落榜,这榜靠谱吗?

《时代》周刊首发大学排名,北大第25浙大落榜,这榜靠谱吗?

Delete丨CC
2026-02-14 20:28:23
发现没,现在过年很短暂,初三初四村里人就走了大半!

发现没,现在过年很短暂,初三初四村里人就走了大半!

黯泉
2026-02-20 21:26:16
加利亚尼丨怎么开始收购米兰的?

加利亚尼丨怎么开始收购米兰的?

米兰圈
2026-02-21 09:12:22
这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

另子维爱读史
2026-02-01 20:32:25
3月开始中国或将迎来四大降价潮:除房价以外,这三类也要降价了

3月开始中国或将迎来四大降价潮:除房价以外,这三类也要降价了

西莫的艺术宫殿
2026-02-21 11:08:27
湛江祭妈祖临时换游神乩童,轿子抬不动,连掷9次圣杯不被认可

湛江祭妈祖临时换游神乩童,轿子抬不动,连掷9次圣杯不被认可

Mr王的饭后茶
2026-02-20 12:01:06
AI破解乌鸦语言后确认:这就是地球上的另一波文明

AI破解乌鸦语言后确认:这就是地球上的另一波文明

自说自话的总裁
2026-02-13 17:24:54
中国第二大民营企业“倒了”,负债高达七千亿,现已“卖身”改名

中国第二大民营企业“倒了”,负债高达七千亿,现已“卖身”改名

财经保探长
2026-02-16 22:50:55
孩子过年收2万压岁钱,妈妈要求上交,孩子:是长辈给自己的,应由自己保管,法院:父母可为孩子代为保管,但不得随意使用

孩子过年收2万压岁钱,妈妈要求上交,孩子:是长辈给自己的,应由自己保管,法院:父母可为孩子代为保管,但不得随意使用

大象新闻
2026-02-20 09:48:03
韩国执政党:强烈批评法院对尹锡悦作出的判决结果。

韩国执政党:强烈批评法院对尹锡悦作出的判决结果。

王姐懒人家常菜
2026-02-21 06:17:29
辛辛苦苦一整年一夜回到解放前这哪是过年分明是给牌桌“冲业绩”

辛辛苦苦一整年一夜回到解放前这哪是过年分明是给牌桌“冲业绩”

奇思妙想生活家
2026-02-20 17:21:45
@成都人 这两天抓紧晒太阳!降温+降雨+大风在路上了

@成都人 这两天抓紧晒太阳!降温+降雨+大风在路上了

爱看头条
2026-02-21 12:36:59
高云翔大年初四逛街,花80元买3件二手衣服,二婚生活拮据落魄

高云翔大年初四逛街,花80元买3件二手衣服,二婚生活拮据落魄

阿讯说天下
2026-02-20 23:37:00
两大核心相继倒下,进季后赛已成奢望!NBA豪门终于该开始重建了

两大核心相继倒下,进季后赛已成奢望!NBA豪门终于该开始重建了

老梁体育漫谈
2026-02-20 23:22:15
2026-02-21 13:07:00
络绎科学 incentive-icons
络绎科学
专业的科研成果转化社区
105文章数 3关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

牛弹琴:一觉醒来世界大变 真急了的特朗普改新打法

头条要闻

牛弹琴:一觉醒来世界大变 真急了的特朗普改新打法

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
艺术
教育
本地
公开课

2026纽约秋冬时装周,在春天开启美的新故事!

艺术要闻

史洪生油画作品

教育要闻

母亲的爱有什么特点?很多人抱怨这件事

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版