网易首页 > 网易号 > 正文 申请入驻

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

0
分享至

每当AI取得重大进展,研究人员们常开玩笑:“什么时候让AI来为我们写论文?”

现在,AI创作科研论文成了现实,且撰写成本低至约15美元

智东西8月14日消息,8月13日,日本的Sakana AI团队联合牛津大学、不列颠哥伦比亚大学的研究员推出了一个AI科学家(The AI Scientist),这是一个基于大模型的自动化科研智能体(Agent)。

给它一个宽泛的研究领域,它就能像人一样创作一篇AI领域论文。

AI程序员”的编程技能,对AI科学家来说只是能力一环,头脑风暴、代码运行、实验结果总结、可视化、自动评审对它来说都不在话下。

比如,以下这篇名为《Dualscale Diffusion:低维生成模型中的自适应特征平衡(Dualscale Diffusion:Adaptive feature balancing for low-dimensional generative models)》的论文就是由AI科学家所作。在AI科学家自主完成并经同行评审的实验中,其完成的论文取得了优秀的实证效果,已能达到机器学习顶会“弱接受”标准


论文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

团队在AI科学家项目中引用了各种前沿模型,例如GPT-4o和Sonnet等闭源模型,以及DeepSeek和Llama 3等开源模型。

据悉,AI科学家主要有以下亮点:

1、这是一个完全由AI驱动的自动化科研系统,专注于机器学习领域的研究。

2、它实现了研究全链条的自动化,从灵感迸发、代码编写与运行到实验结果的总结、可视化,并最终撰写成完整的科学论文。

3、它创新性地引入了自动化同行评审机制,用以评估产出的论文,提供反馈并持续优化成果,评估准确度已接近人类水平

4、这一自动化科研流程持续循环,开放并不断积累知识,模拟人类科学界的运作模式。

5、在初步实测中,它已涉足机器学习多个领域并取得成果,如在扩散模型、Transformer架构及Grokking等领域均有所贡献。

AI科学家论文地址:https://arxiv.org/abs/2408.06292/
AI科学家开源代码及实验结果地址:https://github.com/SakanaAI/AI-Scientist


▲《AI科学家:向全自动开放式科学发现迈进》论文

一、4步完成科研论文,达到AI顶会接受标准

听说过AI诗人、AI画家、AI程序员,现在AI科学家也出现了。

AI科学家是一个全面自动化的论文生成系统,它充分利用了最前沿的大模型。

从一个基础性的初始代码库出发,比如GitHub上现成的开源研究代码,只要给定一个宽泛的研究领域,AI科学家就能完成从创意构思、文献调研、实验设计、实验迭代、图表制作、论文撰写到初步审核的全流程工作,产出富含深刻见解的学术论文。

更令人称奇的是,AI科学家能以开放循环的方式持续运行,它不断学习之前的创意与反馈,以此优化后续的研究想法,这一过程高度模拟了人类科学界的运作模式

AI科学家的工作流程主要包含四大环节

创意萌发:从给定的起始模板出发,AI科学家会开启“头脑风暴”模式,围绕现有主题挖掘出一系列新颖的研究方向。这个模板不仅包含了基础代码框架,还配备了LaTeX文件夹,内含样式文件和章节标题预设,为后续的论文撰写打下基础。AI科学家在自由探索的过程中,还会借助学术搜索引擎Semantic Scholar来确保所提想法的独创性。

实验迭代:一旦确定了研究方向,AI科学家便进入实验阶段。它会自动执行实验计划,收集数据并生成图表以直观展示实验结果。同时,AI科学家会详细记录每张图表的内容,确保实验笔记和图形资料能够为后续的论文撰写提供全面支持。

论文撰写:实验完成后,AI科学家会利用LaTeX格式,撰写一篇结构清晰、内容详实的论文,向读者展示其研究成果。在撰写过程中,它还会借助Semantic Scholar自动搜索并引用相关领域的文献,增强论文的学术性和权威性。

自动审阅:为了提升论文质量,团队特别开发了一个基于大型语言模型的自动化审阅系统。该系统能够以接近人类的判断力,对生成的论文进行客观评估,并提出改进建议。这些反馈不仅有助于AI科学家优化当前项目,还能为未来的研究提供宝贵的参考。通过这一连续的反馈循环,AI科学家能够不断迭代改进,提升研究成果的水平和影响力。

当与最先进的LLM技术相结合时,AI科学家甚至能够撰写出达到顶级机器学习会议“弱接受”标准的论文,并通过自动审阅系统获得认可

二、AI科学家论文展示:覆盖扩散模型、语言建模等领域

在公告中,团队给出了一系列AI科学家生成的一些机器学习领域论文,展示了其在扩散模型、语言建模和Grokking等领域的科研能力。

1、扩散模型:《DualScale Diffusion:低维生成模型的自适应特征平衡》

2、语言建模:《StyleFusion:字符级语言模型中的自适应多风格生成》


论文地址:https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/multi_style_adapter

语言建模:《通过Q-Learning实现Transformer的自适应学习率》


论文地址:https://sakana.ai/assets/ai-scientist/rl_lr_adaptation.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/rl_lr_adaptation

3、Grokking:《解锁Grokking:Transformer模型中权重初始化策略的比较研究》


论文地址:https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/layerwise_lr_grokking

三、“画图”能力不足,难以准确比较两个数字大小

受限于当下大模型发展水平,AI科学家仍存在不足之处。

目前,AI科学家尚未具备视觉处理能力,因此无法自动修正论文中的视觉元素或图表布局问题。

比如,它生成的图表有时清晰度不足,表格可能超出页面界限,整体页面布局也常显杂乱。而引入多模态基础模型有望从根本上解决这一难题。

另外,AI科学家在执行想法或进行基线对比时,可能会因操作不当而导致结果误导

同时,在撰写和评估结果时,它也可能偶尔犯下较为严重的错误,比如难以准确比较两个数字的大小,这是大模型的一个已知缺陷。为缓解这一问题,团队已确保所有实验结果均可复现,并妥善保存了所有执行文件。

在报告中,团队深入剖析了AI科学家当前的局限以及未来可能面临的挑战。

四、AI科学家“耍小聪明”:自行修改脚本,引起AI安全隐患

团队还观察到,AI科学家有时会尝试通过一些“小聪明”来增加成功的几率,比如自行修改并执行脚本。在论文中,团队深入探讨了这一行为可能带来的AI安全隐患。

举个例子,在一次执行过程中,它竟然编辑了代码,通过系统调用来让自己无限循环运行。

还有一次,某个实验耗时过长,眼看就要超出团队设定的超时限制了,但它没有想着优化代码提升效率,反而试图通过修改代码来延长超时时间

以下是它尝试修改代码的一些具体例子:

这些问题可以通过对AI科学家的操作环境进行沙盒化来缓解。在完整报告中,团队深入讨论了安全代码执行和沙盒化的问题。

结语:AI科学家首秀,颠覆创新能力有待验证

展望未来,Sakana AI称其的目标是将AI科学家应用于开放模型的闭环系统中,推动AI不断自我改进。AI科学家将带来一个全面由AI驱动的科学新世界,这里不仅有大语言模型赋能的研究者,还涵盖了审稿专家、领域主席乃至整个学术会议体系。

但Sakana AI并不认为人类科学家的地位会因此削弱。相反,随着新技术的涌现,科学家的角色将更加多元化,他们将向科研领域的更高层次迈进。自动化科研发现流程并融入AI驱动的审核机制,这主要还是为科学技术领域中最棘手的问题创新与解决铺设了广阔的道路。

当前版本的AI科学家已展现出在扩散模型、Transformer等等成熟技术基础上进行创新的非凡实力,但这类系统能否真正提出颠覆性的全新理念,仍需时间来验证。

来源:Sakana AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看完张家齐和全进华新疆合体视频,终于懂大家为啥催他俩一直合作

看完张家齐和全进华新疆合体视频,终于懂大家为啥催他俩一直合作

情感大头说说
2026-07-04 10:27:05
六人陪审团横行50年,美最高法院出手清算,荒唐漏洞将彻底封堵

六人陪审团横行50年,美最高法院出手清算,荒唐漏洞将彻底封堵

周哥一影视
2026-06-30 01:10:13
乌拉圭世界杯遭淘汰,三球包揽两球的前锋回国后站在皮卡后厢回家

乌拉圭世界杯遭淘汰,三球包揽两球的前锋回国后站在皮卡后厢回家

红星新闻
2026-07-04 10:45:28
“我能生4个孩子,你们凭啥说我可怜!”宝妈低认知发言,被群嘲

“我能生4个孩子,你们凭啥说我可怜!”宝妈低认知发言,被群嘲

妍妍教育日记
2026-07-04 09:05:10
昆明试验列车撞人致11死2伤,调查报告公布

昆明试验列车撞人致11死2伤,调查报告公布

界面新闻
2026-07-03 17:46:55
欧洲股市创历史新高 连续第四周上涨

欧洲股市创历史新高 连续第四周上涨

每日经济新闻
2026-07-04 06:10:05
揭秘斯大林饮食怪癖,吃一顿饭要花6小时,最后因此搭上一条命

揭秘斯大林饮食怪癖,吃一顿饭要花6小时,最后因此搭上一条命

谈古论今历史有道
2026-07-03 15:10:03
亨利:佛得角让我想起冰岛,一个国家的人口多少根本不重要

亨利:佛得角让我想起冰岛,一个国家的人口多少根本不重要

懂球帝
2026-07-04 11:35:32
格林谈杰伦-布朗交易:我无意冒犯乔治,但这并非公平交换

格林谈杰伦-布朗交易:我无意冒犯乔治,但这并非公平交换

懂球帝
2026-07-04 08:33:14
青岛崂山被曝布设泰山同款“刀片网”,景区:设于高山非开放区域,普通游客难抵达

青岛崂山被曝布设泰山同款“刀片网”,景区:设于高山非开放区域,普通游客难抵达

江西晨报
2026-07-03 16:31:39
保姆生下孩子,坚称孩子是60岁父亲的,亲子鉴定后,父亲当场气死

保姆生下孩子,坚称孩子是60岁父亲的,亲子鉴定后,父亲当场气死

不易一字
2025-03-19 17:49:40
货车硬闯限高架当场离世!驾驶室被横腰切,老司机分析事故有道理

货车硬闯限高架当场离世!驾驶室被横腰切,老司机分析事故有道理

社会日日鲜
2026-07-04 06:49:12
泰格·伍兹前经纪人自曝:耐克曾想“绕过我”直接签伍兹,险被省下800万美元佣金

泰格·伍兹前经纪人自曝:耐克曾想“绕过我”直接签伍兹,险被省下800万美元佣金

林间小温柔
2026-07-03 01:05:01
高市底线全无,大国外交变夜店,砸重金讨好美印,邀李在明泡温泉

高市底线全无,大国外交变夜店,砸重金讨好美印,邀李在明泡温泉

基斯默默
2026-07-04 10:54:32
无锡融创乐园 突然宣布

无锡融创乐园 突然宣布

无锡eTV全媒体
2026-07-04 06:53:57
包文婧暑假带饺子泰国度假,饺子肉脸嘟嘟好喜感,泰国游超开心

包文婧暑假带饺子泰国度假,饺子肉脸嘟嘟好喜感,泰国游超开心

调侃国际观点
2026-07-03 23:51:48
58岁周涛看彭冠英的眼神火了:端庄了一辈子,遇到帅哥也绷不住

58岁周涛看彭冠英的眼神火了:端庄了一辈子,遇到帅哥也绷不住

陈意小可爱
2026-07-02 03:07:25
下周A股半导体板块走势深度分析

下周A股半导体板块走势深度分析

干货收并购
2026-07-04 12:09:04
39岁梅西神操作:世界杯20球,历史第1人!狂刷6大纪录,全队乐了

39岁梅西神操作:世界杯20球,历史第1人!狂刷6大纪录,全队乐了

林子说事
2026-07-04 10:42:58
WTT大满贯,19岁新星3-1名将,孙颖莎3-0横扫,张本美和败了

WTT大满贯,19岁新星3-1名将,孙颖莎3-0横扫,张本美和败了

林子说事
2026-07-04 00:06:00
2026-07-04 13:12:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12176文章数 117119关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

宜昌一女生高考582分 查分后立即给警察发了条短信

头条要闻

宜昌一女生高考582分 查分后立即给警察发了条短信

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
艺术
家居
亲子
军事航空

裙子+玛丽珍鞋、背心+阔腿裤,今年夏天最流行搭配,谁穿谁好看!

艺术要闻

16位当代画家,23幅风景与人物作品

家居要闻

传奇筑 日常诗

亲子要闻

穆祉丞永远是我们心中的完美小孩

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版