网易首页 > 网易号 > 正文 申请入驻

Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?

0
分享至

新智元报道

编辑:英智

【新智元导读】本文介绍了当前最受科研人员青睐的AI模型,推理出色的o3-mini、全能型DeepSeek-R1、科研常用的Llama、编程利器Claude 3.5 Sonnet和开源明星Olmo 2,它们各有优劣,为科研人员提供了多样选择。

几乎每周都有新的、令人影响深刻的AI工具发布,研究人员纷纷踊跃尝试。

从复杂的数学问题求解,到医学诊断中的精准分析,再到代码编写与论文创作,AI工具展现了巨大的潜力。

但市面上令人眼花缭乱的AI模型,究竟哪一款才是让科研工作者效率起飞的「梦中情模」,能助力科研突破,带来事半功倍的效果呢?

在这里,研究人员与《自然》杂志分享了他们当下最青睐的模型。

o3-mini:推理小能手

提到LLM,就不得不提OpenAI。2022年,OpenAI推出了聊天机器人ChatGPT。

科学家们主要将ChatGPT用于查找信息或作为写作助手,如起草摘要等。而在去年,OpenAI又发布了一系列更先进的模型,其中o3-mini就是一款非常出色的推理模型。

o3-mini是一款速度很快的推理模型,并且面向注册用户免费开放。它经过训练,会以逐步推理的方式回答问题。

这种「思维链」旨在模拟人类推理过程,帮它在科学和数学领域突破了严苛的基准测试。o3-mini擅长处理技术任务,如解决编程问题和重新格式化数据。

牛津大学数学家兼AI研究人员Simon Frieder表示,在解析陌生数学证明等任务上,o3-mini表现非常出色。

不过,他也提到,o3-mini仍然无法与数学家媲美。但不可否认的是,o3-mini为科研人员在处理一些复杂问题时提供了有力的帮助。

OpenAI近期还推出了「深度研究」功能,允许一些付费订阅用户从数百个网站上综合信息并添加引用,生成报告,进行文献综述。

旧金山初创公司FutureHouse的化学家兼AI专家Andrew White表示:「这些模型在组合使用时效果更佳。」

DeepSeek:全能「潜力股」

DeepSeek-R1也是一款备受瞩目的模型。它的能力与OpenAI的o1相当,但通过API使用的成本却低得多。这对于许多科研团队来说,是一个很有吸引力的优势。

DeepSeek-R1是开源权重模型,虽然其训练数据尚未公布,但任何人都可以下载基础模型,并根据自己的研究项目进行定制。

香港中文大学(深圳)的计算机科学家Benyou Wang等人正在开发可以在单机上运行或训练的版本,让更多学者能用到这个强大的模型。

和o1一样,DeepSeek-R1的强项是解决数学问题和编写代码。同时,它在提出假设等任务上也表现不错。这是因为DeepSeek选择公布模型的「思考过程」,使得研究人员能够更好地完善后续问题,提高模型的输出质量。

这种透明度在医学诊断领域也可能发挥巨大作用。Benyou Wang正在利用该模型的推理能力开展实验,致力于构建从患者评估到诊断和治疗建议的清晰路径。

然而,DeepSeek-R1也并非完美无缺。该模型的「思考过程」似乎特别长,这降低了它的运行速度,在查找信息或头脑风暴方面实用性欠佳。

与竞争对手相比,DeepSeek在防范模型生成有害内容方面所采取的措施似乎也较少。一些研究人员认为这种开源且功能强大的模型对于科研发展有着重要意义,而另一些人则对此持谨慎态度。

Llama:科研老伙计

Llama是Meta AI于2023年发布的一组开源权重模型,长期以来一直是科研界常用的LLM。仅通过开源科学平台Hugging Face,Llama各个版本下载量就已超过6亿次。

Llama之所以受到科研界的欢迎,很大程度上是因为它可以被下载并在此基础上进行开发。在处理受保护的数据时,能在个人或机构的服务器上运行至关重要,可以避免敏感信息反馈给其他用户或开发者。

研究人员基于Llama模型开发出了能预测材料晶体结构的大语言模型,还利用它来模拟量子计算机的输出结果。

北卡罗来纳大学教堂山分校的ML科学家Tianlong Chen表示,Llama很适合用于模拟量子计算机,因为相对容易对其进行调整,让它理解专业的量子语言。

不过,Llama也有一些小缺点。比如需要用户申请访问权限,这对一些人来说有点麻烦。

因此,其他开源模型,如西雅图Allen人工智能研究所开发的OLMo,以及阿里云开发的Qwen,现在常常成为科研中的首选。DeepSeek V3如今也是有力的竞争者。

Claude:编程利器

在硅谷,很多人对Claude 3.5 Sonnet的编程能力赞不绝口。

Claude 3.5 Sonnet由总部位于旧金山的AI公司Anthropic开发,它不仅可以编写代码,还能解读图表等视觉信息。此外,它还有一种模式,允许其远程操作用户的计算机。

Claude的写作风格也备受赞誉。一些LLM(如ChatGPT)在去除技术语言时,可能也会误删关键信息。而Claude在润色文本的同时,更擅长保留原意。

因此,在撰写科研基金申请或为代码添加解释性注释时,Claude可能是更好的选择。

在一项基于数据驱动的科学任务的基准测试中,Claude 3.5 Sonnet在编程挑战方面表现出色,这些任务的数据取自生物信息学和计算化学等领域的真实论文。

虽然Claude 3.5 Sonnet作为在线聊天机器人可以免费使用,但和OpenAI的模型一样,研究人员只能通过付费API,才能实现完整集成。

随着更便宜的开源模型越来越强大,人们可能会更倾向于使用开源模型。

Olmo:开源新星

对于想要深入了解内部运行机制的研究人员来说,Olmo 2是一个非常不错的选择。

Olmo 2是目前性能最出色的开源模型之一,它还附带算法的训练数据,以及用于训练和评估模型的代码。

研究Olmo 2这样的模型能让研究人员将偏差来源追溯到训练数据上,同时通过更好地理解算法如何得出输出结果,来提高效率。

目前,开源模型的门槛是需要一定的专业知识才能运行,但随着免费实践课程的增加,进入门槛正在逐渐降低。

如果法院判定使用受版权保护的内容来训练模型属于违法行为,那么像Olmo 2这样基于允许重复使用和修改的数据集所训练的模型,可能是唯一可以安全使用的模型。

参考资料:

https://www.nature.com/articles/d41586-025-00437-0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿联酋执意退出欧佩克:将对全球产生什么影响?欧佩克会崩溃吗?

阿联酋执意退出欧佩克:将对全球产生什么影响?欧佩克会崩溃吗?

黄埔少侠
2026-04-29 01:00:53
为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

瑛派儿老黄
2025-12-02 21:11:13
这才是提高数学成绩最好的方法!(建议永久收藏)

这才是提高数学成绩最好的方法!(建议永久收藏)

户外阿毽
2026-04-27 09:46:34
华谊兄弟破产!坐拥冯小刚,黄晓明等百位明星,8年亏光80多亿

华谊兄弟破产!坐拥冯小刚,黄晓明等百位明星,8年亏光80多亿

情感大头说说
2026-04-29 00:29:20
刺激夜:曼联2-1,中国男足爆冷2-0意大利,吴宜泽13-11进世锦赛8强

刺激夜:曼联2-1,中国男足爆冷2-0意大利,吴宜泽13-11进世锦赛8强

侧身凌空斩
2026-04-28 05:58:58
李斌现场演示做饭!蔚来全新车型预售15.98万起

李斌现场演示做饭!蔚来全新车型预售15.98万起

汽车工程师
2026-04-28 22:04:44
一个被拦截的故事:我们为何读不到它

一个被拦截的故事:我们为何读不到它

晚风也遗憾
2026-04-28 00:29:58
偶遇甲骨文创始人一家四口,朱可人穿超短裙腿白又嫩,孩子拽走光

偶遇甲骨文创始人一家四口,朱可人穿超短裙腿白又嫩,孩子拽走光

嫹笔牂牂
2026-04-28 07:25:44
《方圆八百米》《黑夜告白》一个已弃剧,一个追上头,差别太明显

《方圆八百米》《黑夜告白》一个已弃剧,一个追上头,差别太明显

剧芒芒
2026-04-27 17:01:22
好消息!首都机场高速将有大变化!

好消息!首都机场高速将有大变化!

大北京早知道
2026-04-28 17:59:40
赵心童迎最强帮手!丁俊晖没看错人,吴宜泽崛起奥沙利文捂脸无奈

赵心童迎最强帮手!丁俊晖没看错人,吴宜泽崛起奥沙利文捂脸无奈

曹说体育
2026-04-28 16:21:14
央行终于出手!借呗、微粒贷逾期的朋友,再不用为网络支付为难了

央行终于出手!借呗、微粒贷逾期的朋友,再不用为网络支付为难了

我不叫阿哏
2026-04-27 11:09:33
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
法国前总理儿子隐居香港小岛:我和中国有很深的连结

法国前总理儿子隐居香港小岛:我和中国有很深的连结

一条
2026-04-27 11:49:41
四人帮被捕,王洪文的反应最激烈,但在接受审讯时,他的态度最好

四人帮被捕,王洪文的反应最激烈,但在接受审讯时,他的态度最好

历史点行
2026-04-29 01:41:59
天降惩罚,日本才遭强震,又来山火肆虐!民众呼吁中国救援

天降惩罚,日本才遭强震,又来山火肆虐!民众呼吁中国救援

趣文说娱
2026-04-27 21:59:52
中国3大“助眠”食物,莲子排第三,第一名我们天天见,却很少吃

中国3大“助眠”食物,莲子排第三,第一名我们天天见,却很少吃

江江食研社
2026-01-18 07:30:06
英媒:中国最令人佩服的,就是美欧联手绞杀中国光伏,竟还能翻身

英媒:中国最令人佩服的,就是美欧联手绞杀中国光伏,竟还能翻身

杰丝聊古今
2026-04-19 01:18:49
自助餐还有猫腻?终于知道为啥一吃就饱,这几个坑挖得防不胜防

自助餐还有猫腻?终于知道为啥一吃就饱,这几个坑挖得防不胜防

丁丁鲤史纪
2026-04-28 16:19:12
2026-04-29 02:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15086文章数 66818关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

游戏
艺术
时尚
旅游
家居

这不爽翻了?曝PS6或能稳稳运行60帧+光追的游戏画面

艺术要闻

京东浙江总部公示,99.99米高,中国第一民企落子民营大省!

普通女性春天穿什么好看?这些穿搭值得借鉴,自然舒适

旅游要闻

莫让内卷式竞争削弱旅游消费信心

家居要闻

江景风格 流动的秩序

无障碍浏览 进入关怀版