网易首页 > 网易号 > 正文 申请入驻

AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!

0
分享至

我们正在见证AI加速科学时代的到来。

7月30日,AI科学发现公司Autopoiesis Sciences宣布,其人工智能联合科学家Aristotle X1 Verify在多项基准测试中取得了显著成果,性能超越了所有主流AI模型。

据悉,Aristotle X1 Verify在推理基准测试GPQA Diamond中达到了92.4%的准确率,高于Grok 4 Heavy(88.9%)、Gemini 2.5 Pro(86.4%)、OpenAI o3(83.3%)。

更惊人的是,Aristotle X1 Verify在事实性基准测试SimpleQA中获得了96.1%的准确率,断层领先Gemini 2.5 Pro(52.9%)、OpenAI o3(49.%)和DeepSeek R1-0528(27.8%)。

同时,公司官宣了由Informed Ventures(金沙江创投在美国的机构)领投的新一轮融资,Mike Mahkow、Cross Atlantic Angels、Tomas Urena Munoz等参投。

成立于2025年的Autopoiesis,致力于构建科学超级智能,以前所未有的方式加速科学发现,并帮助治愈此前被认为无法治愈的疾病。

公司联合创始人、CEOJoseph Reth出生于2002,14岁进入莫德斯托初级学院,16岁创办数字营销公司RethDigital,客户包括HBO、Whole Foods、现代汽车等知名公司,他曾就读于旧金山州立大学计算机科学专业,之后辍学创业。

越来越多的证据表明,AI的关注重点正在转向科学发现,解决那些能推动科技飞跃的“1%的顶尖问题”。

牛津大学教授Will MacAskill预测,AI有望在不到10年的时间里,推动相当于过去一个世纪的技术进步,为延长人类寿命、太空探索、气候变化和可控核聚变等领域带来新的突破性进展。

最懂科学的模型,性能逆天

Autopoiesis开发的Aristotle X1 Verify 在两项关键的基准测试中取得了惊艳表现,超越了包括xAI的Grok4、谷歌的Gemini 2.5 Pro、OpenAI o3在内的主流AI模型。

这一成就的亮点在于,Aristotle X1 Verify不仅在复杂推理任务上表现卓越,更在科学思维方面取得了突破。

在推理基准测试GPQA Diamond上,Aristotle X1 Verify取得了92.4%的准确率。

GPQA Diamond包含198 道高难度的STEM领域(如物理、化学、生物学和经济学)问答题,旨在评估模型在需要深度理解和多步骤推理时的能力。

更值得关注的是,该系统在SimpleQA 基准测试中,也达到了96.1%的高准确率。

SimpleQA由OpenAI推出,专注于简短的事实性问题,用以衡量模型是否“知道自己知道什么”,以此解决当前AI普遍存在的“幻觉”问题。

在此之前,主流模型在SimpleQA上的表现均不佳,就连Gemini 2.5 Pro这样的顶级模型的准确率也仅仅为52.9%,尚不及格。

这暴露了当下主流AI的核心问题:它们擅长模仿推理,但缺乏真正的理解。

这些模型常常在缺乏知识的情况下“自信地编造答案”,无法区分自己真正掌握的知识和仅仅通过模式匹配得出的结论。

Autopoiesis认为,可错论(fallibilism)——认为所有科学知识都是暂时的,并且会根据新证据不断修正,是推动科学突破的基本原则。

公司因此构建了首个符合该原则的AI,将自我验证机制系统地融入到推理之中。

当证据不足时,模型会承认其局限性;当面临多种理论时,模型会进行适当权衡;当计算涉及不确定性时,模型会通过推理来传递这种不确定性。

如此,AI具备了识别自身局限性的能力,避免自信地给出错误答案。

Autopoiesis强调,这种能力并非可有可无,而是构建科学超级智能(Scientific superintelligence)的根本要求。

公司相信,通过将怀疑嵌入到推理的每一层,可以为AI赋能科学发现奠定基础,使其最终能够自主操作实验室,并进行超越人类想象的科学发现。

目前,该模型已向部分研究人员开放免费提前体验,名额有限,可以打开下方链接进行申请。

https://autopoiesis.typeform.com/to/Ub9gjetp?typeform-source=autopoiesis.science

02年少年创业,8人团队打造强大AI科学家

Autopoiesis的创始团队,横跨“老中青”三代。

公司首席执行官Joseph Reth,出生于2002年,他的同龄人才刚刚大学本科毕业,而他已经是一名经验丰富的AI领域创业者了。

他的人生时钟,每一步都要比普通人更早。

在美国,社区大学的入学年龄一般为18周岁,个别地区可以放宽到16周岁。而Joseph Reth在14岁时便进入莫德斯托初级学院(Modesto Junior College),学习计算机。

之后他进入旧金山州立大学,同样是计算机科学专业,但也许是看到了更好的创业机会,他选择中途辍学。

16岁,他创办了数字营销公司RethDigital,用AI重构品牌广告代理,投放在TikTok、Instagram和Twitter等平台。

到2021年,RethDigital的年度经常性收入(ARR)已经达到110万美元,客户包括知名付费电视网HBO、美国最大的有机食品超市Whole Foods等知名企业。

尽管在利用AI进行营销方面做得有声有色,但他的志向远不止于此。

2022年,Joseph Reth创立了Lossless Research,致力于通过创建AI系统来揭开人类意识的奥秘。

他将目光锁定到了如何创造出拥有类似人类意识的AI,探索实现这一目标所需的计算和架构要求。

在这一段创业历程,他已不再局限于AI应用层面,而是深入探索AI的底层机制,这很可能为日后Autopoiesis 的创立埋下了伏笔。

图:Joseph Reth(左)、Larry Callahan(中)和Eike Gerhardt(右)

公司首席商务官Eike Gerhardt,曾长期在德意志银行任职,并曾担任Targobank金融顾问和Schumpeter Ventures投资经理,他还是蒂宾根大学的讲师。

公司首席科学家Larry Callahan,拥有芝加哥大学化学博士学位,在FDA工作超过16年,负责全球物质注册系统(Global Substance Registration System)的开发,还曾担任Trials of Life首席科学家,致力于提高临床研究的效率和透明度。

目前,Autopoiesis的团队由8位成员组成,公司正在招聘更多研究人员和工程师,加速构建AI辅助科学发现的基础,开发下一代模型。

Informed Ventures的合伙人Sunny Kumar对公司充满期待,认为其解决了科学家在使用AI时遇到的核心难题:如何可靠地生成准确结果并避免“幻觉”。

他表示,“科学超级智能”将以前所未有的方式加速科学发现,科学家应广泛采用值得信赖的AI助手,从而指数级推动研究进程。

超级人工智能,颠覆科学发现

Anthropic 联合创始人兼CEODario Amodei曾预测,强大的AI将极大地加速生物学和神经科学的发展,将原本需要50-100年才能实现的突破,压缩到5-10年内完成。

我们正在进入一个“压缩的21世纪”,AI 不再仅仅是数据分析工具,更将成为“虚拟生物学家”,设计实验、指导研究,甚至操作实验室机器人,将效率提高数十倍甚至更多。

这一愿景正逐步变为现实。

今年6月,斯坦福大学等多个机构联合发表的Biomni智能体,已经初步展现了 AI 在生命科学领域的“通用”能力,能够像真正的科学家一样,调用专业软件、查询数据库、甚至指导湿实验,自主执行跨越多个领域的复杂研究任务。

3月,Flagship Pioneering领投了Lila Sciences的2亿美元种子轮融资,展现了顶级机构对这一领域的看好。

成立于2023年的Lila Sciences致力于推出世界上第一个用于生命、化学和材料科学的科学超级智能平台和自主实验室,以快速扩展人类知识并突破当今可能的极限。

在短短几年的开发中,Lila Sciences的平台在医疗、材料、环境等领域展示了超越人类的科学性能,包括:

  • 具有最先进推理能力的大语言模型,能对重要科学问题和科学情报进行搜索推理;

  • 产生优于市售疗法的最佳基因医学产品;

  • 发现和验证数百种用于广泛治疗靶点的新型抗体、肽和结合剂;

  • 在绿色氢气生产中产生独特的非铂族金属作为催化剂,而成本仅为当前商业催化剂的一小部分;

  • 设计用于工业规模碳捕获的新材料,并且具有更好的容量、热稳定性和动力学结合力。

可以预见,AI的不断发展,推动人类在科学领域的探索迈入一个全新的时代

—The End—

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两名加拿大年轻机长壮烈牺牲!

两名加拿大年轻机长壮烈牺牲!

Nee看
2026-03-25 00:33:21
一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

不二大叔
2026-03-19 21:29:20
德媒:安世半导体才值几分钱?欧洲没抢对地方,真正值钱的是中国

德媒:安世半导体才值几分钱?欧洲没抢对地方,真正值钱的是中国

Thurman在昆明
2026-03-24 14:11:19
新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

白云故事
2025-03-21 17:50:07
身上发痒一查竟是肝癌?4个“不起眼”的症状,太多人忽视

身上发痒一查竟是肝癌?4个“不起眼”的症状,太多人忽视

新时代的两性情感
2026-03-24 09:49:37
重磅发现:天文学家发现一颗可能宜居的行星,距地球仅10.7光年

重磅发现:天文学家发现一颗可能宜居的行星,距地球仅10.7光年

丁丁鲤史纪
2026-03-24 14:35:30
全世界的鼻子都要气歪了

全世界的鼻子都要气歪了

牛弹琴
2026-03-24 08:02:23
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
上海百年老店官宣闭店!

上海百年老店官宣闭店!

上海约饭局
2026-03-21 18:05:25
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
欧盟终于硬气!撕破欧尔班通俄面具,小团体重守欧洲底线

欧盟终于硬气!撕破欧尔班通俄面具,小团体重守欧洲底线

老马拉车莫少装
2026-03-23 16:20:11
震惊!中国女孩直播中东,土豪5分钟豪掷100万!

震惊!中国女孩直播中东,土豪5分钟豪掷100万!

果子爱吃糖
2026-03-23 16:28:11
CBA东北德比,辽宁vs吉林,赛前带来赵继伟、布罗金顿、新外援以及吉林队姜伟泽最新消息

CBA东北德比,辽宁vs吉林,赛前带来赵继伟、布罗金顿、新外援以及吉林队姜伟泽最新消息

凯丰侃球
2026-03-25 00:12:32
废旧手机回收迎来“火热期”!有市民一次性卖五六部变现近千元

废旧手机回收迎来“火热期”!有市民一次性卖五六部变现近千元

闪电新闻
2026-03-24 14:50:40
中国失散的“亲兄弟”,默默为中国“挡刀”,向中国人敞开大门!

中国失散的“亲兄弟”,默默为中国“挡刀”,向中国人敞开大门!

小莜读史
2026-03-24 19:14:04
农夫山泉:2025全年营收525.5亿元人民币 同比增长22.5%

农夫山泉:2025全年营收525.5亿元人民币 同比增长22.5%

财联社
2026-03-24 19:08:24
队医错把姆总右腿当左腿!曝皇马已开除医疗团队

队医错把姆总右腿当左腿!曝皇马已开除医疗团队

体坛周报
2026-03-24 09:29:09
通牒变停火?美国这场赌局已经露了底牌

通牒变停火?美国这场赌局已经露了底牌

看看新闻Knews
2026-03-23 20:53:13
快讯!尹乃菁的反水给郑丽文敲响了警钟!

快讯!尹乃菁的反水给郑丽文敲响了警钟!

达文西看世界
2026-03-24 10:01:06
离谱!姚晨侯雯元绯闻升级,更多亲密互动曝光,曹郁被质疑已再婚

离谱!姚晨侯雯元绯闻升级,更多亲密互动曝光,曹郁被质疑已再婚

壹月情感
2026-03-18 15:22:52
2026-03-25 01:36:49
智药局 incentive-icons
智药局
我们更懂药物创新
1085文章数 203关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

教育
本地
亲子
时尚
手机

教育要闻

多地中考改革调整开闭卷科目

本地新闻

春日吃花第一站——云南

亲子要闻

这是我们全家到目前为止最喜欢吃的三明治,没有之一! 杨雪呀

豪门梦破碎后,她居然还能爆红?

手机要闻

OPPO A6X手机现身中国电信终端产品库,至高8GB+256GB规格

无障碍浏览 进入关怀版