网易首页 > 网易号 > 正文 申请入驻

性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型

0
分享至

新智元报道

编辑:拉燕

【新智元导读】Inflection-2最新发布!性能碾压一众大厂模型,仅输一手GPT-4,还要集成到Pi?

最近,InflectionAI发布了全新的一款AI模型。

更炸裂的是InfectionAI对这款模型的评价——性能直超谷歌和Meta开发的两款模型,紧随OpenAI的GPT-4之后。

到底是什么样的表现让InflectionAI能夸下如此海口呢?

在介绍具体的模型性能以前,我们先来看看它的基本信息。

这款AI模型名叫Inflection-2,在多项标准的基准测试中,成绩碾压谷歌5月发布的PaLM Large 2模型,还在很多不同的项目中击败了Meta开发的LLaMA-2.

这么来看,InflectionAI确实可以有这个自信。

公司内部人员表示,总体而言Inflection的新模型是同类产品中性能最好的,可以说仅次于OpenAI发布的旗舰模型 GPT-4,而后者我们都知道,要大得多。

InflectionAI的首席执行官Mustafa Suleyman在接受采访时表示,「我们相信,我们只是处于下一步技术推进的起点,AI模型所展现出来的性能,以及即将出现的新功能确实令人震撼。」

集成到Pi?

除了新模型的发布,还有另外一个重磅信息。

相关人员表示,新发布的模型将很快集成到Inflection于5月份发布的聊天机器人Pi中。

CEO Suleyman也讲到,首先模型的集成还需要一些额外的工作,即「对齐」,技术人员会教它Pi的语气和回答风格,并帮助Pi在吸收最新信息时更好地发挥作用,而不会产生额外的幻觉。

「无论你想就种族、性别、政治、竞家OpenAI,或当下任何有争议的问题进行可能有那么点敏感的对话,Pi都会非常巧妙、谨慎地与你进行实事求是的交流,并实时在互联网上获取信息。Pi将很快更新出新模式。」

Suleyman表示,不会太久。但是具体发布日期却没有明说。

同时,他也不愿意提供聊天机器人Pi的最新用户数量,但表示Pi非常受欢迎,用户留存率相当高。

要知道,两周前,OpenAI曾经披露其免费的ChatGPT服务的周用户数量已达到1亿。

当然,这之后还发生了我们耳熟能详的OpenAI董事会版宫斗,突然临时解雇了首席执行官Sam Altman(当然现在他已经回来了)。

不过,预计Pi发布后,InflectionAI的用户量也会有一波大规模的上涨。毕竟Inflection发布的大型语言模型号称是 当今世界上能力第二强的LLM。

相比LLM业内也会因为Inflection-2的发布继续出现动荡的局面。

此外,CEO Suleyman表示,Inflection AI在今年早些时候刚刚获得了一轮13亿美元的融资,不过这笔大额融资也并没有提前Inflection-2的发布。

不过,舆论场中有些声音还是传了出来,InflectionAI将会在年底发布新模型。但Suleyman表示,模型的训练已经结束,还有一些后续工作需要处理,所以发布时间出现了推迟。

性能吊打一众模型,只输GPT-4

为了训练Inflection-2,Inflection AI使用了5000个英伟达H100图形处理器(GPU),要知道,训练Inflection-2的前身模型,使用的是几千个相对比较旧的A100图形处理器。

Suleyman表示,新模型的训练速度更快、成本更低,但即便如此,还是能处理大量运算(10的25次方FLOPs)。

InflectionAI还与微软、英伟达和CoreWeave在进行紧密合作,管理其庞大的计算集群。

Inflection用一些专业级任务的流行基准(MMLU)测试了新模型的性能,该基准向模型提出了从各类世界知识到问题解决和道德规范等57个主题的各种问题。

下图即为Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM 2之间的性能对比。

我们可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六项基准上,Inflection-2都拔得了头筹。

Suleyman表示,Inflection-2的性能已经超过了最大的700亿参数版本的LLaMA 2、马斯克xAI的Grok-1、谷歌的 PaLM 2 Large和Anthropic的Claude 2,性能仅次于GPT-4。

报告显示,新模型在七项科学性回答的基准测试中,除两项外,均击败了LLaMA 2和PaLM 2模型,它还在三项问答任务基准测试中的两项测试中表现最佳,但在一项测试中输给了PaLM 2 Large。

此外,在四项数学和代码基准测试中,它的成绩依旧可圈可点,虽说这些领域和前面的测试比起来没那么是重点。

不过,在OpenAI已分享结果的两项基准测试中,它的成绩远远落后于GPT-4。

Suleyman继续介绍说,虽然除了AI研究人员和开发人员之外,这些基准测试对其他普通人来说可能并没那么重要,但微小的改进就能让笨拙的原型与生产级、可靠且高质量的模型截然不同。

总的来说,Suleyman认为Inflection-2在同类产品中可以说是规模最大的,与GPT-4非常非常接近。

从行动上,我们也可以看到InflectionAI对新模型的满意程度。公司规划显示,从现在起,Inflection就将把培训重点转移到下一个型号的模型上。

相关人士预测说,下一个型号的模型(大胆猜测是Inflection-3)将在六个月内达到刚聊完的新模型的10倍,而再过六个月,性能又将达到上一代型号的10倍。

一句话说明,就是InflectionAI的人有自信,在12个月内,让模型规模翻个一百倍。

个人助理「Pi」

对于不熟悉的朋友,咱们还是掉过头来再讲讲InflectionAI的个人助理「Pi」。

咱们可以这么说,CEO Suleyman的认知里,这一切都是很自洽的。

曾经,他还写过一本书《The Coming Wave》,全书有一个核心观点就是,未来AI能让人类彻底远离心理问题。

而Suleyman之所以有这样的论断,也许和他自己的经历有关:

1984年,他出生于伦敦北部,父亲是叙利亚人,母亲是英国人。他在贫困中长大,16岁时,父母分居,两人都移居国外,留下他和弟弟自谋生路。

后来他被牛津大学录取,学习哲学和神学,但一年后就退学了。

这种人生经历,让Suleyman格外关注人类的心理健康。当然,就少不了这一part和涌现出来的新技术的结合。

他的这番说法也绝不是空想,他创立的Inflection AI,目标就是开发出一个全能的个人助理,解决每个人在生活中可能遇到的几乎一切问题。

这个个人助理,就是「Pi」。

而这一切也是有理论基础的。

心理学还真有这个研究:聊天机器人相比人类有着更高的情感认知。

测试针对的是人类在不同场景下表现出来的同理心进行打分。测试对象被给予20种情感情境的详细描述,比如葬礼、职业成功或侮辱,并描述他们在这种情况下可能感受到的情绪。

情绪描述越详细、越容易理解,情绪意识水平量表(LEAS)得分越高。

研究人员使用与人类反应相同的标准来评估ChatGPT的反应,并将结果与先前在法国17至84岁人群(n = 750)中进行的研究进行了比较。

在进行的两次测试中,ChatGPT获得了85和98的高分,而人类的表现就完全被AI碾压。男性56,女性59分,甚至没有及格。

很多研究结果都曾指出,AI聊天机器人在心理健康方面可以为人类提供其他任何工具都没法比拟的帮助。

可以这么说,相比于其他生产效率方面的应用,大语言模型似乎天生就更适合进行感情方面的理解和沟通。毕竟,人类之间传递感情,语言是最重要的载体。

那么,Suleyman创立的Inflection AI推出的个人助理「Pi」已经上线有几个月,表现究竟如何,大家心里可能也都有定论了。

我们可以看到,Pi的登录界面还是非常简洁的。

进入到Pi的聊天页面,点击左下角的田字格,可以看到官方为用户准备的几个常用场景。

每个场景相当于一个定制化指令,选择一个之后,就会自动给聊天机器人设定一个工作环境。

聊天机器人也会针对每个场景给用户一个开头的提示,比如选择了「motive myself」之后,系统会提示我要如何开始聊天。

总而言之,「Pi」寄托了Suleyman的美好愿望。

而有了新模型Inflection-2的加持,相信「Pi」会迸发出更加不一样的火花。

说不定,真能充当心理咨询的角色呢。

参考资料:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋圣龙与申花的博弈,就在年底到期的合同上

蒋圣龙与申花的博弈,就在年底到期的合同上

米奇兔
2026-05-04 13:40:48
特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

每日经济新闻
2026-05-03 09:07:16
年轻人累死累活挣三四千,老人拿七八千退休金,该如何解决?

年轻人累死累活挣三四千,老人拿七八千退休金,该如何解决?

猫叔东山再起
2026-05-02 10:40:17
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
深度 | 苏林将访印度,与莫迪谈什么?

深度 | 苏林将访印度,与莫迪谈什么?

上观新闻
2026-05-04 21:31:08
什么是985大学?什么是211大学?什么是双一流大学?这里一次说清

什么是985大学?什么是211大学?什么是双一流大学?这里一次说清

悦动教育屋
2026-05-03 07:50:49
美国女高管被控性侵已婚男下属,强行进入夫妇卧室欲“上弓”

美国女高管被控性侵已婚男下属,强行进入夫妇卧室欲“上弓”

译言
2026-05-05 05:53:22
美军称悬挂美国国旗商船通过霍尔木兹海峡,原油直线回落,黄金、白银飘绿

美军称悬挂美国国旗商船通过霍尔木兹海峡,原油直线回落,黄金、白银飘绿

证券时报e公司
2026-05-04 22:15:39
悲催!河北女子晒百万存款,却因丈夫负债萌生跑路念头,评论炸锅

悲催!河北女子晒百万存款,却因丈夫负债萌生跑路念头,评论炸锅

火山詩话
2026-05-04 08:58:03
从孤立到疯抢!委内瑞拉石油法大改,美欧资本争相重返

从孤立到疯抢!委内瑞拉石油法大改,美欧资本争相重返

日新现场
2026-05-04 06:45:12
遍地倒闭、批量合并!央企国企扎堆成立的数科公司,为啥死了大半

遍地倒闭、批量合并!央企国企扎堆成立的数科公司,为啥死了大半

细说职场
2026-05-03 20:11:19
孙楠参加五一晚会压轴出场,瘦成锥子脸,自爆通过饮食法瘦20斤

孙楠参加五一晚会压轴出场,瘦成锥子脸,自爆通过饮食法瘦20斤

白面书誏
2026-05-04 15:40:22
伦敦世乒赛:奥运亚军输球!1:3不敌日本早田希娜,张本美和2连胜

伦敦世乒赛:奥运亚军输球!1:3不敌日本早田希娜,张本美和2连胜

国乒二三事
2026-05-04 11:43:30
20多年前陈红在陈凯歌家拍照,她躺在沙发上的样子,堪称人间尤物!

20多年前陈红在陈凯歌家拍照,她躺在沙发上的样子,堪称人间尤物!

感觉会火
2026-04-28 21:18:46
1分钟抢光!发售价5999元被炒到9.99万元,网友:到底谁在买……

1分钟抢光!发售价5999元被炒到9.99万元,网友:到底谁在买……

晋江电视台
2026-05-02 12:01:08
地震了,7国一致对付中国,中企首波反制已出,禁止收回港口租约

地震了,7国一致对付中国,中企首波反制已出,禁止收回港口租约

梦史
2026-05-05 04:15:23
孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

映射生活的身影
2026-05-03 02:46:28
【五四运动】当事人曹汝霖晚年回忆说:不明不白,牺牲了我们三人

【五四运动】当事人曹汝霖晚年回忆说:不明不白,牺牲了我们三人

年之父
2026-05-04 00:00:04
亨德利称赞吴宜泽:他太出色了,打球很规范而且敢于进攻

亨德利称赞吴宜泽:他太出色了,打球很规范而且敢于进攻

懂球帝
2026-05-04 18:24:14
爆大冷!随着曼城3-3绝平,切尔西1-3森林,英超积分榜出炉

爆大冷!随着曼城3-3绝平,切尔西1-3森林,英超积分榜出炉

阿薎美食
2026-05-05 06:00:48
2026-05-05 06:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15130文章数 66835关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

健康
教育
艺术
游戏
时尚

干细胞治烧烫伤面临这些“瓶颈”

教育要闻

中考数学,这10分的压轴题,得5分就不错了

艺术要闻

震惊!43岁妈妈晒女儿合影,30万网友猜测身份!

PS6新爆料太狠了:SSD性能翻倍 还能玩PS5游戏

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

无障碍浏览 进入关怀版