网易首页 > 网易号 > 正文 申请入驻

性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型

0
分享至


新智元报道

编辑:拉燕

【新智元导读】Inflection-2最新发布!性能碾压一众大厂模型,仅输一手GPT-4,还要集成到Pi?

最近,InflectionAI发布了全新的一款AI模型。

更炸裂的是InfectionAI对这款模型的评价——性能直超谷歌和Meta开发的两款模型,紧随OpenAI的GPT-4之后。

到底是什么样的表现让InflectionAI能夸下如此海口呢?

在介绍具体的模型性能以前,我们先来看看它的基本信息。

这款AI模型名叫Inflection-2,在多项标准的基准测试中,成绩碾压谷歌5月发布的PaLM Large 2模型,还在很多不同的项目中击败了Meta开发的LLaMA-2.


这么来看,InflectionAI确实可以有这个自信。

公司内部人员表示,总体而言Inflection的新模型是同类产品中性能最好的,可以说仅次于OpenAI发布的旗舰模型 GPT-4,而后者我们都知道,要大得多。

InflectionAI的首席执行官Mustafa Suleyman在接受采访时表示,「我们相信,我们只是处于下一步技术推进的起点,AI模型所展现出来的性能,以及即将出现的新功能确实令人震撼。」

集成到Pi?

除了新模型的发布,还有另外一个重磅信息。

相关人员表示,新发布的模型将很快集成到Inflection于5月份发布的聊天机器人Pi中。

CEO Suleyman也讲到,首先模型的集成还需要一些额外的工作,即「对齐」,技术人员会教它Pi的语气和回答风格,并帮助Pi在吸收最新信息时更好地发挥作用,而不会产生额外的幻觉。

「无论你想就种族、性别、政治、竞家OpenAI,或当下任何有争议的问题进行可能有那么点敏感的对话,Pi都会非常巧妙、谨慎地与你进行实事求是的交流,并实时在互联网上获取信息。Pi将很快更新出新模式。」


Suleyman表示,不会太久。但是具体发布日期却没有明说。

同时,他也不愿意提供聊天机器人Pi的最新用户数量,但表示Pi非常受欢迎,用户留存率相当高。

要知道,两周前,OpenAI曾经披露其免费的ChatGPT服务的周用户数量已达到1亿。

当然,这之后还发生了我们耳熟能详的OpenAI董事会版宫斗,突然临时解雇了首席执行官Sam Altman(当然现在他已经回来了)。

不过,预计Pi发布后,InflectionAI的用户量也会有一波大规模的上涨。毕竟Inflection发布的大型语言模型号称是 当今世界上能力第二强的LLM。

相比LLM业内也会因为Inflection-2的发布继续出现动荡的局面。

此外,CEO Suleyman表示,Inflection AI在今年早些时候刚刚获得了一轮13亿美元的融资,不过这笔大额融资也并没有提前Inflection-2的发布。

不过,舆论场中有些声音还是传了出来,InflectionAI将会在年底发布新模型。但Suleyman表示,模型的训练已经结束,还有一些后续工作需要处理,所以发布时间出现了推迟。

性能吊打一众模型,只输GPT-4

为了训练Inflection-2,Inflection AI使用了5000个英伟达H100图形处理器(GPU),要知道,训练Inflection-2的前身模型,使用的是几千个相对比较旧的A100图形处理器。

Suleyman表示,新模型的训练速度更快、成本更低,但即便如此,还是能处理大量运算(10的25次方FLOPs)。

InflectionAI还与微软、英伟达和CoreWeave在进行紧密合作,管理其庞大的计算集群。

Inflection用一些专业级任务的流行基准(MMLU)测试了新模型的性能,该基准向模型提出了从各类世界知识到问题解决和道德规范等57个主题的各种问题。

下图即为Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM 2之间的性能对比。


我们可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六项基准上,Inflection-2都拔得了头筹。

Suleyman表示,Inflection-2的性能已经超过了最大的700亿参数版本的LLaMA 2、马斯克xAI的Grok-1、谷歌的 PaLM 2 Large和Anthropic的Claude 2,性能仅次于GPT-4。

报告显示,新模型在七项科学性回答的基准测试中,除两项外,均击败了LLaMA 2和PaLM 2模型,它还在三项问答任务基准测试中的两项测试中表现最佳,但在一项测试中输给了PaLM 2 Large。

此外,在四项数学和代码基准测试中,它的成绩依旧可圈可点,虽说这些领域和前面的测试比起来没那么是重点。

不过,在OpenAI已分享结果的两项基准测试中,它的成绩远远落后于GPT-4。

Suleyman继续介绍说,虽然除了AI研究人员和开发人员之外,这些基准测试对其他普通人来说可能并没那么重要,但微小的改进就能让笨拙的原型与生产级、可靠且高质量的模型截然不同。

总的来说,Suleyman认为Inflection-2在同类产品中可以说是规模最大的,与GPT-4非常非常接近。

从行动上,我们也可以看到InflectionAI对新模型的满意程度。公司规划显示,从现在起,Inflection就将把培训重点转移到下一个型号的模型上。

相关人士预测说,下一个型号的模型(大胆猜测是Inflection-3)将在六个月内达到刚聊完的新模型的10倍,而再过六个月,性能又将达到上一代型号的10倍。

一句话说明,就是InflectionAI的人有自信,在12个月内,让模型规模翻个一百倍。

个人助理「Pi」

对于不熟悉的朋友,咱们还是掉过头来再讲讲InflectionAI的个人助理「Pi」。

咱们可以这么说,CEO Suleyman的认知里,这一切都是很自洽的。

曾经,他还写过一本书《The Coming Wave》,全书有一个核心观点就是,未来AI能让人类彻底远离心理问题。

而Suleyman之所以有这样的论断,也许和他自己的经历有关:

1984年,他出生于伦敦北部,父亲是叙利亚人,母亲是英国人。他在贫困中长大,16岁时,父母分居,两人都移居国外,留下他和弟弟自谋生路。

后来他被牛津大学录取,学习哲学和神学,但一年后就退学了。

这种人生经历,让Suleyman格外关注人类的心理健康。当然,就少不了这一part和涌现出来的新技术的结合。

他的这番说法也绝不是空想,他创立的Inflection AI,目标就是开发出一个全能的个人助理,解决每个人在生活中可能遇到的几乎一切问题。

这个个人助理,就是「Pi」。


而这一切也是有理论基础的。

心理学还真有这个研究:聊天机器人相比人类有着更高的情感认知。

测试针对的是人类在不同场景下表现出来的同理心进行打分。测试对象被给予20种情感情境的详细描述,比如葬礼、职业成功或侮辱,并描述他们在这种情况下可能感受到的情绪。

情绪描述越详细、越容易理解,情绪意识水平量表(LEAS)得分越高。

研究人员使用与人类反应相同的标准来评估ChatGPT的反应,并将结果与先前在法国17至84岁人群(n = 750)中进行的研究进行了比较。

在进行的两次测试中,ChatGPT获得了85和98的高分,而人类的表现就完全被AI碾压。男性56,女性59分,甚至没有及格。


很多研究结果都曾指出,AI聊天机器人在心理健康方面可以为人类提供其他任何工具都没法比拟的帮助。

可以这么说,相比于其他生产效率方面的应用,大语言模型似乎天生就更适合进行感情方面的理解和沟通。毕竟,人类之间传递感情,语言是最重要的载体。

那么,Suleyman创立的Inflection AI推出的个人助理「Pi」已经上线有几个月,表现究竟如何,大家心里可能也都有定论了。


我们可以看到,Pi的登录界面还是非常简洁的。


进入到Pi的聊天页面,点击左下角的田字格,可以看到官方为用户准备的几个常用场景。

每个场景相当于一个定制化指令,选择一个之后,就会自动给聊天机器人设定一个工作环境。

聊天机器人也会针对每个场景给用户一个开头的提示,比如选择了「motive myself」之后,系统会提示我要如何开始聊天。


总而言之,「Pi」寄托了Suleyman的美好愿望。

而有了新模型Inflection-2的加持,相信「Pi」会迸发出更加不一样的火花。

说不定,真能充当心理咨询的角色呢。

参考资料:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧美曝世纪惊魂大瓜!曝莱昂纳多婴儿瓶合影,人性垂丧晚节不保?

欧美曝世纪惊魂大瓜!曝莱昂纳多婴儿瓶合影,人性垂丧晚节不保?

龙猫爱娱乐
2024-02-25 09:59:41
最近怎么啦?南京火灾后,黑龙江佳木斯一高层建筑被火海吞噬……

最近怎么啦?南京火灾后,黑龙江佳木斯一高层建筑被火海吞噬……

杂谈哥闲谈
2024-02-25 09:13:56
细数娃哈哈接班人宗馥莉多个身份标签:42岁未婚女强人,曾“抛弃”王力宏

细数娃哈哈接班人宗馥莉多个身份标签:42岁未婚女强人,曾“抛弃”王力宏

法制社会报
2024-02-25 16:33:54
日本网友评中日乒球决战:我们一度让中国队绝望,但孙颖莎太强了

日本网友评中日乒球决战:我们一度让中国队绝望,但孙颖莎太强了

杨华评论
2024-02-24 23:39:30
浙商传奇落幕,宗庆后曾公开“怼”马云,钟睒睒曾是娃哈哈代理商

浙商传奇落幕,宗庆后曾公开“怼”马云,钟睒睒曾是娃哈哈代理商

红星新闻
2024-02-25 17:22:14
大器晚成宗庆后和他生命中的三个女人

大器晚成宗庆后和他生命中的三个女人

元芳有看法
2024-02-25 17:26:54
宗庆后走了,最难过的是农夫山泉和钟睒睒

宗庆后走了,最难过的是农夫山泉和钟睒睒

BT财经
2024-02-25 19:30:51
娃哈哈创始人宗庆后逝世,老员工前往娃哈哈老大楼献花

娃哈哈创始人宗庆后逝世,老员工前往娃哈哈老大楼献花

澎湃新闻
2024-02-25 15:08:30
宗庆后去世,去年夏天和李小琳聚餐,精神状态不佳,宗馥莉遭网暴

宗庆后去世,去年夏天和李小琳聚餐,精神状态不佳,宗馥莉遭网暴

缘木不求娱
2024-02-25 18:13:47
媒体人:中国男篮就地解散 自行安排回国

媒体人:中国男篮就地解散 自行安排回国

直播吧
2024-02-25 18:20:17
5航母堵门, 美要大陆离开金门海域! 中方警告后, 美航母直接跑路

5航母堵门, 美要大陆离开金门海域! 中方警告后, 美航母直接跑路

方看世界
2024-02-25 15:05:17
娃哈哈董事长宗庆后病逝,一生感情专一,婚礼前曾“失踪”一个月

娃哈哈董事长宗庆后病逝,一生感情专一,婚礼前曾“失踪”一个月

谭公子
2024-02-25 15:56:10
“新加坡航展期间一德国空军运输机拒绝中国籍游客参观”?空客官微回应

“新加坡航展期间一德国空军运输机拒绝中国籍游客参观”?空客官微回应

环球网资讯
2024-02-25 18:41:21
暴跌800亿美元!崩盘信号已经出现,最后的狂欢即将结束

暴跌800亿美元!崩盘信号已经出现,最后的狂欢即将结束

云姐闲聊
2024-02-25 09:47:18
山东一中学原校长,被查!

山东一中学原校长,被查!

鲁中晨报
2024-02-25 19:41:14
雷军发文悼念宗庆后:一代传奇

雷军发文悼念宗庆后:一代传奇

红星资本局
2024-02-25 13:17:13
国企或大型民企纷纷成立人民武装部,释放出什么信号?

国企或大型民企纷纷成立人民武装部,释放出什么信号?

李昕言温度空间
2024-02-23 21:21:41
中国男篮为什么打不过日本队?阿不都沙拉木一席话直接戳中要害

中国男篮为什么打不过日本队?阿不都沙拉木一席话直接戳中要害

懂球哥评球
2024-02-25 16:17:25
原来5年前就烧过!南京火灾幸存者:事故前投诉过10多次,工作人员“摆烂感很强”

原来5年前就烧过!南京火灾幸存者:事故前投诉过10多次,工作人员“摆烂感很强”

上观新闻
2024-02-25 18:23:19
马兴瑞、黄坤明、景俊海、王晓晖等13位省级党委书记,密集谈反腐,释放重要信号

马兴瑞、黄坤明、景俊海、王晓晖等13位省级党委书记,密集谈反腐,释放重要信号

政知新媒体
2024-02-25 21:02:22
2024-02-25 22:06:44
新智元
新智元
AI产业主平台领航智能+时代
10713文章数 65293关注度
往期回顾 全部

科技要闻

一代商业宗师宗庆后:缔造娃哈哈千亿帝国

头条要闻

南京小区火灾遇难者亲属:外甥和女友原定五一结婚

头条要闻

南京小区火灾遇难者亲属:外甥和女友原定五一结婚

体育要闻

88年首败日本,中国男篮到底输在了哪里

娱乐要闻

王阳高斯登顶热搜,一家同框幸福满溢

财经要闻

娃哈哈创始人宗庆后去世 曾3次问鼎首富

汽车要闻

仰望U9或成中国品牌百万级超跑第二选择

态度原创

时尚
教育
手机
艺术
军事航空

是谁的时尚启蒙剧重聚了?

教育要闻

孩子需要的,不仅仅是满足

手机要闻

刚宣布不再做智能手机就发布新机,魅族“All in AI”来的及吗?

艺术要闻

在成都看「永恒的巴黎」人文摄影大师维利·罗尼摄影展

军事要闻

福建海警在金门附近海域开展执法巡查

无障碍浏览 进入关怀版