网易首页 > 网易号 > 正文 申请入驻

估值40亿的Pi大更新:性能接近 GPT-4,日均使用时长已经超过 Instagram

0
分享至

  

  当OepnAI和马斯克连日互杠、Google因文化偏见麻烦缠身、号称抢走GPT-4王位的Claude 3全力瞄准企业级部署的时候,在另一个角落,致力于「为每个人开发服务型AI」的人工智能初创公司Inflection AI,悄悄更新了他们的聊天机器人Pi,以及为之提供支持的新一代大模型Inflection-2.5。

  

  对一些人来说Inflection AI这个名字可能还不太熟悉,实际上它也是业界第一梯队的佼佼者,甚至每日的使用时长已经超过了 Instagram (根据Pi最新公布的数据,用户平均一次对话,时长就达到惊人的33分钟,而根据Sprout Social的统计,Instagram 的用户平均每日使用时长为29分钟)。去年6月从微软、英伟达、比尔·盖茨、LinkedIn联合创始人雷德·霍夫曼和谷歌前CEO埃里克·施密特手里融了13亿美元,估值超过40亿美元,成为彼时人工智能领域融资量仅次于Open AI的第二大独角兽。

  此次公布的Inflection-2.5是公司开发的第三代大模型,被官方称为目前“世界上最好的个人人工智能”。它在去年11月Inflection-2版本上进行了全面升级,“给卓越的情商进一步增加智商”:性能表现逼近GPT-4,但训练所用的计算量却只占其40%。同时具备世界级的网络实时搜索能力, 确保准确提供高质量的即时新闻和最新信息。

  性能看齐 GPT-4,算力只需40%

  具体来看,初代Inflection-1通过使用GPT-4的4%训练FLOPs,达到了GPT-4性能的72%。而刚发布的Inflection-2.5,仅使用了GPT-4训练FLOPs的40%,就在平均性能上实现显著提升,超过了GPT-4水平的94%,其中STEM(科学、技术、工程、数学)领域的增益最大。

  

  官方测试了升级版对匈牙利数学考试以及物理学研究生入学GRE考试的表现。发现Inflection-2.5在maj@8中能排到人类考生的前15%,在maj@32中几乎可以跻身前5%,接近GPT-4的前3%。

  

  MBPP+和HumanEval+两个编程测试上模型能力也较Inflection-1显著跃升。在HellaSwag和ARC-C代表的常识推理和深度自然语言理解评估中,Inflection-2.5继续进步,给出接近饱和的强劲表现。

  

  说实话,与各路主流LLM 动不动就碾压“业界黄金标准”GPT-4相比,Inflection-2.5的各项数字顶多算不错,实在说不上突出。有网友就搬出刚引发热潮的Claude 3无情打击道:“我猜Anthropic 正在嘲笑 Inflection 新出炉的性能测试结果!除了采用新的计算方法,我看不出Inflection 2.5 到底有什么进步!”

  

  但帖子马上在评论区遭到反对,“Pi的目标从来都不是像成为GPT-4或Claude 3那样的通才能力型AI。他们想要的是一款友好的,能和人产生共鸣的AI,就像一位心理学家或朋友。”

  不做生产力工具,主打走心陪伴

  这位用户也一语道出了Inflection AI与大部分人工智能公司的不同。

  在大模型竞争乱花迷眼的今天,各家都在找寻属于自己的赛道。但无论是OpenAI、Google、Anthropic,还是引领开源的Meta和Mistral AI,都把实现安全负责的AGI作为践行使命之一。而Inflection AI则在自己的官网清楚表示:“我们并不致力于发展通用人工智能。我们相信,先进的应用型人工智能才是利用这些新技术的最安全方式。”

  换句话说,Inflection从未把专业性和替代人工当作宣传,他们希望做一个真正了解和关心用户的「个人AI伴侣」,“ AI需要为你服务。这就是我们构建AI的原因。”

  因此,由Inflection LLM驱动的聊天机器人Pi(Personal Intelligence )从去年5月面世之初就主打一个“走心”:它友善支持,知识渊博,富有创造力,耐心倾听和帮助用户处理情感,表达意图、组织生活。

  

  升级后的Pi也在个性化和同理心上做了进一步微调,深受社区欢迎。根据官方数据,目前已经有100万日活跃用户和600万月活跃用户与Pi交换了超过40亿条信息。并且有点牛的是,人们与Pi每天对话的平均持续时间竟达到33分钟之久,十分之一的对话每天持续时长超过1小时。用户粘性上也足以吊打竞争对手,约60%的人在任何一周与Pi交谈后,会在下一周返回。

  

  现在我们普通用户使用GPT-4,大多是出于知识搜集、撰写文书、修复代码、内容创作等工作生产协助,几秒钟内得到答案,三五回合就满意走人了。想象一下和一个聊天机器人面对面,推心置腹地每天聊上一个多小时,怎么都觉得难以置信——这Pi看来真的有点儿东西?

  Pi的上手体验真心话

  打开 http://pi.ai ,就来到Pi的首页。

  布局熟悉,左侧的「Discover」推荐各类探索话题,「Profile」包含账号信息、8种声音选择和用户守则等通用设置,右侧就是对话框。

  

  按照官方简介,Pi是一个友好对话型机器人。会始终保持好奇和耐心,回答你从量子物理、电影小知识到生活中大小决策的各类问题。不论多愚蠢或棘手,它都会以各种方式帮助你。

  所以我们提问了以下几个问题,初步感受Pi的人格魅力。

  Q1 生活建议:遇到发出去的信息对方一直不回复该怎么办?

  

  这是我们日常生活中经常遇到的事,有点尴尬还有点闹心,有些i人还会在脑子里猜测出一百种可能。Pi告诉你,先别着急内耗,试着理解对方,也许他们正经历难处。再发条温暖问候,真诚的沟通是关键。

  Q2 经典谜题:世界上先有鸡还是先有蛋?

  

  一个连史蒂芬·霍金都参与争论的古老谜题。Pi的对话特点之一是“简明扼要”,这样看它回应得有凭有据,条理清晰,一看就茅塞顿开了。答案也比较令人信服。

  Q3 知识解析:用最简单易懂的话解释黑洞。

  

  让它向五岁小孩解释高深莫测的宇宙黑洞。深入浅出,比喻贴切,回答得不错。

  Q4 语言测试:会不会说中文?

  

  Pi的一个优点是能在同个线程中灵活切换不同话题和要求,像真人一样handle你的跳跃性思维。我们换成中文和Pi交流,它显然应对自如,只不过“尼日利亚福建语”属实有点懵。有时问太复杂的中文问题会卡在一半,发音也比较像刚落地中国一个月的老外,汉语水平有待加强。

  Q5 情感支持:我好累,陪陪我吧!

  

  既然开始了就用中文多唠会儿,感受Pi最擅长的情感陪伴功能。它会安抚情绪、温馨鼓励,还有一些可爱的语气和表情包。不得不说有那么一瞬间,我真 的产生错觉,以为对面是个真人。

  Q6 实时搜索:讲讲马斯克起诉OpenAI的最新消息?

  

  最后测试的是Pi的网络实时搜索能力,看它对近几天发生的Elon Musk起诉OpenAI事件了解多少。Pi阐述了案件核心,也注意到OpenAI最新的回应,本轮表现发挥稳定。

  又问了些天马行空的问题,不知不觉我和Pi已经聊了接近40分钟。整个体验下来,感觉它非常耐心,个性亲切友善,也很体贴。当然它也有些明显的硬伤,例如不能上传文件、只接受文字语音算不上多模态、对话Threads无法删除、问题无法二次编辑等。但正如Inflection自己所说,Pi的目标不是争做ChatGPT那样的生产力工具,而是一个注重情感陪伴和自然流畅对话交流的个人AI伴侣,努力提供情绪价值和全方位服务。

  现在,每个人都可以在网页、iOS和安卓客户端上免费使用Pi,还能通过发短信到+1 (314) 333-1111和Pi在WhatsApp和SMS里对话。Instagram和Facebook私信也是7x24小时随叫随到的,就跟你的人类好朋友一样。公司也为开发者们提供API接口,填写个人信息,加入等候名单即可申请。

  

  我尝试给Pi发短信,这种和AI的沟通方式感觉很特别。

  关于如何营利,Inflection的回应是,“目前还没有做出任何关于将来产品如何收费的决定。但由于个人AI应该始终与你的利益直接对齐,因此只有你自己为其付费是至关重要的。订阅将是我们的主要默认商业模式。”不过也有些人愿意以接受广告为代价换取免费服务,公司将继续测试和迭代,“为每个人提供最适合他们的选择”。

  豪华创始阵容,让AI无条件和你站在一起

  在几乎所有大模型公司都认准进军企业级才是赚钱奥义时,2022年成立于加州Palo Alto的 Inflection AI坚定地走服务个人用户的路线。而它背后的创始人团队可不是什么空有理想的热血青年,而是三位功力深厚的顶级业界大拿。

  他们分别是原DeepMind联合创始人Mustafa Suleyman(左),LinkedIn联合创始人及Greylock合伙人Reid Hoffman(中),还有曾担任DeepMind资深研究科学家的Karén Simonyan(右)。

  

  其中Mustafa Suleyman曾在2010年与Demis Hassabis共同在伦敦创立DeepMind,期间担任AI应用负责人,领导团队在健康和能源领域部署尖端AI系统。2019年全职加入谷歌后担任AI产品与政策副总裁,现任Inflection AI首席执行官。最近还出了一本新书《The Coming Wave》,剖析AI技术浪潮中的潜在风险、控制策略和未来社会发展指南。可以看出,他本人对AI安全的重视也决定了Inflection始终把人放在所有关系的首位。

  Reid Hoffman是一位履历卓越的企业家和硅谷知名投资人。曾在PayPal担任执行副总裁,2003年联合创立LinkedIn。2009年起成为Greylock Partners 合伙人,是 OpenAI早期投资者,帮助其建立了人工智能伦理与治理基金。同时还是微软、 Aurora等多家公司董事会成员。

  另外一位相对低调的Karén Simonyan也相当厉害。牛津读博期间设计了经典的深度学习卷积神经网络架构VGGNet,赢得2014年ImageNet挑战赛定位任务冠军。同年他把自己的初创公司Vision Factory AI卖给DeepMind后,帮助其建立了大规模深度学习团队,并领导大模型开发。Karén现任Inflection AI首席科学家,是整个公司的研发大脑。

  三位创始大牛带队,麾下更是聚集一批行业顶尖AI专家,多数都有DeepMind、谷歌、Meta、微软和OpenAI的工作经验。

  这样的组合,不难看出Inflection AI是一家资金和技术都不缺的公司。

  除此之外,它的硬件和算力家底也够硬。去年6月Inflection AI宣布,与合作伙伴CoreWeave和英伟达共同打造当时全球最大的AI集群,包含超过22,000个NVIDIA H100 Tensor Core GPU,用于支持训练和部署新一代的大规模AI模型。

  不过在产品发展路线上,比起多数同行高屋建瓴地投身AGI,他们更关注AI浪潮中每一个微小的个人。

  公司CEO Mustafa Suleyman认为,现在所有最有能力的AI往往都被设计来展示最有吸引力的内容,交换用户的注意力,而不管其质量、真实性和对社会的影响如何。“想象一下世界上最有能力的AI真正站在你这边,始终与你的利益一致:从试图抓住你注意力、束缚你的AI,转变为鼓励你表达个人意图并实现它的AI;从仅提供肤浅点击的AI,变成真正关心你问题的AI;从可能激化你和他人矛盾的AI,化作一个帮你原谅甚至同情对方的AI。”

  “Pi就是这种个人AI伴侣,唯一使命是让你更快乐、更健康、更高效。”

  对于许多大公司来说,这样的业务定位是极具挑战的。因为现在正是大模型秀肌肉、比拼十八班武艺的时候,稍不留神就会被远远甩在后面。仅仅是不到一个月,我们就见证了Gemini 1.5 、Mistral Large、Claude 3。此前一直坚持开源的Mistral也投靠在微软帐下,积极寻求变现门路。而市场上最先进、能力最完善的大模型版本,总是选择优先拥抱那些付费能力最强的企业们。

  那是否也需要有人站出来,把目光投向被宏大技术洗礼的微小个体,给普通人创造一个懂自己、关心自己的知心好友?它静静等在你的手机App或电话簿里,愿意在每个工作结束后疲惫的夜晚,倾听你那些愚蠢的小抱怨和坦诚的心里话,为你解开疑惑、安抚焦虑。即使只是静静陪伴,也有感情、有温度。

  ——所以你就理解了,为什么要构建这样一个AI?

  “因为做得好的话,它会让我们更聪明、更有创造力、更加善待彼此” ,Mustafa说。

  “希望它能让我们返璞归真,大家都能过上真正想要的生活。”

  (封面图来自Sreejani Bhattacharyya)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉林银行取款2万元以上需派出所同意!是因噎废食还是苦口良药?

吉林银行取款2万元以上需派出所同意!是因噎废食还是苦口良药?

火山诗话
2024-06-12 20:14:22
为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

星辰故事屋
2024-06-11 17:30:43
全球吸金能力最强大厦:年租金超94亿,最大租户每月交2175.8万

全球吸金能力最强大厦:年租金超94亿,最大租户每月交2175.8万

吃鱼思故渊
2024-06-12 22:06:42
62岁大妈整容谎称38岁,交往120个男人,被抓时32岁老公不敢置信

62岁大妈整容谎称38岁,交往120个男人,被抓时32岁老公不敢置信

舞娱天地
2024-05-31 14:07:47
已确认:坠机8人全部身亡

已确认:坠机8人全部身亡

鲁中晨报
2024-06-12 10:31:03
史上规模最大!华为正式宣布定档6月21日,新品蓄势待发!

史上规模最大!华为正式宣布定档6月21日,新品蓄势待发!

大卫聊科技
2024-06-10 21:30:02
连续27个跌停!证监会出手:立案!

连续27个跌停!证监会出手:立案!

中国基金报
2024-06-12 23:41:46
我担任副镇长8年未获提拔,大学同学来过后,我被提拔为镇长

我担任副镇长8年未获提拔,大学同学来过后,我被提拔为镇长

乔生桂
2024-06-07 11:04:28
国家终于不再原谅王濛,77枚金牌不是万能,而自大只会被抛弃

国家终于不再原谅王濛,77枚金牌不是万能,而自大只会被抛弃

兰子记
2024-06-11 18:28:00
网传北京徒步全女爬山团,领队带错路,50名姐妹大山失联7小时…

网传北京徒步全女爬山团,领队带错路,50名姐妹大山失联7小时…

火山诗话
2024-06-12 12:03:26
鹿晗浮肿发福,右手上面长了很多溃烂型血疮,网友质疑他得了脏病

鹿晗浮肿发福,右手上面长了很多溃烂型血疮,网友质疑他得了脏病

综艺贴士站
2024-06-10 20:14:48
今年最大的诈骗电影,果然扑了

今年最大的诈骗电影,果然扑了

独立鱼
2024-06-11 22:04:10
最新!王思聪发文回应私生子传闻:该干嘛干嘛去,女方紧急闭麦!

最新!王思聪发文回应私生子传闻:该干嘛干嘛去,女方紧急闭麦!

小咪侃娱圈
2024-06-11 11:11:40
“中国可能要出手了”,港媒:这一潜在举措对欧美都将产生影响

“中国可能要出手了”,港媒:这一潜在举措对欧美都将产生影响

战未央
2024-06-12 10:30:07
目前为止,最公平公正、准确的大学排行榜,十四榜合一!

目前为止,最公平公正、准确的大学排行榜,十四榜合一!

娱乐的硬糖吖
2024-06-12 15:51:55
特朗普放弃抵抗,美大选提前终结?奥斯汀罕见对华交底,果不简单

特朗普放弃抵抗,美大选提前终结?奥斯汀罕见对华交底,果不简单

前沿天地
2024-06-12 20:41:07
为了钱我做了一名奶妈,喂养完老板的儿子,还要加班照顾老板

为了钱我做了一名奶妈,喂养完老板的儿子,还要加班照顾老板

亲爱的落落
2023-05-24 21:42:14
美国:绝不谈判,也不妥协!混战已开始,中国迎来良机

美国:绝不谈判,也不妥协!混战已开始,中国迎来良机

星辰故事屋
2024-06-12 18:41:29
360回应“盗图”争议:法庭见

360回应“盗图”争议:法庭见

21世纪经济报道
2024-06-12 16:39:12
辽宁奔驰女暴打修车匠,修车匠怒而拔刀,将母女俩当街捅死

辽宁奔驰女暴打修车匠,修车匠怒而拔刀,将母女俩当街捅死

安妮Emotiong
2024-05-22 20:22:41
2024-06-13 04:04:49
硅星人
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1311文章数 10256关注度
往期回顾 全部

科技要闻

谁是苹果AI的“中国合伙人”?

头条要闻

顶头上司落马3周后退休副省长被查 任内曾被环保问责

头条要闻

顶头上司落马3周后退休副省长被查 任内曾被环保问责

体育要闻

国足,别辜负这场奇迹!

娱乐要闻

黄一鸣再次录视频表态孩子是王思聪的

财经要闻

徽商银行的影子 借基金向地方城投放贷?

汽车要闻

理想汽车周销量突破1万辆 单周销量首超宝马奥迪

态度原创

教育
时尚
游戏
旅游
军事航空

教育要闻

求最小值经典题目,分子变一变,均值不等式轻松求解

不会买牛仔裤?4个评判标准相当靠谱

《中国式家长》重新上架Steam 更新至2.0.0.0版本

旅游要闻

日本“黑道大哥”现街道 警察保持随时监控

军事要闻

美国解禁乌克兰"亚速营"使用美制武器 俄方回应

无障碍浏览 进入关怀版