网易首页 > 网易号 > 正文 申请入驻

杀疯了!6年来最强模型GPT-4.5登场:更贵、更高情商、更少幻觉|钛媒体AGI

0
分享至

(图片来源:钛媒体AGI编辑林志佳拍摄)

今晨4点,GPT-4.5突然上线。

2月27日消息,钛媒体AGI获悉,美国OpenAI公司今天推出GPT-4.5模型(代号Orion),这是该公司有史以来算力和数据规模最大、最佳的 AI 基座模型,本周将面向每月200美元的ChatGPT Pro用户开放,下周向ChatGPT Plus开放。

GPT-4.5从一开始就不是一个推理模型。OpenAI表示,GPT-4.5在扩展预训练和后训练方面向前迈出了一步,通过扩展无监督学习,GPT-4.5提高了识别模式、建立联系和产生创造性见解的能力,而无需推理,此外,GPT-4.5计算效率比 GPT-4 提升了 10 倍以上,而价格层面,GPT-4.5 API每100万token输入75美元,输出价格为150美元,这比GPT-4o的2.5美元暴涨30倍,更是竞争对手 Claude 3.7 Sonnet 的25 倍。

尽管OpenAI CEO奥尔特曼(Sam Altman)没现身在发布会现场,但他发推文表示,“GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。不过坏消息是,这是一个庞大而昂贵的模型,真的很想同时推出Plus 和 pro 版本,但是我们GPU计算卡已经不够了。下周我们将添加数万张GPU卡。”

“(我)在医院照顾我的孩子。团队已经成功了!”奥尔特曼称。

6年来最强模型发布:更贵、更高情商、更少幻觉

据悉,从GPT-1到即将发布的GPT-4.5,经历了6年之久。

2018年,6月OpenAI发布GPT-1,这是OpenAI第一个基于Transformer架构大规模预训练的语言模型;2019年,OpenAI发布GPT-2,模型规模扩大10倍,拥有 1.5 亿个参数,在生成文本方面展现出强大能力,但因潜在滥用风险,OpenAI以内测形式使用。

2020年,5月OpenAI推出GPT-3,拥有1750亿个参数,在自然语言处理任务上表现惊人,能完成生成文本、回答问题、翻译等多种任务,而到了2022年,GPT-3.5发布,OpenAI利用人工标注数据和强化学习提升了模型性能,同年11月30日,基于GPT-3.5的 AI 聊天机器人产品ChatGPT发布,风靡全球。

2023年3月14日,OpenAI发布GPT-4,语言理解能力更强大,能处理图像内容,对月订阅费20美元的Plus用户开放使用,随后11月,OpenAI在首届开发者大会上宣布GPT-4升级为GPT-4 Turbo。

到了2024年,5月OpenAI推出可免费使用的多模态模型GPT-4o,7月18日推出GPT-4o mini;9月12日,OpenAI正式对外发布o1模型的预览版,同时发布了o1-mini。此外,12月5日,OpenAI发布正式版OpenAI o1模型,随后还公布o3-mini系列,性能和性价比都超越o1模型。

然而,在开源AI模型DeepSeek V3/R1,以及马斯克的竞购动作影响下,今年2月13日,一切都变了,OpenAI终于不再“挤牙膏”,整个产品线全面加速,最快今年发布GPT-5模型。

奥尔特曼在推文中承认,OpenAI已经意识到自家的模型和产品供应已经变得非常复杂,需要简化产品供应。“我们和您一样讨厌模型选择,并希望回到魔法般的统一智能。我们的首要目标是通过创建可以使用我们所有工具、知道何时需要长时间思考、并且通常可用于非常广泛的任务的系统来统一 o 系列模型和 GPT 系列模型。”奥尔特曼表示。

奥尔特曼表示,OpenAI将很快(几周/月内)发布代号为“Orion”(猎户座)的 GPT-4.5,也是最后一个非思维链模型,并且会整合GPT和o系列,即将(数月内)推出具备多项新功能的GPT-5。

奥尔特曼强调,此前公布的推理模型o3将不会以独立模型形式发布。最重要的是,免费版ChatGPT能在标准智能设置下无限制地使用GPT-5基础班进行对话,不过会有防止滥用,而Plus/Pro付费用户将以更高的智能水平使用GPT-5。显然,GPT-5也将成为该公司第一个世界模型。

如今,OpenAI首先发布GPT-4.5——这是该公司6年来规模最大、价格最贵、更高情商、更少幻觉的模型。

OpenAI表示,GPT-4.5在预训练和后训练的扩展上取得进展,通过扩展无监督学习提升了模式识别等能力。

能力提升方面,早期测试显示,GPT-4.5交互更自然,它知识基础更广,能更好理解用户意图,“情商”更高,可减少幻觉,在写作、编程和解决实际问题等任务中表现出色。SimpleQA(评估模型的事实性回答能力)数据集测试中,GPT-4.5准确率达62.5%,高于GPT-4o、o3 mini系列等;幻觉率低至37.1%,远远优于GPT-4o等。

同时,GPT-4.5拥有无监督学习扩展,通过扩展计算、数据及架构和优化创新,提升了世界模型的准确性和直觉,拥有更广泛知识和对世界更深入理解,并且用小模型数据训练大模型,提升了GPT-4.5的可控性、对细微差别的理解及自然对话能力,而且训练采用新的监督技术,结合传统方法,在部署前进行安全测试,相关评估结果将发布在系统当中。

在与人类测试者的对比评估中,GPT-4.5在创意智能、专业查询和日常查询方面相比4o有更高胜率,表现出更强的审美直觉和创造力,在日常查询当中能够达到57%,专业查询达63.2%。此外,虽然GPT-4.5没有深度思考,但未来推理将成模型核心能力,所以GPT-4.5采用预训练和推理两种扩展方法相互补充。

使用方式层面,ChatGPT Pro用户即日起可在模型选择器中选用,下周起向Plus和Team用户推出,再下周面向Enterprise和Edu用户,该版本支持搜索获取最新信息、文件和图像上传及使用画布处理写作和代码,但暂不支持语音、视频和屏幕共享等多模态功能;而API层面,在Chat Completions API、Assistants API和Batch API中向所有付费开发者预览,支持函数调用等关键功能及图像输入视觉功能,适用于写作辅助等应用场景。但因模型大且计算密集,成本较高,官方正评估是否长期在API中提供。

Box AI CEO Aaron Levie表示,其将于今天晚些时候在 Box AI Studio 中向客户推出GPT-4.5版本。通过早期测试看,与 GPT-4o 相比,GPT-4.5 正确提取的字段准确率提高了 19 个百分点,凸显了其处理细微合同数据的能力有所提高,看到 GPT-4.5 在处理复杂企业数据方面取得了强劲成果,这将在企业中解锁更多用例。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

OpenAI表示,GPT-4.5处于无监督学习前沿,还无法完全替代GPT-4o。

OpenAI将与kimi、DeepSeek同时“撞车”

事实上,2022年11月30日之前,OpenAI的网站流量几乎为零。但随后的两个月里,OpenAI受到了超过1亿访问者的冲击,所有人争相体验ChatGPT,自那以后,所有人的生活都不一样了,尤其是公司CEO奥尔特曼,成为了一名 AI 技术“布道师”和行业指引者。

如今,OpenAI估值超过1570亿美元(约合人民币1.1万亿元)

近期奥尔特曼公开表示,OpenAI正考虑基于使用量进行定价。至于何时能够实现AGI,他称当一个AI系统能够完成一个非常熟练的人在重要工作中所能做的事情时,就可以称之为AGI。

有趣的是,今天凌晨,月之暗面kimi再一次“撞车”,悄悄公布最新Kimi-K1.6-IOI-high模型,其在LiveCodeBench基准测试榜单上排名第一,超越了GPT和Claude系列模型。

同时,DeepSeek开源周持续引发关注,包括已发布专为英伟达Hopper GPU打造的MLA解码内核FlashMLA、EP通信库DeepEP、FP8 GEMM(通用矩阵乘法)计算库DeepGEMM等。预计今天上午9点左右,DeepSeek还会在X平台上发布全新开源技术。

据公开信息,2024年全年,OpenAI销售收入大约37亿美元,同比增长1700%以上,而预计到2025年,OpenAI年化收入将增长至116亿美元,其中,75%收入来自用户ChatGPT Plus服务订阅。内部预估,2029全年OpenAI营收将达到1000亿美元,相当于目前雀巢的年销售额。

(本文首发于钛媒体App,作者|林志佳)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陕西历史博物馆的镇馆之宝被挂6000元售卖,平台回应

陕西历史博物馆的镇馆之宝被挂6000元售卖,平台回应

都市快报橙柿互动
2026-06-01 14:02:25
87分钟绝杀欧洲队!日本剑指世界杯8强,韩国5-0狂胜,孙兴慜双响

87分钟绝杀欧洲队!日本剑指世界杯8强,韩国5-0狂胜,孙兴慜双响

侃球熊弟
2026-05-31 20:31:27
基辅议会大厅内,298张赞成票落下,他拿到了欧盟900亿欧元的贷款

基辅议会大厅内,298张赞成票落下,他拿到了欧盟900亿欧元的贷款

空想之喵
2026-06-01 03:39:32
段永平谈特斯拉FSD:很好用,有一次还不小心睡着了40分钟

段永平谈特斯拉FSD:很好用,有一次还不小心睡着了40分钟

IT之家
2026-06-01 17:02:08
美方得寸进尺:只要总部在中国,都不准买

美方得寸进尺:只要总部在中国,都不准买

观察者网
2026-06-01 09:15:20
追梦!同曦为郭昊文开具注销证明 支持CBA本土得分王打NBA夏联

追梦!同曦为郭昊文开具注销证明 支持CBA本土得分王打NBA夏联

醉卧浮生
2026-06-01 17:17:22
北京一女子患癌后担心自己死后丈夫再娶,便在去世前以1000元的价格把房子卖给大儿子,不料,去世后丈夫却被儿子赶出家门

北京一女子患癌后担心自己死后丈夫再娶,便在去世前以1000元的价格把房子卖给大儿子,不料,去世后丈夫却被儿子赶出家门

黎兜兜
2026-06-01 14:36:25
游客称在景区遭摩托艇故意甩尾滋水,沈阳文旅局:当事人已报警,摩托艇俱乐部已处理当事骑手

游客称在景区遭摩托艇故意甩尾滋水,沈阳文旅局:当事人已报警,摩托艇俱乐部已处理当事骑手

齐鲁壹点
2026-06-01 15:15:13
央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

科技处长
2026-05-31 16:53:35
日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

东京新青年
2026-05-31 18:08:07
5月31日俄乌最新:辉煌的战果

5月31日俄乌最新:辉煌的战果

西楼饮月
2026-05-31 18:05:56
你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

夜深爱杂谈
2026-05-30 08:34:39
603296,直线涨停!超10万手封单

603296,直线涨停!超10万手封单

证券时报
2026-06-01 11:24:00
47℃极端高温硬卡进口!印度强硬逼中企建厂,为何国内厂商拒绝?

47℃极端高温硬卡进口!印度强硬逼中企建厂,为何国内厂商拒绝?

老特有话说
2026-05-30 17:09:16
崩溃!山东女子怒斥公婆未经同意入住婚后新房,此前买房支持90万

崩溃!山东女子怒斥公婆未经同意入住婚后新房,此前买房支持90万

火山詩话
2026-06-01 07:48:42
编剧汪海林再炮轰:中国电视剧里,为什么再也见不到一个正常男人

编剧汪海林再炮轰:中国电视剧里,为什么再也见不到一个正常男人

橙星文娱
2026-06-01 11:08:30
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

医学原创故事会
2026-05-29 23:34:07
司马南代表不了底层,以及多所高校撤销外语学院!

司马南代表不了底层,以及多所高校撤销外语学院!

胖胖说他不胖
2026-06-01 09:55:16
摧毁一架特别大飞机,击俄无线电中心!俄罗斯被打得柴油产量锐减

摧毁一架特别大飞机,击俄无线电中心!俄罗斯被打得柴油产量锐减

鹰眼Defence
2026-05-31 16:53:51
对越反击战走出的五位传奇上将

对越反击战走出的五位传奇上将

祁州校尉
2026-05-31 13:00:17
2026-06-01 18:59:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
134394文章数 862212关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

清华女博士幼子被丈夫抢走 赴南昌未能给儿子过儿童节

头条要闻

清华女博士幼子被丈夫抢走 赴南昌未能给儿子过儿童节

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

小鹏集团5月共交付新车32,158台 小鹏GX Ultra旗舰版订单占比超八成

态度原创

健康
亲子
家居
教育
军事航空

干细胞临床研究向患者收费?别踩坑

亲子要闻

国家卫生健康委:夯实儿童早期发展基础

家居要闻

自信舒展 高背座椅

教育要闻

深圳少有的「鲁班奖」校园,石芽岭下的青春剧场

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版