网易首页 > 网易号 > 正文 申请入驻

杀疯了!6年来最强模型GPT-4.5登场:更贵、更高情商、更少幻觉|钛媒体AGI

0
分享至

(图片来源:钛媒体AGI编辑林志佳拍摄)

今晨4点,GPT-4.5突然上线。

2月27日消息,钛媒体AGI获悉,美国OpenAI公司今天推出GPT-4.5模型(代号Orion),这是该公司有史以来算力和数据规模最大、最佳的 AI 基座模型,本周将面向每月200美元的ChatGPT Pro用户开放,下周向ChatGPT Plus开放。

GPT-4.5从一开始就不是一个推理模型。OpenAI表示,GPT-4.5在扩展预训练和后训练方面向前迈出了一步,通过扩展无监督学习,GPT-4.5提高了识别模式、建立联系和产生创造性见解的能力,而无需推理,此外,GPT-4.5计算效率比 GPT-4 提升了 10 倍以上,而价格层面,GPT-4.5 API每100万token输入75美元,输出价格为150美元,这比GPT-4o的2.5美元暴涨30倍,更是竞争对手 Claude 3.7 Sonnet 的25 倍。

尽管OpenAI CEO奥尔特曼(Sam Altman)没现身在发布会现场,但他发推文表示,“GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。不过坏消息是,这是一个庞大而昂贵的模型,真的很想同时推出Plus 和 pro 版本,但是我们GPU计算卡已经不够了。下周我们将添加数万张GPU卡。”

“(我)在医院照顾我的孩子。团队已经成功了!”奥尔特曼称。

6年来最强模型发布:更贵、更高情商、更少幻觉

据悉,从GPT-1到即将发布的GPT-4.5,经历了6年之久。

2018年,6月OpenAI发布GPT-1,这是OpenAI第一个基于Transformer架构大规模预训练的语言模型;2019年,OpenAI发布GPT-2,模型规模扩大10倍,拥有 1.5 亿个参数,在生成文本方面展现出强大能力,但因潜在滥用风险,OpenAI以内测形式使用。

2020年,5月OpenAI推出GPT-3,拥有1750亿个参数,在自然语言处理任务上表现惊人,能完成生成文本、回答问题、翻译等多种任务,而到了2022年,GPT-3.5发布,OpenAI利用人工标注数据和强化学习提升了模型性能,同年11月30日,基于GPT-3.5的 AI 聊天机器人产品ChatGPT发布,风靡全球。

2023年3月14日,OpenAI发布GPT-4,语言理解能力更强大,能处理图像内容,对月订阅费20美元的Plus用户开放使用,随后11月,OpenAI在首届开发者大会上宣布GPT-4升级为GPT-4 Turbo。

到了2024年,5月OpenAI推出可免费使用的多模态模型GPT-4o,7月18日推出GPT-4o mini;9月12日,OpenAI正式对外发布o1模型的预览版,同时发布了o1-mini。此外,12月5日,OpenAI发布正式版OpenAI o1模型,随后还公布o3-mini系列,性能和性价比都超越o1模型。

然而,在开源AI模型DeepSeek V3/R1,以及马斯克的竞购动作影响下,今年2月13日,一切都变了,OpenAI终于不再“挤牙膏”,整个产品线全面加速,最快今年发布GPT-5模型。

奥尔特曼在推文中承认,OpenAI已经意识到自家的模型和产品供应已经变得非常复杂,需要简化产品供应。“我们和您一样讨厌模型选择,并希望回到魔法般的统一智能。我们的首要目标是通过创建可以使用我们所有工具、知道何时需要长时间思考、并且通常可用于非常广泛的任务的系统来统一 o 系列模型和 GPT 系列模型。”奥尔特曼表示。

奥尔特曼表示,OpenAI将很快(几周/月内)发布代号为“Orion”(猎户座)的 GPT-4.5,也是最后一个非思维链模型,并且会整合GPT和o系列,即将(数月内)推出具备多项新功能的GPT-5。

奥尔特曼强调,此前公布的推理模型o3将不会以独立模型形式发布。最重要的是,免费版ChatGPT能在标准智能设置下无限制地使用GPT-5基础班进行对话,不过会有防止滥用,而Plus/Pro付费用户将以更高的智能水平使用GPT-5。显然,GPT-5也将成为该公司第一个世界模型。

如今,OpenAI首先发布GPT-4.5——这是该公司6年来规模最大、价格最贵、更高情商、更少幻觉的模型。

OpenAI表示,GPT-4.5在预训练和后训练的扩展上取得进展,通过扩展无监督学习提升了模式识别等能力。

能力提升方面,早期测试显示,GPT-4.5交互更自然,它知识基础更广,能更好理解用户意图,“情商”更高,可减少幻觉,在写作、编程和解决实际问题等任务中表现出色。SimpleQA(评估模型的事实性回答能力)数据集测试中,GPT-4.5准确率达62.5%,高于GPT-4o、o3 mini系列等;幻觉率低至37.1%,远远优于GPT-4o等。

同时,GPT-4.5拥有无监督学习扩展,通过扩展计算、数据及架构和优化创新,提升了世界模型的准确性和直觉,拥有更广泛知识和对世界更深入理解,并且用小模型数据训练大模型,提升了GPT-4.5的可控性、对细微差别的理解及自然对话能力,而且训练采用新的监督技术,结合传统方法,在部署前进行安全测试,相关评估结果将发布在系统当中。

在与人类测试者的对比评估中,GPT-4.5在创意智能、专业查询和日常查询方面相比4o有更高胜率,表现出更强的审美直觉和创造力,在日常查询当中能够达到57%,专业查询达63.2%。此外,虽然GPT-4.5没有深度思考,但未来推理将成模型核心能力,所以GPT-4.5采用预训练和推理两种扩展方法相互补充。

使用方式层面,ChatGPT Pro用户即日起可在模型选择器中选用,下周起向Plus和Team用户推出,再下周面向Enterprise和Edu用户,该版本支持搜索获取最新信息、文件和图像上传及使用画布处理写作和代码,但暂不支持语音、视频和屏幕共享等多模态功能;而API层面,在Chat Completions API、Assistants API和Batch API中向所有付费开发者预览,支持函数调用等关键功能及图像输入视觉功能,适用于写作辅助等应用场景。但因模型大且计算密集,成本较高,官方正评估是否长期在API中提供。

Box AI CEO Aaron Levie表示,其将于今天晚些时候在 Box AI Studio 中向客户推出GPT-4.5版本。通过早期测试看,与 GPT-4o 相比,GPT-4.5 正确提取的字段准确率提高了 19 个百分点,凸显了其处理细微合同数据的能力有所提高,看到 GPT-4.5 在处理复杂企业数据方面取得了强劲成果,这将在企业中解锁更多用例。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

OpenAI表示,GPT-4.5处于无监督学习前沿,还无法完全替代GPT-4o。

OpenAI将与kimi、DeepSeek同时“撞车”

事实上,2022年11月30日之前,OpenAI的网站流量几乎为零。但随后的两个月里,OpenAI受到了超过1亿访问者的冲击,所有人争相体验ChatGPT,自那以后,所有人的生活都不一样了,尤其是公司CEO奥尔特曼,成为了一名 AI 技术“布道师”和行业指引者。

如今,OpenAI估值超过1570亿美元(约合人民币1.1万亿元)

近期奥尔特曼公开表示,OpenAI正考虑基于使用量进行定价。至于何时能够实现AGI,他称当一个AI系统能够完成一个非常熟练的人在重要工作中所能做的事情时,就可以称之为AGI。

有趣的是,今天凌晨,月之暗面kimi再一次“撞车”,悄悄公布最新Kimi-K1.6-IOI-high模型,其在LiveCodeBench基准测试榜单上排名第一,超越了GPT和Claude系列模型。

同时,DeepSeek开源周持续引发关注,包括已发布专为英伟达Hopper GPU打造的MLA解码内核FlashMLA、EP通信库DeepEP、FP8 GEMM(通用矩阵乘法)计算库DeepGEMM等。预计今天上午9点左右,DeepSeek还会在X平台上发布全新开源技术。

据公开信息,2024年全年,OpenAI销售收入大约37亿美元,同比增长1700%以上,而预计到2025年,OpenAI年化收入将增长至116亿美元,其中,75%收入来自用户ChatGPT Plus服务订阅。内部预估,2029全年OpenAI营收将达到1000亿美元,相当于目前雀巢的年销售额。

(本文首发于钛媒体App,作者|林志佳)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Angelababy为了复出,跑去演短剧了?网友:这颜值,降维打击!

Angelababy为了复出,跑去演短剧了?网友:这颜值,降维打击!

背包旅行
2026-03-09 20:55:56
推断又正在被证实:美以的全面轰炸已逐渐开始

推断又正在被证实:美以的全面轰炸已逐渐开始

邵旭峰域
2026-03-10 10:20:32
意甲欧冠独苗1-6惨遭淘汰,拜仁细节引争议

意甲欧冠独苗1-6惨遭淘汰,拜仁细节引争议

老淸医学科普
2026-03-11 06:19:18
6家房企老板长居香港,是为拯救企业,还是另有打算?

6家房企老板长居香港,是为拯救企业,还是另有打算?

帅真商业
2026-03-09 18:52:41
没想到,两会还没结束,48岁王励勤高调官宣喜讯,又让人刮目相看

没想到,两会还没结束,48岁王励勤高调官宣喜讯,又让人刮目相看

八斗小先生
2026-03-10 16:56:35
67岁汤镇业近况曝光!再婚娶小25岁青岛美女,如今一家8口很幸福

67岁汤镇业近况曝光!再婚娶小25岁青岛美女,如今一家8口很幸福

代军哥哥谈娱乐
2026-03-10 09:09:50
全球追杀开始了!美国,更大的噩梦来了!

全球追杀开始了!美国,更大的噩梦来了!

大嘴说天下
2026-03-09 22:28:27
值得珍藏:电力+卫星互联网+光刻机+商业航天+英伟达+硅+半导体等

值得珍藏:电力+卫星互联网+光刻机+商业航天+英伟达+硅+半导体等

Thurman在昆明
2026-03-10 00:16:42
已有8人逃离!曝伊朗女足已提前奔赴机场 澳政府在机场做最后挽留

已有8人逃离!曝伊朗女足已提前奔赴机场 澳政府在机场做最后挽留

风过乡
2026-03-10 13:02:25
为什么全世界最瘦的是日本人?评论区的回答笑晕了,简直一针见血

为什么全世界最瘦的是日本人?评论区的回答笑晕了,简直一针见血

另子维爱读史
2026-03-06 20:14:42
傻狍子给伐木累介绍“公共嫂子”

傻狍子给伐木累介绍“公共嫂子”

毒舌扒姨太
2026-03-10 22:46:39
辞职两个月拿下马拉松亚军,张水华称想撕掉“最快女护士”标签;专职跑步后接连签约多个代言,并已开启日常直播

辞职两个月拿下马拉松亚军,张水华称想撕掉“最快女护士”标签;专职跑步后接连签约多个代言,并已开启日常直播

极目新闻
2026-03-10 20:43:30
盐城一副处级干部被查

盐城一副处级干部被查

俯瞰江苏
2026-03-10 18:53:55
大风315丨坦克500智慧巡航“掉链子”,高架上突然降速至22公里,车主冒险拍下证据;4S店:路试没问题,确实不知道啥原因

大风315丨坦克500智慧巡航“掉链子”,高架上突然降速至22公里,车主冒险拍下证据;4S店:路试没问题,确实不知道啥原因

大风新闻
2026-03-10 15:52:13
中东战火未熄,亚太再起波澜,朝鲜导弹挑战特朗普

中东战火未熄,亚太再起波澜,朝鲜导弹挑战特朗普

青灯古卷
2026-03-11 05:22:43
笑麻了,在公司三进三出,公司上辈子是救过你的命吗?

笑麻了,在公司三进三出,公司上辈子是救过你的命吗?

夜深爱杂谈
2026-03-09 22:20:49
41万ModelY新款上市,特斯拉吓了车圈一跳!

41万ModelY新款上市,特斯拉吓了车圈一跳!

财经三分钟pro
2026-03-09 12:52:24
伊朗驻华大使回应《环球时报》:将通过“三步走”推动当前局势的缓和与政治解决

伊朗驻华大使回应《环球时报》:将通过“三步走”推动当前局势的缓和与政治解决

环球网资讯
2026-03-10 11:30:12
里子面子都没了!赔光2亿后,妻子深夜亲手撕下邹市明最后的体面

里子面子都没了!赔光2亿后,妻子深夜亲手撕下邹市明最后的体面

离离言几许
2026-03-09 19:06:24
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

自己撑起一片天
2026-03-11 05:22:44
2026-03-11 06:59:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
130507文章数 861919关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

时尚
游戏
家居
房产
军事航空

看来看去这些才是适合普通人的穿搭!不花哨、不繁琐,提气质

小萝莉解锁双里程碑!试玩版下载量、愿望单同破200万

家居要闻

自然肌理 温度质感婚房

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

军事要闻

刚说完战争很快结束 特朗普改口

无障碍浏览 进入关怀版