网易首页 > 网易号 > 正文 申请入驻

OpenAI踏入小模型战场,发布GPT-4o Mini,同日Mistral联合英伟达推出竞品

0
分享至

终于,OpenAI 也踏入了小模型的战场。

当地时间 7 月 18 号,OpenAI 正式发布了 GPT-4o Mini,这是其最新的小型人工智能模型(小模型)。

该公司表示,GPT-4o Mini 比 OpenAI 当前的最先进小模型更强大、价格更低。该模型将从即日起向开发者和 ChatGPT 网站及移动应用的用户开放,企业用户将在下周获得访问权限。

如果你现在访问 ChatGPT,就会发现此前的默认模型 GPT-3.5 已经不见踪影,取而代之的是 GPT-4omini,而 GPT-4 变成了 Legacy 模型。

ChatGPT 在 2022 年底发布时用的就是 GPT-3.5,今天它正式落幕,不禁让人感叹大模型的迭代速度之快。

图 | ChatGPT 网页端模型选 项 (来源:资料图)

OpenAI 称,GPT-4o Mini 在涉及文本和视觉的推理任务上优于行业领先的小模型。知名的小模型有 Anthropic 的 Claude 3 Haiku 和谷歌 Gemini Flash。

随着小模型的进步,它们因其相对于大模型(如 GPT-4 Omni 或 Claude 3.5 Sonnet)的速度和成本效益,变得越来越受开发者欢迎。

它们很适合处理高频次的简单任务,在实际应用场景中,用户的操作可能经常要反复调用这些模型。

GPT-4o Mini 的性价比

对于使用 OpenAI 应用程序编程接口(API,Application Programming Interface) 的开发者,它的定价为每百万输入 token 15 美分,每百万输出 token 60 美分。这个价格比今年初发布的 GPT-3.5 Turbo 版本便宜 60% 以上。

“回到 2022 年,世界上最好的模型还是 text-davinci-003(GPT-3 的一个版本)。”OpenAI 的 CEO 山姆·奥特曼(Sam Altman)表示,“它远远比不上今天最新的模型,还贵了 100 多倍。”

在 Artificial Analysis 的评估中,GPT-4o Mini 的性价比也是超出了一众的流行小模型。

(来源:Artificial Analysis)

OpenAI 并未透露 GPT-4o Mini 的确切参数规模,但表示其大致与其他小模型(如 Llama 3 8B、Claude Haiku 和 Gemini Flash)在同一水平。

不过,该公司披露的测试成绩显示,GPT-4o Mini 比主流的小模型更快、更具成本效益且更强大。

具体来说,GPT-4o Mini 在大规模多任务语言理解测试中得分为 82%,相比之下,Gemini Flash 是 79%,Claude Haiku 是 75%。

在多语言数学测试中,GPT-4o Mini 得分为 87%,而 Gemini Flash 和 Claude Haiku 分别是 78% 和 72%。

此外,在 HumanEval(代码生成)测试中,GPT-4o Mini 也以 87.2% 的成绩遥遥领先于 Gemini Flash 的 71.5% 和 Claude Haiku 的 75.9%。

可以看出,GPT-4o Mini 在基准测试上的表现确实优异。当然,它的表现和大模型 GPT-4o 还是有一定的差距。

图 | GPT-4o Mini 与其他模型的测试成绩对比(来源:OpenAI)

据 OpenAI 官网介绍,“GPT-4o Mini 的上下文窗口是 128k token,大约相当于一本书的长度,每个请求最多支持 16k token,其知识更新截止到 2023 年 10 月。”

目前,GPT-4o Mini 在 API 中支持文本和视觉输入。OpenAI 表示,“未来将支持视频、音频和图像生成功能。它的微调功能也将在近期发布。”

“为了让世界每一个角落都能受益于人工智能,我们需要让模型变得更加经济实惠。”OpenAI 的产品 API 负责人奥利维尔·戈德门特(Olivier Godement )表示,“我认为 GPT-4o Mini 在这方面迈出了非常重要的一步。”

此外,OpenAI 还强调了 GPT-4o Mini 具有与 GPT-4o 相同的内置安全措施。

很多有毒内容在预训练阶段就已被过滤掉,并且使用了基于人类反馈的强化学习(RLHF)等技术,使模型的行为与公司政策保持一致,以提高模型响应的准确性和可靠性。

小模型的价值

小模型,指的是那些在参数规模上显著少于传统大模型的模型,其结构一般也更简单。

它们旨在以较低的成本执行更简单的任务,例如制作列表、总结或建议词语,而不是进行深度分析。

这些模型通常针对 API 用户,他们支付固定的 token 输入和输出费用,并在其应用程序中使用这些模型。

小模型的参数较少,意味着运行模型所需的计算量较少,进而降低了硬件要求、能源消耗和最终用户成本。

然而有研究表明,参数多少和能力之间并不总是有直接的关系。训练数据的质量、模型架构的效率以及训练过程本身也会显著影响模型的性能。

展望未来

在博客中,OpenAI 表示其将继续推动模型成本降低,同时提高模型能力。它设想的未来模型将无缝集成到每个应用程序和网站之中。

事实上,随着大模型领域越来越卷,许多公司都将目光放在了小模型上,希望用更低的成本吸引开发者。

与 GPT-4o Mini 同一天发布的,还有一个名为 Mistral NeMo 的小模型,由法国人工智能独角兽 Mistral 和英伟达联合发布。

该模型的参数为 12 亿,上下文窗口 128k。最重要的是,得益于英伟达的深度参与,该模型在英伟达平台上实现了更好的性能优化。

可以预见的是,我们将看到更多的小模型不断问世,为开发者更高效、更经济地构建和扩展强大的人工智能应用程序铺平道路,由此也会让更多人体会到人工智能的便利。

参考:

https://arstechnica.com/information-technology/2024/07/openai-launches-gpt-4o-mini-which-will-replace-gpt-3-5-in-chatgpt/

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

运营/排版:何晨龙

01/

02/

03/

04/

05/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皮定均刚升团长,就给刘伯承打报告:必须枪毙我的警卫连长!

皮定均刚升团长,就给刘伯承打报告:必须枪毙我的警卫连长!

云霄纪史观
2026-04-24 14:56:13
王子文和王朔未婚生子的瓜!

王子文和王朔未婚生子的瓜!

八卦疯叔
2026-04-23 11:10:22
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
女子意图举报保险公司高管丈夫婚外情,被掐死后装入行李箱抛尸,丈夫一审被判无期,父亲抗诉:这么小的事情为什么要杀人;被告也提起上诉

女子意图举报保险公司高管丈夫婚外情,被掐死后装入行李箱抛尸,丈夫一审被判无期,父亲抗诉:这么小的事情为什么要杀人;被告也提起上诉

大风新闻
2026-04-24 10:29:10
伊朗下一道铁令,仍在做美梦?它断定:有中国在,特朗普不敢掀桌

伊朗下一道铁令,仍在做美梦?它断定:有中国在,特朗普不敢掀桌

摘史
2026-04-24 13:18:32
大S最后那几天,小S一直没对外说的一件事,这次终于讲出来了

大S最后那几天,小S一直没对外说的一件事,这次终于讲出来了

娱乐圈十三太保
2026-04-22 17:40:42
中俄朝3国都明白了,打美军航母已不重要:一定先打日本导弹基地

中俄朝3国都明白了,打美军航母已不重要:一定先打日本导弹基地

飘逸语人
2026-04-18 00:53:44
新股春光集团发行申购,发行价13.30元,股民打新不用担心!

新股春光集团发行申购,发行价13.30元,股民打新不用担心!

数据挖掘分析
2026-04-24 08:25:24
有人说:打麻将和性生活是县城的底色?

有人说:打麻将和性生活是县城的底色?

灯锦年
2026-04-21 12:32:46
54岁黎姿,常年跑步运动,身材婀娜如少女,网友:这才叫风韵犹存

54岁黎姿,常年跑步运动,身材婀娜如少女,网友:这才叫风韵犹存

马拉松跑步健身
2026-04-24 06:30:08
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
实拍体验全新7系,这是宝马史上最大规模的一次中期改款!

实拍体验全新7系,这是宝马史上最大规模的一次中期改款!

Sky车志
2026-04-23 10:08:05
德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

心灵得以滋养
2026-03-13 22:44:44
4月22日俄乌最新:中将亲自带队冲锋

4月22日俄乌最新:中将亲自带队冲锋

西楼饮月
2026-04-22 18:37:19
田亮做梦也没想到,费心养大的14岁儿子,如今竟“压自己一头”

田亮做梦也没想到,费心养大的14岁儿子,如今竟“压自己一头”

以茶带书
2026-04-23 16:11:50
赌狗的话能信吗网友说早些年百度贴吧有个戒赌吧是最大的一个贴吧

赌狗的话能信吗网友说早些年百度贴吧有个戒赌吧是最大的一个贴吧

侃神评故事
2026-04-22 17:25:03
年羹尧去世后,41岁岳钟琪随即下狱处决,雍正:他在,弘历不敢继位

年羹尧去世后,41岁岳钟琪随即下狱处决,雍正:他在,弘历不敢继位

老范谈史
2026-04-23 16:26:48
美军工心脏——洛克希德马丁生产的顶尖装备,超乎你的想象

美军工心脏——洛克希德马丁生产的顶尖装备,超乎你的想象

混沌录
2026-04-23 21:14:12
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
天雷滚滚,今天3家公司被实施st退市风险警示停牌,12万股东踩雷

天雷滚滚,今天3家公司被实施st退市风险警示停牌,12万股东踩雷

丁丁鲤史纪
2026-04-24 10:58:29
2026-04-24 16:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16619文章数 514899关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

女子买二手奔驰里程数偏差20万公里 看到事故记录崩溃

头条要闻

女子买二手奔驰里程数偏差20万公里 看到事故记录崩溃

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

YU7 GT 5 月上市!小米Vision GT概念车国内首秀

态度原创

游戏
数码
教育
公开课
军事航空

Fami通销量榜:《识质存在》3.6万被第一十倍吊打!

数码要闻

DeepSeek:预计下半年昇腾950超节点批量上市后 V4-Pro模型价格会大幅下调

教育要闻

江西省委宣传部原常务副部长陈东有:教育孩子不能太急切

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版