网易首页 > 网易号 > 正文 申请入驻

2024年人工智能年终总结报告|Artificial Analysis

0
分享至

新智元报道

编辑:泽正

【新智元导读】Artificial Analysis回顾今年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。

临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis也给出了关于2024年AI变革式发展的回顾。 令人欣喜的是,我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。

毫无疑问的是,2024年对于AI的发展是里程碑式的一年。今年我们见证了太多AI技术变革带来的惊艳,而它们也在短短一年的时间里就对我们的生活学习方式产生了重大的影响。

这一年里,各家大模型的能力提升层出不穷。从gpt-4o的交互式高质量解决问题到o1那令人震惊的推理能力,再到刚刚发布的o3,OpenAI还是一往如常地为我们不断带来新的人工智能范式。

对于开发者来讲,Claude 3.5 Sonnet出色的辅助代码体验更是让Anthropic给OpenAI带来了真正的市场竞争压力。

而就在12月,闷声办大事的Google也通过发布Genmini 2.0 Flash和Genmini 2.0 Flash Thinking彻底打了一场漂亮的翻身仗,成功逆袭。

并且,这一年里,无论是模型的能力表现、响应速度、API价格都有显著的提升,就像集成电路的摩尔定律一样,大模型也迎来了它自己的「摩尔定律」时代。

这里要用到左右排版

自OpenAI在2022年12月发布GPT-3.5模型驱动的ChatGPT以来,生成式AI就如火如荼地展开了一场声势浩大的「军备竞赛」。

而仅仅不到两年,多个实验室就都已经赶上了OpenAI的GPT-4,甚至出现了第一批超越GPT-4o智能水平的模型。例如:Claude 3.5 Sonnet,Gemini 1.5 Pro以及新近发布的Gemini 2.0 Flash。

截止2024年,在LLM领域,依然是美国位于主导地位,其中主要是ChatGPT、Gemini、Claude、Nova、LLama系列。而我国则暂时处于第二梯队,取得国际关注与认同的主要有Qwen2.5 Instruct 72B与DeepSeek V2.5。其余国家则只有法国、加拿大、以色列达到了一定水平,大部分国家在这场竞赛中都与领先国家望尘莫及。

而在Open AI不再「Open」之后,开源模型也没有因此就与专有模型的性能有难以克服的差距。在Meta、Mistral和阿里巴巴发布的开源模型的驱动下,开源和专有模型之间的性能差距也有了显著下降。

更 加 利好消费者的是今年语言模型的推理定价在所有智能水平上都大幅下降,例如GPT-4o mini在智能水平上接近GPT-4,但价格却便宜了100倍。 而得分超越GPT-4 Turbo的国产大模型Qwen2.5 72B的价格也甚至只有GPT-4 Turbo的1.3%。

推理定价下降的一个关键驱动因素是小模型也能达到之前只有大模型才能达到的智能水平,例如微软最新推出的phi-4模型。

上下文窗口长度对于模型的实际应用是至关重要的,因为许多应用程序不仅仅使用文本,更大的上下文窗口才能支持包括图像、视频和音频在内的多模态输入。而现在它也来到了128K tokens的长度,对比23年的三季度,短短一年整整增长了32倍!

对于使用者来讲,目前更加倾向于使用头部企业的产品,如OpenAI,Meta,Anthropic,Mistral,Google。而影响选择模型最重要的因素则有:推理质量,上下文窗口,价格,速度等。

人们对于LLMs的使用都不局限在某一个需求方面,而是覆盖了信息抽取、长文本总结、文本生成等需求,而且也最在意模型的多模态能力。

对于各种各样的技术与商业需求来讲,大部分开发者用户都会同时使用多个模型。其中72%的开发者会直接使用已发布成品模型,另外的24%则是针对现有的模型进行微调,仅有4%是从头开始对模型进行训练。

2024年,图像生成质量也得到了迅速发展,其中在照片真实感、提示符合度和文本渲染方面取得了显著的进步。下图中的提示词为:印着「Artificial Analysis」的下一代宇宙飞船环绕在景色令人惊叹的地球。我们可以发现,随着先进的文生图模型不断迭代推出,生成的图像也越来越逼真,符合实际规律。

随之而来的是,2024年图像模型的进步和竞争也加速了。人工智能分析图像领域的前5名模型都是自2024年第三季度以来推出的。例如24年10月推出的Recraft v3模型。

有意思的是,OpenAI在2024年2月就预览了Sora,当时竞争其实还很小,但到了2024年12月它推出时,这个领域的竞争就已经激烈起来了。诸如快手的可灵、MiniMax的海螺AI以及腾讯的混元都对Sora发起了挑战。

基于Transformer的文本转语音模型也在2024年OpenAI的领衔下达到了新的质量里程碑,超越了曾经的云服务供应商。

在 AI语音识别领域, OpenAI 在2022年末 开源 W h isper重塑了整个领域格局 ,使得云推理服务提供商能够进入市场,并在响应 速度和价格上展开了 竞争,为消费者带来了 前所未有的高性价比 体验。其中最快的一个可以在大约10秒内转录整整一小时的音频,转录的价格也降至每1000分钟音频不到1美元。Groq发布的最新Whisper模型与亚马逊2018年模型相比有约72倍的价格降低和约11倍的速度提升。

从Artificial Analysis给出的2024年的人工智能年度回顾报告中 ,我们也可以发现,这其中并没有统计到最新的o3与Gemini 2.0 Flash Thinking。由此可见,今年整体的AI发展,尤其是LLMs,其推陈出新的能力几乎超乎了人们的想象。

这也让我们对即将到来的2025有了更多的憧憬与期望,明年是否又会是真正达成AGI的关键一年呢?答案就需要留待明年此时再来回看了。

参考资料:

https://artificialanalysis.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果加它一起煮,效果很大,一润肺、二止咳、三养胃,冬天吃养人

苹果加它一起煮,效果很大,一润肺、二止咳、三养胃,冬天吃养人

Lily美食谈
2025-11-08 23:29:45
北美夺冠,耗资5.7亿,中国观众不买账,上映9小时票房仅255万

北美夺冠,耗资5.7亿,中国观众不买账,上映9小时票房仅255万

靠谱电影君
2025-11-07 09:20:26
固体杨枝甘露第一批受害者出现了,脸焦黄、肚子疼,医生:严重者甚至会影响生育!

固体杨枝甘露第一批受害者出现了,脸焦黄、肚子疼,医生:严重者甚至会影响生育!

观威海
2025-11-08 09:50:09
纪念“中国最后一位大学校长”刘道玉先生

纪念“中国最后一位大学校长”刘道玉先生

难得君
2025-11-08 08:57:11
美国称:中国不可怕,可怕的是,中国淘汰4000年的东西他们还在用

美国称:中国不可怕,可怕的是,中国淘汰4000年的东西他们还在用

文史微鉴
2025-11-05 11:23:04
女排全运最新积分!5支球队两连胜,7支球队未尝胜绩,第三轮前瞻

女排全运最新积分!5支球队两连胜,7支球队未尝胜绩,第三轮前瞻

排球黄金眼
2025-11-08 23:41:10
最“恨”吴石的她,却用一辈子守护了吴石的荣誉与尊严

最“恨”吴石的她,却用一辈子守护了吴石的荣誉与尊严

顾史
2025-11-08 14:12:44
卫士长回忆刘少奇去世时情景:没有哀乐,没有亲人,没有真实姓名

卫士长回忆刘少奇去世时情景:没有哀乐,没有亲人,没有真实姓名

帝哥说史
2025-11-08 06:35:03
陈芋汐炸鱼!407C出现重大失误,依然排名第一,领先第2名53.35分

陈芋汐炸鱼!407C出现重大失误,依然排名第一,领先第2名53.35分

体育就你秀
2025-11-09 07:49:47
全运会史上首次“不新建大型场馆”,为什么?

全运会史上首次“不新建大型场馆”,为什么?

环球网资讯
2025-11-08 22:01:06
世界上最安全的两个国家,一个谁也打不过,一个谁也不敢打。

世界上最安全的两个国家,一个谁也打不过,一个谁也不敢打。

百态人间
2025-10-29 15:27:08
快船队吞4连败!泰伦卢坑苦哈登:最后10分钟不换人+保罗首遭DNP

快船队吞4连败!泰伦卢坑苦哈登:最后10分钟不换人+保罗首遭DNP

锅子篮球
2025-11-09 18:40:30
俄媒:一旦开战,中方只靠解放军难以取胜,必须调动另一股力量!

俄媒:一旦开战,中方只靠解放军难以取胜,必须调动另一股力量!

军机Talk
2025-11-08 11:45:50
终身服药成历史?2025全球热门糖尿病医学范式革命:当前高血糖治疗可实现安全停药

终身服药成历史?2025全球热门糖尿病医学范式革命:当前高血糖治疗可实现安全停药

日照日报
2025-11-09 14:53:21
祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

文史道
2025-11-09 16:41:23
59岁巩俐在北京公园,长了皱纹头发凌乱,喝老酸奶吃糖葫芦接地气

59岁巩俐在北京公园,长了皱纹头发凌乱,喝老酸奶吃糖葫芦接地气

心静物娱
2025-11-09 10:42:25
外媒:福建舰入列是“中国军事现代化最引人注目标志之一”

外媒:福建舰入列是“中国军事现代化最引人注目标志之一”

参考消息
2025-11-09 19:45:04
世界上平原面积最大的五个国家

世界上平原面积最大的五个国家

世界纵横说
2025-11-05 11:29:37
百万手提包,限量奢侈品仅裤子就9.5万,失宠贵妃派头究竟有多大

百万手提包,限量奢侈品仅裤子就9.5万,失宠贵妃派头究竟有多大

冒泡泡的鱼儿
2025-11-09 01:58:19
悄悄5连胜!联盟第1!东部大黑马诞生,康宁汉姆收获黄金搭档

悄悄5连胜!联盟第1!东部大黑马诞生,康宁汉姆收获黄金搭档

世界体育圈
2025-11-09 18:37:58
2025-11-09 20:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13828文章数 66239关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

英伟达被华尔街大佬做空 4天市值蒸发4551亿美元

头条要闻

英伟达被华尔街大佬做空 4天市值蒸发4551亿美元

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

游戏
时尚
健康
公开课
军事航空

这就是假小子的魅力吗?超英新游预估销量已接近百万

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

超声探头会加重受伤情况吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版