网易首页 > 网易号 > 正文 申请入驻

对话智源研究院副院长林咏华:当下已进入语言模型深水区 预计2025年会出现更多新的多模态模型

0
分享至

《科创板日报》20日讯(记者 李明明)近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

就评测结果显示当前语言模型发展放缓的具体原因,智源研究院副院长兼总工程师林咏华在接受《科创板日报》记者采访时表示,首先,现在最优秀的语言模型已经发展了一定的基础能力,再明显的增长不是特别容易,不能只是拼更大的参数或更多的数据这条路,而是需要更多的深入创新才能提升,因此,会看到更新更大的语言模型出现的频率有所减缓,因此现在进入了语言模型的深水区。

从全球模型的发展情况来看,模型尺寸出现两极分化。11月Hugging Face下载量最高的模型显示,高下载量出现在两极分化的模型上,一类是更大更强的稠密模型,像Llama3.1的405B全球一个月的下载量是七八百万,也是下载量最高之一。但是剩下的高下载量则很多是7B或以下的小模型。

“其次,可以看到多模态模型的潜力。目前多模态模型的需求蓬勃发展,但是,相较语言模型来说,其在基础能力上有明显的提升空间。2025年,预计多模态模型会层出不穷,包括开源模型,会有更多新的多模态模型。” 林咏华说。

“百模”评测结果:文生视频模型画质进一步提升 但普遍存在大幅度动作变形等问题

智源研究院评测结果显示,语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

在语言模型主观评测重点考察模型中文能力方面,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

在视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

在文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型方面,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

2025年基于语言模型会产生更多Agent

随着技术的不断成熟和应用场景的不断拓展,多模态大模型也在各个领域发挥越来越重要的作用。相应的各家大模型厂商去年目标多是追逐AGI,今年则开始发力应用。

对于AGI和应用这两者的优先级,林咏华告诉《科创板日报》记者,通过整理今年5月和12月的两组对比数据,可以看到,以语言模型为例,追逐更大更强的语言模型,尤其是开源模型的这些厂商数量在减少;同时,本次评测的开源模型中,国内新出现的厂商较少。

因此,对于国内大模型厂商来说,很多厂商经过一年多的训练,其模型能力已经到达了一定应用的可能性,需要尽快做应用落地。

林咏华进一步表示,如今依然还有少部分的厂商和机构会在AGI的路上不断往前走,例如META今年推出了405B的超大模型,其全球下载量也很大,智源发布的Emu3也是完全原生的多模态世界模型等。因此目前的趋势是,全球开始有分层有分工地追求AGI,一部分不断地追求更强更大的AGI模型,另一部分则希望有好的模型做应用尝试。

但是,今年没有特别明显的killer APP出来,智源从评测的众多模型来看,明年AI应用的趋势会体现在哪些方面?

对此,林咏华告诉《科创板日报》记者,AI应用的具体情况和模型发展到什么阶段相关。例如,今年很多AI应用是以语言模型为基础,经过2023年语言模型的蓬勃发展,2024年语言模型基础能力水平较高,并开始发展复杂的应用能力,所以出现以各种的语言模型为支撑的AI应用。

2025年,语言模型会继续往前发展,基于语言模型会产生更多的Agent,然后围绕Agent来做更复杂的AI应用和系统,这也是明年的热点之一。

同时,经过今年的发展,无论是开源模型,还是闭源模型,2025年都会出现基于文生图、尤其是文生视频的应用。

另外,如果从模型的能力上看,以VLM多模态为代表的跨模态视觉语言模型,在企业的落地场景会有很多,现在有一些已经落地,有一些还在探索当中。明年把基础能力做得更好,也会形成新的AI应用。

如今,互联网科技巨头大力推多模态大模型,而且算力和算法等也是这些巨头的优势。那么,相对于巨头以及先崛起的AI六小龙,目前正待崛起的小的模型企业,他们的机会在哪?

林咏华认为,多模态模型有不同的训练方法,如果用VLM的做法,通过语言塔加视觉塔为基础进行训练,不需要完全从头开始。 此外,多模态模型上可以有不同的创新,比如,不同模态的连接方式、预处理、后处理、微调学习、强化学习等,是那些资金不强但是创新能力足够强的团队可以做的事情。

此外,林咏华还表示,互联网大厂在模型的技术能力上有两方面的优势。

“首先,语言模型需要更多的用户使用,才能起到数据飞轮的作用,互联网大厂有很强的流量优势,对比流量小的模型厂商有天然的优势;其次,在文生图、文生视频方面,像字节、快手的优势在于数据,其本身有短视频平台,积累了相关的高质量数据,会比其他的非互联网厂商有明显的优势。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑爽精神失常?34岁满头白发,抱娃当街与张恒家吵架,孩子吓到大哭

郑爽精神失常?34岁满头白发,抱娃当街与张恒家吵架,孩子吓到大哭

八卦王者
2026-05-24 11:58:10
《太空堡垒》女星52岁入驻OnlyFans:被说"突破边界",她回"我掌控一切"

《太空堡垒》女星52岁入驻OnlyFans:被说"突破边界",她回"我掌控一切"

时光慢旅人
2026-05-24 01:29:53
你读过回报率最高的一本书是什么?网友:回报率870%!

你读过回报率最高的一本书是什么?网友:回报率870%!

另子维爱读史
2026-05-21 20:16:13
中大型SUV即将上市!车长超5米,纯电/增程可选,综合续航1230km

中大型SUV即将上市!车长超5米,纯电/增程可选,综合续航1230km

小史谈车
2026-05-25 10:14:52
24+23+22!比肩詹姆斯!这就是尼克斯给他1.5亿美金大合同的原因

24+23+22!比肩詹姆斯!这就是尼克斯给他1.5亿美金大合同的原因

世界体育圈
2026-05-24 19:20:34
普京失望而归,中蒙俄管道20年谈判失败,中国要让俄明白一个道理

普京失望而归,中蒙俄管道20年谈判失败,中国要让俄明白一个道理

潋滟晴方DAY
2026-05-23 21:47:48
补强后防线!大牌后卫有望夏窗驰援国安,球队改打防反为保级而战

补强后防线!大牌后卫有望夏窗驰援国安,球队改打防反为保级而战

体坛鉴春秋
2026-05-25 09:42:16
美国军工又炸了,连出多起重大事故,帝国根基正在自己脚下塌方

美国军工又炸了,连出多起重大事故,帝国根基正在自己脚下塌方

忠诚TALK
2026-05-25 09:44:29
太痛了!广东大伯患上带状疱疹,自制“衣物隔离架”,医生:很机智!

太痛了!广东大伯患上带状疱疹,自制“衣物隔离架”,医生:很机智!

广东活动
2026-05-22 12:15:33
刚果小鱼攀爬15米瀑布奇观首次被影像记录

刚果小鱼攀爬15米瀑布奇观首次被影像记录

cnBeta.COM
2026-05-23 14:15:11
王传福再开一枪!比亚迪鲨鱼洄游,车市大战一触即发

王传福再开一枪!比亚迪鲨鱼洄游,车市大战一触即发

象视汽车
2026-05-25 07:00:07
我考上公务员和男友分手,8年后他已是市委书记,我们意外重逢

我考上公务员和男友分手,8年后他已是市委书记,我们意外重逢

萧竹轻语
2025-12-17 17:08:45
曾花费1亿请赵本山代言,成本2毛骗农民200亿,创始人至今没出狱

曾花费1亿请赵本山代言,成本2毛骗农民200亿,创始人至今没出狱

杰丝聊古今
2026-05-02 11:15:08
中美已谈妥,统一最佳方案出现,鲁比奥道破关键,台岛青年选边站

中美已谈妥,统一最佳方案出现,鲁比奥道破关键,台岛青年选边站

青烟小先生
2026-05-24 10:04:30
“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

近史谈
2026-03-31 18:57:49
票房破10亿,《给阿嬷的情书》给行业三大启示,赵本山的话印证了

票房破10亿,《给阿嬷的情书》给行业三大启示,赵本山的话印证了

电影票房预告片
2026-05-24 13:00:57
直播翻车前5分钟,何炅说了4次“别聊不在场的人”。

直播翻车前5分钟,何炅说了4次“别聊不在场的人”。

小娱乐悠悠
2026-05-24 08:42:31
香港女航天员首飞,神舟二十三号要干一件大事!

香港女航天员首飞,神舟二十三号要干一件大事!

牲产队
2026-05-24 12:27:42
职业运动员究竟有多厉害?网友:在天赋面前,努力一文不值!

职业运动员究竟有多厉害?网友:在天赋面前,努力一文不值!

另子维爱读史
2026-05-21 08:03:05
特朗普变卦?赖清德高兴太早了,中国叫停计划,美副防长访华泡汤

特朗普变卦?赖清德高兴太早了,中国叫停计划,美副防长访华泡汤

晓徙娱乐
2026-05-25 09:29:18
2026-05-25 11:07:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
723240文章数 1021043关注度
往期回顾 全部

科技要闻

华为发表半导体演进新定律

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走 老板发声

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走 老板发声

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆:难以理喻

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

健康
本地
家居
数码
亲子

外泌体 ≠ 生长因子!它们之间究竟有何区别?

本地新闻

用云锦的方式,打开江苏南京

家居要闻

低调传承 温润沉静

数码要闻

FEVM推出雷电5 / OCuLink显卡坞FNGT5 PLUS,配备600W电源

亲子要闻

福州儿童/青少年配眼镜深度推荐:拒绝“模板化”,科学护航孩子的“远视储备”

无障碍浏览 进入关怀版