网易首页 > 网易号 > 正文 申请入驻

对话智源研究院副院长林咏华:当下已进入语言模型深水区 预计2025年会出现更多新的多模态模型

0
分享至

《科创板日报》20日讯(记者 李明明)近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

就评测结果显示当前语言模型发展放缓的具体原因,智源研究院副院长兼总工程师林咏华在接受《科创板日报》记者采访时表示,首先,现在最优秀的语言模型已经发展了一定的基础能力,再明显的增长不是特别容易,不能只是拼更大的参数或更多的数据这条路,而是需要更多的深入创新才能提升,因此,会看到更新更大的语言模型出现的频率有所减缓,因此现在进入了语言模型的深水区。

从全球模型的发展情况来看,模型尺寸出现两极分化。11月Hugging Face下载量最高的模型显示,高下载量出现在两极分化的模型上,一类是更大更强的稠密模型,像Llama3.1的405B全球一个月的下载量是七八百万,也是下载量最高之一。但是剩下的高下载量则很多是7B或以下的小模型。

“其次,可以看到多模态模型的潜力。目前多模态模型的需求蓬勃发展,但是,相较语言模型来说,其在基础能力上有明显的提升空间。2025年,预计多模态模型会层出不穷,包括开源模型,会有更多新的多模态模型。” 林咏华说。

“百模”评测结果:文生视频模型画质进一步提升 但普遍存在大幅度动作变形等问题

智源研究院评测结果显示,语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

在语言模型主观评测重点考察模型中文能力方面,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

在视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

在文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型方面,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

2025年基于语言模型会产生更多Agent

随着技术的不断成熟和应用场景的不断拓展,多模态大模型也在各个领域发挥越来越重要的作用。相应的各家大模型厂商去年目标多是追逐AGI,今年则开始发力应用。

对于AGI和应用这两者的优先级,林咏华告诉《科创板日报》记者,通过整理今年5月和12月的两组对比数据,可以看到,以语言模型为例,追逐更大更强的语言模型,尤其是开源模型的这些厂商数量在减少;同时,本次评测的开源模型中,国内新出现的厂商较少。

因此,对于国内大模型厂商来说,很多厂商经过一年多的训练,其模型能力已经到达了一定应用的可能性,需要尽快做应用落地。

林咏华进一步表示,如今依然还有少部分的厂商和机构会在AGI的路上不断往前走,例如META今年推出了405B的超大模型,其全球下载量也很大,智源发布的Emu3也是完全原生的多模态世界模型等。因此目前的趋势是,全球开始有分层有分工地追求AGI,一部分不断地追求更强更大的AGI模型,另一部分则希望有好的模型做应用尝试。

但是,今年没有特别明显的killer APP出来,智源从评测的众多模型来看,明年AI应用的趋势会体现在哪些方面?

对此,林咏华告诉《科创板日报》记者,AI应用的具体情况和模型发展到什么阶段相关。例如,今年很多AI应用是以语言模型为基础,经过2023年语言模型的蓬勃发展,2024年语言模型基础能力水平较高,并开始发展复杂的应用能力,所以出现以各种的语言模型为支撑的AI应用。

2025年,语言模型会继续往前发展,基于语言模型会产生更多的Agent,然后围绕Agent来做更复杂的AI应用和系统,这也是明年的热点之一。

同时,经过今年的发展,无论是开源模型,还是闭源模型,2025年都会出现基于文生图、尤其是文生视频的应用。

另外,如果从模型的能力上看,以VLM多模态为代表的跨模态视觉语言模型,在企业的落地场景会有很多,现在有一些已经落地,有一些还在探索当中。明年把基础能力做得更好,也会形成新的AI应用。

如今,互联网科技巨头大力推多模态大模型,而且算力和算法等也是这些巨头的优势。那么,相对于巨头以及先崛起的AI六小龙,目前正待崛起的小的模型企业,他们的机会在哪?

林咏华认为,多模态模型有不同的训练方法,如果用VLM的做法,通过语言塔加视觉塔为基础进行训练,不需要完全从头开始。 此外,多模态模型上可以有不同的创新,比如,不同模态的连接方式、预处理、后处理、微调学习、强化学习等,是那些资金不强但是创新能力足够强的团队可以做的事情。

此外,林咏华还表示,互联网大厂在模型的技术能力上有两方面的优势。

“首先,语言模型需要更多的用户使用,才能起到数据飞轮的作用,互联网大厂有很强的流量优势,对比流量小的模型厂商有天然的优势;其次,在文生图、文生视频方面,像字节、快手的优势在于数据,其本身有短视频平台,积累了相关的高质量数据,会比其他的非互联网厂商有明显的优势。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
教育巨变已挡不住?2026届初中生,难道是仅靠中高考的最后一批?

教育巨变已挡不住?2026届初中生,难道是仅靠中高考的最后一批?

老特有话说
2026-04-18 01:00:03
两集飙出9.1,这剧不打码根本没法看

两集飙出9.1,这剧不打码根本没法看

独立鱼
2026-04-18 21:14:44
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

侠客栈
2026-04-18 13:14:53
日本军舰闯入台湾海峡后,日媒发现不妙,中国在东海划5处警戒区

日本军舰闯入台湾海峡后,日媒发现不妙,中国在东海划5处警戒区

章荳解说体育
2026-04-18 14:35:49
美军封锁霍尔木兹,巴基斯坦反将一军,为伊朗送去最需要的东西

美军封锁霍尔木兹,巴基斯坦反将一军,为伊朗送去最需要的东西

空天力量
2026-04-18 13:09:10
遗憾!张雪车队无缘3连冠:极限反超 第三被罚变第四 无缘领奖台

遗憾!张雪车队无缘3连冠:极限反超 第三被罚变第四 无缘领奖台

念洲
2026-04-18 20:40:05
拒爆冷!西部豪强12分大逆转:全队狂罚33球,约基奇轰25+13+11

拒爆冷!西部豪强12分大逆转:全队狂罚33球,约基奇轰25+13+11

体坛小李
2026-04-19 07:03:01
4.8万紫檀珠直播被砍晕!弹幕比妖怪还犀利?迟重瑞憋不住了

4.8万紫檀珠直播被砍晕!弹幕比妖怪还犀利?迟重瑞憋不住了

鉴史录
2026-04-18 17:55:00
远嫁中国8年回伊朗娘家,突然发现自己已经成为了当地富婆!

远嫁中国8年回伊朗娘家,突然发现自己已经成为了当地富婆!

老特有话说
2026-04-17 17:10:53
一夜3大消息!杜兰特缺席,哈登首秀开门红,勇士官方致谢球迷

一夜3大消息!杜兰特缺席,哈登首秀开门红,勇士官方致谢球迷

体坛小李
2026-04-19 07:52:16
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
“不是打穿天山容易,而是天山那头有人民”,感慨因何而发?

“不是打穿天山容易,而是天山那头有人民”,感慨因何而发?

新华社
2026-04-16 20:38:52
再次领先美国!中国第二个空间站今年发射,和中国空间站有何不同

再次领先美国!中国第二个空间站今年发射,和中国空间站有何不同

混沌录
2026-04-17 20:47:09
大瓜!健身房教练和4个女学员XX

大瓜!健身房教练和4个女学员XX

新浪财经
2026-04-17 19:46:07
成本5亿积压7年,院线都没上直接免费网播,这电影就是个笑话!

成本5亿积压7年,院线都没上直接免费网播,这电影就是个笑话!

观察鉴娱
2026-04-18 11:57:49
哈登22+10创纪录,骑士迎季后赛开门红!米切尔创NBA历史第1神迹

哈登22+10创纪录,骑士迎季后赛开门红!米切尔创NBA历史第1神迹

一将篮球
2026-04-19 07:16:33
英超最新积分战报:热刺惨遭绝平,切尔西0-1曼联,纽卡被绝杀

英超最新积分战报:热刺惨遭绝平,切尔西0-1曼联,纽卡被绝杀

足球狗说
2026-04-19 05:15:52
要彻底离开?格林:这可能是最后一次和库里打球,感激这一年!

要彻底离开?格林:这可能是最后一次和库里打球,感激这一年!

爱体育
2026-04-18 22:04:20
原来,“赢学”是有着光荣传统的

原来,“赢学”是有着光荣传统的

壹家言
2026-04-18 22:19:14
魏建军发布会现场痛批营销团队5分钟:无法转化工程师成果“相当于犯罪”

魏建军发布会现场痛批营销团队5分钟:无法转化工程师成果“相当于犯罪”

三言科技
2026-04-18 20:55:06
2026-04-19 08:04:49
科创板日报 incentive-icons
科创板日报
上海报业集团主管主办
67388文章数 44565关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

媒体:特朗普对伊朗发动攻击 美国遭遇四大挫败

头条要闻

媒体:特朗普对伊朗发动攻击 美国遭遇四大挫败

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

教育
房产
数码
本地
公开课

教育要闻

父母永远不看孩子的脸色

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

数码要闻

华为版的科技春晚来了!Pura 90/Pura X Max下周发:阵容豪华

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版