网易首页 > 网易号 > 正文 申请入驻

对话智源研究院副院长林咏华:当下已进入语言模型深水区 预计2025年会出现更多新的多模态模型

0
分享至

《科创板日报》20日讯(记者 李明明)近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

就评测结果显示当前语言模型发展放缓的具体原因,智源研究院副院长兼总工程师林咏华在接受《科创板日报》记者采访时表示,首先,现在最优秀的语言模型已经发展了一定的基础能力,再明显的增长不是特别容易,不能只是拼更大的参数或更多的数据这条路,而是需要更多的深入创新才能提升,因此,会看到更新更大的语言模型出现的频率有所减缓,因此现在进入了语言模型的深水区。

从全球模型的发展情况来看,模型尺寸出现两极分化。11月Hugging Face下载量最高的模型显示,高下载量出现在两极分化的模型上,一类是更大更强的稠密模型,像Llama3.1的405B全球一个月的下载量是七八百万,也是下载量最高之一。但是剩下的高下载量则很多是7B或以下的小模型。

“其次,可以看到多模态模型的潜力。目前多模态模型的需求蓬勃发展,但是,相较语言模型来说,其在基础能力上有明显的提升空间。2025年,预计多模态模型会层出不穷,包括开源模型,会有更多新的多模态模型。” 林咏华说。

“百模”评测结果:文生视频模型画质进一步提升 但普遍存在大幅度动作变形等问题

智源研究院评测结果显示,语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

在语言模型主观评测重点考察模型中文能力方面,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

在视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

在文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型方面,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

2025年基于语言模型会产生更多Agent

随着技术的不断成熟和应用场景的不断拓展,多模态大模型也在各个领域发挥越来越重要的作用。相应的各家大模型厂商去年目标多是追逐AGI,今年则开始发力应用。

对于AGI和应用这两者的优先级,林咏华告诉《科创板日报》记者,通过整理今年5月和12月的两组对比数据,可以看到,以语言模型为例,追逐更大更强的语言模型,尤其是开源模型的这些厂商数量在减少;同时,本次评测的开源模型中,国内新出现的厂商较少。

因此,对于国内大模型厂商来说,很多厂商经过一年多的训练,其模型能力已经到达了一定应用的可能性,需要尽快做应用落地。

林咏华进一步表示,如今依然还有少部分的厂商和机构会在AGI的路上不断往前走,例如META今年推出了405B的超大模型,其全球下载量也很大,智源发布的Emu3也是完全原生的多模态世界模型等。因此目前的趋势是,全球开始有分层有分工地追求AGI,一部分不断地追求更强更大的AGI模型,另一部分则希望有好的模型做应用尝试。

但是,今年没有特别明显的killer APP出来,智源从评测的众多模型来看,明年AI应用的趋势会体现在哪些方面?

对此,林咏华告诉《科创板日报》记者,AI应用的具体情况和模型发展到什么阶段相关。例如,今年很多AI应用是以语言模型为基础,经过2023年语言模型的蓬勃发展,2024年语言模型基础能力水平较高,并开始发展复杂的应用能力,所以出现以各种的语言模型为支撑的AI应用。

2025年,语言模型会继续往前发展,基于语言模型会产生更多的Agent,然后围绕Agent来做更复杂的AI应用和系统,这也是明年的热点之一。

同时,经过今年的发展,无论是开源模型,还是闭源模型,2025年都会出现基于文生图、尤其是文生视频的应用。

另外,如果从模型的能力上看,以VLM多模态为代表的跨模态视觉语言模型,在企业的落地场景会有很多,现在有一些已经落地,有一些还在探索当中。明年把基础能力做得更好,也会形成新的AI应用。

如今,互联网科技巨头大力推多模态大模型,而且算力和算法等也是这些巨头的优势。那么,相对于巨头以及先崛起的AI六小龙,目前正待崛起的小的模型企业,他们的机会在哪?

林咏华认为,多模态模型有不同的训练方法,如果用VLM的做法,通过语言塔加视觉塔为基础进行训练,不需要完全从头开始。 此外,多模态模型上可以有不同的创新,比如,不同模态的连接方式、预处理、后处理、微调学习、强化学习等,是那些资金不强但是创新能力足够强的团队可以做的事情。

此外,林咏华还表示,互联网大厂在模型的技术能力上有两方面的优势。

“首先,语言模型需要更多的用户使用,才能起到数据飞轮的作用,互联网大厂有很强的流量优势,对比流量小的模型厂商有天然的优势;其次,在文生图、文生视频方面,像字节、快手的优势在于数据,其本身有短视频平台,积累了相关的高质量数据,会比其他的非互联网厂商有明显的优势。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史的维度:乌南大反攻

历史的维度:乌南大反攻

书生论剑
2026-02-23 00:04:25
贝加尔湖事故生还者为孩子父亲,遇难者6女1男,都是自由行惹的祸

贝加尔湖事故生还者为孩子父亲,遇难者6女1男,都是自由行惹的祸

社会日日鲜
2026-02-23 06:02:32
瑞典美女到中国旅游,一下飞机就怒斥:中国人这么没教养的么?

瑞典美女到中国旅游,一下飞机就怒斥:中国人这么没教养的么?

辉哥说动漫
2026-02-22 23:11:24
张作霖的厨子晚年坦言:大帅饭桌上有个不成文的规矩,谁碰谁倒霉

张作霖的厨子晚年坦言:大帅饭桌上有个不成文的规矩,谁碰谁倒霉

千秋文化
2026-02-15 19:32:40
特斯拉新车正式下线:无方向盘、无踏板、无后视镜;定价不高于3万美元,“不需要人开,直接输入目的地即可”

特斯拉新车正式下线:无方向盘、无踏板、无后视镜;定价不高于3万美元,“不需要人开,直接输入目的地即可”

中国能源网
2026-02-20 19:18:19
人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

马拉松跑步健身
2026-02-22 06:30:04
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

浔阳咸鱼
2026-02-23 08:40:09
特朗普海湖庄园的县公安局局长77岁,若身体允许还可以继续干

特朗普海湖庄园的县公安局局长77岁,若身体允许还可以继续干

雪中风车
2026-02-23 17:15:47
女演员长相对选角有多重要,看看《镖人》陈丽君与李云霄就知道了

女演员长相对选角有多重要,看看《镖人》陈丽君与李云霄就知道了

露珠聊影视
2026-02-22 23:03:30
无锡融创投资有限公司破产清算

无锡融创投资有限公司破产清算

地产微资讯
2026-02-23 13:12:52
建议大家:春节过后,再去银行定期存款,一定要记住“3要4不要”

建议大家:春节过后,再去银行定期存款,一定要记住“3要4不要”

时尚的弄潮
2026-02-23 15:29:22
保罗谈2015年被库里背后运球晃倒:我确实踩到了他的脚

保罗谈2015年被库里背后运球晃倒:我确实踩到了他的脚

懂球帝
2026-02-23 14:46:04
连登14次春晚的解晓东,如今身败名裂家财被拍卖,落魄住进养老院

连登14次春晚的解晓东,如今身败名裂家财被拍卖,落魄住进养老院

小熊侃史
2026-02-23 13:00:44
中国十大著名糕点

中国十大著名糕点

电工知库
2026-02-23 06:33:26
歼-20压阵?中美爆发黄海对峙,10多架F-16精心准备却狼狈败退?

歼-20压阵?中美爆发黄海对峙,10多架F-16精心准备却狼狈败退?

嫹笔牂牂
2026-02-22 16:25:37
丹麦拒收美国提供医疗船

丹麦拒收美国提供医疗船

陆弃
2026-02-23 09:46:06
春节期间人民币猛涨!先别高兴,要警惕今年外贸、股市能否接住!

春节期间人民币猛涨!先别高兴,要警惕今年外贸、股市能否接住!

趣味萌宠的日常
2026-02-23 15:41:02
这人妻感绝对拉满

这人妻感绝对拉满

贵圈真乱
2026-02-23 10:55:35
因长得太漂亮,七次拒绝导演“要求”被封杀,43岁终凭实力拿影后

因长得太漂亮,七次拒绝导演“要求”被封杀,43岁终凭实力拿影后

近史博览
2026-01-23 11:33:12
今年春节,已没人再进行同学聚会了。

今年春节,已没人再进行同学聚会了。

老陆不老
2026-02-22 20:05:28
2026-02-23 17:59:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
686715文章数 1017736关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

德国总理默茨将访华

头条要闻

德国总理默茨将访华

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

健康
手机
家居
本地
公开课

转头就晕的耳石症,能开车上班吗?

手机要闻

小米18系列再次被确认:双2亿潜望+硬件防窥屏,堆料有点猛

家居要闻

本真栖居 爱暖伴流年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版