本文刊发于《现代电影技术》2025年第5期
专家点评
科技是第一生产力,产业是国民经济基石。推动科技创新和产业创新深度融合,关系新质生产力发展,关系中国式现代化全局。党的二十届三中全会对“推动科技创新和产业创新融合发展”作出部署。2025年全国电影工作会提出要聚焦推动电影科技创新,加快培育新质生产力,进一步赋能产业迭代升级。人工智能(AI)作为引领新一轮科技革命和产业变革的通用技术引擎,将为电影行业带来颠覆性创新和跨领域渗透能力,成为推动新质生产力加快形成的强大力量。人工智能的发展目标是不断提升自主学习和自主进化能力,向人类智能不断逼近。深度人工神经网络和AI大模型的架构升级、算法创新、工程优化以及开放生态构建完善,持续推动数字人建模生成渲染、三维数字内容智能生成、多模态情感识别与理解、高质量成像与图像重建、场景识别与跨模态学习等诸多领域取得创新成果,为电影行业智能体与大模型的自主定制研发、虚拟现实电影制作生产、电影数字资产制作复用、多元化电影摄制播映、影院智慧运营管理等电影全产业链提供了有力支撑。《从全球人工智能顶会ICLR 2025看中国电影产业的智能化演进升级》一文,基于AI语言大模型、视觉大模型、多模态大模型、AIGC、多智能体系统协同、通用人工智能(AGI)、AI安全与版权等ICLR 2025国际会议热点技术的最新进展,提出“电影行业应积极发展与应用人工智能科学研究与工程应用范式”“在创新升级AGI技术路线中积极贡献中国智慧和中国力量”等前瞻性思考与分析展望,对于推动人工智能加快向通用人工智能发展演进,具有较高的指导意义和应用价值。该论文文字精炼严密、视角新颖前沿、见解独到深刻,为现代智能科技与文化科技深度融合提供了极具前瞻性的范式指引。当前电影科技创新已步入深水区,电影工业发展正经历由数字化向智能化的重要跃迁,电影行业应高度重视AI交叉科学研究,统筹AI发展与安全,积极有序推进电影全产业链全价值链的创新提质和智能升级。
——龚波
正高级工程师
中国电影科学技术研究所(中央宣传部电影技术质量检测所)
党委书记、所长
《现代电影技术》编委会主任
作 者 简 介
刘 达
中国电影科学技术研究所(中央宣传部电影技术质量检测所)总工程师,主要研究方向:电影科技与产业智能化升级。
中国电影科学技术研究所(中央宣传部电影技术质量检测所)高新技术研究处副处长,主要研究方向:数字电影技术。
王 萃
常慧琴
中国电影科学技术研究所(中央宣传部电影技术质量检测所)电影技术信息中心副主任,主要研究方向:数字电影技术、电影科技期刊。
中国电影科学技术研究所(中央宣传部电影技术质量检测所)助理工程师,主要研究方向:数字电影技术。
马鸿悦
解 沛
中国电影科学技术研究所(中央宣传部电影技术质量检测所)工程师,主要研究方向:数字电影技术。
中国电影科学技术研究所(中央宣传部电影技术质量检测所)工程师,主要研究方向:数字电影技术。
蔡国鑫
摘要
本文系统阐述了2025年度国际学习表征大会(ICLR 2025)的最新研究成果,涵盖通用人工智能(AGI)、智能体(Agent)技术、AI安全和版权等研究进展,并结合国家战略和行业需求,提出中国电影行业推进AI技术定制研发和工程化应用的技术路径与前瞻思考。研究表明,电影行业需在推进产业智能化演进升级中基于国产AI大模型技术体系,融入中华优秀传统文化的哲学思想和先进理念,统筹可用性、可控性、安全性、复杂度,不断提升AI技术研发与定制应用的精准性和契合度,有力支撑服务电影强国和文化强国建设。
关键词
电影科技;智能科技;大模型;智能体;通用人工智能
1引言
2025年4月21日至28日,以总工程师刘达为团长的中国电影科学技术研究所(中央宣传部电影技术质量检测所)代表团一行6人,赴香港、新加坡开展业务访问与技术交流。代表团赴香港访问了香港科技大学、香港电影资料馆和香港太古城电影院,赴新加坡参加了全球人工智能领域的顶级学术会议——国际学习表征会议(International Conference on Learning Representations, ICLR)。
代表团细致了解了香港电影产业的发展历史、发展成就当前影院建设改造情况,针对人工智能生成内容(AIGC)跨模态生成、3D建模与智能生成、AI大模型(AI Large Models)发展演进及视听行业应用等内容与香港科技大学科研团队进行了细致深入的研讨与交流。特别是,适应电影产业云化与智能化升级进程不断提速要求,代表团以参加2025年度国际学习表征会议(ICLR)为契机,密切跟踪和深入了解了现代智能科技发展与应用的新趋势新特点新需求,了解了AI领域的最新研究与应用成果,并探索在统筹发展与安全的背景下推进生成式AI、多智能体系统(Multi⁃Agent Systems, MAS)、AI大模型等在电影行业定制设计与落地应用。
此次出访内容充实、系统全面、细致深入,不仅开展了技术研讨与交流,而且建立了业务联系和交流机制,代表团收获显著,达到了预期目标。出访成果对于推进AI大语言模型(Large Language Model, LLM)、视觉大模型(Large Visual Model, LVM)、多模态大模型(Multi⁃modal Large Language Models, MLLM)、AIGC、通用人工智能(AGI)发展演进,多智能体协同工作,人工智能安全与版权等技术在我国电影行业的发展应用,推动人工智能科学研究与工程应用范式(AI for Science & AI for Engineering)在电影行业深化应用,均具有较好指导意义和应用价值。
2ICLR 2025最新研究成果及参会主要收获
2.1 人工智能算法创新、资源优化和数据集扩充优化完善等关键领域协同并进,全面提升AI大模型多模态理解和内容生成能力,推动AI技术加速向具备强大自主学习和推理能力的AGI目标发展演进。
2.1.1 AGI总体发展情况
AGI是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念,是人工智能领域的终极目标。
(1)智能技术发展演进路径
现代智能科技的发展与应用持续向广度和深度统筹推进,从传统浅层机器学习演进至基于多级人工神经网络(ANN)的深度学习(Deep Learning),从传统深度学习演进至人工智能预训练大模型(AI Pre⁃trained Large Model),从判别式(Discriminative)人工智能演进至生成式(Generative)人工智能,AI的感知、理解与创造能力不断提升,适应与进化能力持续增强。从传统机器学习模型、深度学习模型到预训练大模型,参数量越来越大,计算结构越来越复杂,能力呈跨越式增长。当前,AI大模型成为新一轮科技革命和产业变革的重要驱动力,其行业化、领域化、专业化、轻量级的发展趋势愈发显著,不断向AGI逼近。
AI大模型是具有数百亿甚至千亿参数的深度学习模型,可采用海量数据进行大规模预训练,并可适应广泛的下游任务,包括大语言模型、视觉大模型、多模态大模型等。在各类大模型中,大语言模型的发展最为成熟,成为最接近AGI的技术载体。其发展主要得益于Transformer架构、自注意力机制等架构革新,人类反馈强化学习(RLHF)等训练范式升级,以及千亿级参数训练带来的规模效应,推动以GPT⁃4为代表的模型实现了理解与生成能力的质的飞跃。为突破复杂推理瓶颈并提升资源效率,混合专家模型(MoE)等新技术应运而生,催生出DeepSeek⁃R1等高性能、低成本的AI大模型。当前大语言模型正朝着构建世界模型的方向演进,通过建立对物理规律的隐式表征,逐步实现跨模态潜意识推理、长周期决策规划和环境实时适应等能力。
(2)AI大模型通向AGI的发展瓶颈
过去几年间,大数据、大算力和先进算法协同发展,显著提升了大模型性能以及多模态多场景应用能力。然而,目前大模型发展速度正在放缓,局限性在实践中逐渐显现。
训练数据接近耗尽,尺度定律(Scaling Law)面临失效。以Orion大模型为例,即便投入更多算力,延长训练时间并扩大数据规模,其性能提升却呈现“收益递减”(Diminishing Return)现象。现有基于Transformer架构的大语言模型,本质上是“统计建模”技术,即通过概率匹配而非逻辑推理生成内容,其核心机制仅是根据上下文预测最可能的下一个词,缺乏真正的认知理解能力。
更有研究人员认为其忽视了真实智能的本质需求。东方哲学思想认为智能产生由内在的价值驱动而非外在的数据驱动,智能产生于主观的、内生的闭环系统,能通过闭环纠错实现自我学习与改进。而大模型训练流程通常为开环系统,只是实现了局部记忆功能,在现有资源局限的背景下难以建立起系统完整的人类智能。因此,实现AGI需要突破对大模型的单一依赖。
2.1.2 监督学习、无监督学习和自监督学习
监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)作为人工智能领域的两种基本方法和核心范式,近年来均取得了突破性进展。监督学习凭借其成熟的算法框架和可预测的性能表现,在数据标注完善的应用场景中表现卓越,能够训练AGI完成语言理解以及视觉识别等任务,应用场景广泛。然而,监督学习过度依赖于人工标注,不仅带来了高昂成本,更限制了模型在开放环境中的泛化能力和自主探索能力。相比之下,无监督学习和自监督学习(Self⁃supervised Learning)使用未标记的数据集进行训练,无需数据标签,能够模拟人类自主学习过程,在动态环境中能够帮助AGI快速适应。近年来,随着生成式AI的爆发式发展,无监督学习技术在跨模态理解、数据表征学习等领域展现出巨大潜力。
(1)无监督学习与自监督学习
无监督学习与自监督学习适用于数据标注困难或成本高昂的场景,无论是生成对抗网络(Generative Adversarial Networks, GAN)还是自编码器(Autoencoder)都有着不俗的表现,也更契合人类学习的本质。在本次ICLR会议上,无监督学习与自监督学习收录论文共计70余篇,理论研究占比仍然较大,不过已涌现出数篇能够应用于实际场景的算法。在这些论文中,全局—局部交互、多尺度建模以及大语言模型的视觉任务成为重点。
土耳其科奇大学人工智能实验室提出一种名为“SlotAdapt”的无监督学习方法,该方法通过引入基于槽(Slot)的适配器,在保留预训练模型生成能力的同时,显著提升复杂真实场景下的目标检测与图像生成(例如对象的替换、删除与添加)任务的性能和效率。南加州大学研究团队通过探讨多模态大语言模型(Multi⁃modal Large Language Models,MLLM)在视觉方面的机制,发现MLLM性能瓶颈并不是其空间定位能力不足,只是缺乏对局部细节的感知能力。对此,团队提出一种无需训练的视觉裁剪方法ViCrop,该方法无需额外训练,也不依赖针对性的数据标注,便可显著提高模型在细节敏感性数据集上的回答准确率。美国Meta公司提出一种新型自监督视觉特征学习方法,成功构建了无需微调即可跨任务和图像分布通用的视觉基础模型。该研究通过结合大规模数据训练、模型架构优化及高效蒸馏策略,显著提升自监督学习在计算机视觉中的性能。
(2)监督学习
监督学习在图像识别和自然语言处理(NLP)等领域已实现广泛应用。该方法凭借标注数据的明确指导,在分类、回归等任务目标清晰的场景中表现出较高精度。然而,其性能高度依赖于大量高质量的标注数据,而数据标注成本高昂且耗时,尤其在复杂场景中标注难度进一步加大。在本次ICLR会议中,监督学习论文数量不多,应用方向主要集中于图像生成、编辑以及多模态模型等领域。
针对传统扩散变换器(Diffusion Transformer, DiT)虽然能够生成高质量的图像内容但计算成本过于高昂的情况,新加坡国立大学、阿里达摩院和清华大学共同研究并提出动态扩散变换器(Dynamic Diffusion Transformer, DyDiT)。该模型通过动态调整计算资源分配,显著降低DiT计算冗余,在视觉生成任务中减少了51%的推理算力,同时保持生成质量。为保证稳定性,在训练初期保留由相同扩散目标监督的完整DiT模型参与训练。目前该代码已经开源,未来可探索其在视频生成等任务中的应用。由华东师范大学和小红书公司联合完成的Dynamic⁃LLaVA方法将监督学习与多模态模型结合,提出了一个动态视觉—文本上下文稀疏化推理加速框架,实现多模态大模型的高效推理。多伦多大学的向量研究院提出一种能够处理7种不同图像编辑任务且不受比例限制的全能编辑模型,值得注意的是,该团队利用多个专有模型的监督学习最终实现了通用编辑模型OMNIEDIT。
(3)电影行业应用思考与展望
当前,监督学习在生成模型领域发展迅速,具有生成质量高、算力需求小等特点,能够契合电影产业高画质要求。无监督学习更类似于人类自主学习的过程,能够从无标记数据中挖掘潜在结构,在大语言模型驱动的视觉任务中取得了显著进展。
随着技术不断演进,监督学习与无监督学习正逐渐走向融合发展,呈现出协同进步的良好态势。监督学习为AGI提供精准的任务先验,而无监督学习赋予其开放世界的泛化能力。通过二者的协同运用,未来将发展出可解释性强、艺术创作力丰富的算法模型,并在电影剧本生成、影像风格迁移与模仿、3D数字资产与场景建模、内容剪辑以及后期特效合成等领域有效落地。如果可以进一步泛化模型与算法,将有望形成实用的电影通用人工智能系统,进而开启电影发展新篇章。
2.1.3 合成数据
合成数据是指通过计算机算法和模型生成的数据,这些数据在结构和统计特性上与真实数据相似,但并非直接从现实世界中采集。合成数据可以是完全由算法生成的,也可以是基于真实数据进行修改和扩展而来的,对缺乏真实数据的领域具有重要意义。一般来说,完全使用合成数据训练模型可能导致模型偏差和过拟合(Overfitting),但DeepMind研究者在论文中提出结合少量真实人类数据与大规模合成数据,可以提升模型对人类价值观的对齐能力,缓解合成数据偏差,同时有效降低生成成本。
本次ICLR会议,美国威斯康星大学麦迪逊分校与微软(Microsoft)的研究者提出了一种在合成数据集微调大语言模型的方法,能显著提升大语言模型对长上下文的信息检索和推理能力;来自新加坡国立大学的研究者系统评估了4种基于合成数据的机器学习训练方法对隐私保护的实际效果,发现即使合成图像数据与原始图像数据存在视觉差异,也并不能完全保障隐私安全。
此外,上海人工智能实验室2025年发布的生成式世界模型AETHER全部使用合成数据训练,在传统重建与生成任务中表现领先。目前电影行业也正在面临训练数据缺乏的挑战,基于少量真实影片数据生成或扩展大规模合成数据用于模型训练,有望成为AI技术应用于电影领域的下一个突破口。
2.2 通用智能体能力持续提升,多智能体系统从基础通信协作优化向大规模协同与动态优化演进,通过低耦合架构设计和多智能体协作框架,为电影创作生产流程的智能化升级提供可行有效路径。
代表团在此次会议中针对智能体系统的构建与应用技术,参加了多个相关主题报告,涵盖通用智能体、多智能体协作等多个研究领域,现从智能体技术机理、智能体研究进展、智能体在电影行业应用等方面进行说明。
2.2.1 智能体(Agent)技术机理
智能体发展经历了从符号逻辑到数据驱动,再向认知智能的范式跃迁。早期符号主义智能体依赖人工编码规则与有限知识库,虽能完成专业领域推理,却因僵化的逻辑链难以处理自然语言理解等开放性问题。2012年,依托GPU算力与ImageNet大规模数据训练的卷积神经网络模型AlexNet成为智能体发展的关键转折,其以超越传统方法10%的图像识别准确率开启深度学习时代,推动智能体进入数据驱动阶段。AlphaGo、BERT等模型通过海量数据学习实现围棋博弈、语义理解等能力跨越,但“黑箱决策”缺陷与物理世界交互的缺失仍限制其应用广度。2017年Transformer架构的提出彻底重构智能体的认知范式。其自注意力机制使模型能动态捕捉跨模态关联,为智能体赋予接近人类的综合认知框架。
现阶段智能体系统不再局限于单一模态,通过结合多模态大模型实现文本、图像、语音的协同分析,并利用工具调用、记忆机制和强化学习实现闭环决策,其应用场景从早期的问答助手扩展到自动编程、数据分析等复杂领域。同时,智能体系统也不再仅由单一智能体构成,通过多智能体协作简化单个智能体的工具选择与上下文构成。这种演进使得智能体系统在开放动态环境中具备更强的适应性、可扩展性和任务分解能力,逐步逼近AGI的雏形。
2.2.2 智能体(Agent)研究进展
当前智能体研究以通用智能体系统和多智能体系统为主导,前者聚焦个体智能的深度,后者拓展群体智能的广度,结合具身智能(Embodied Intelligence)、因果推理等研究方向,共同推进通用人工智能(AGI)向实用化迈进。本次ICLR会议共收录智能体相关论文97篇,涵盖零样本规划、自动化工作流编排、多智能体通信与协作优化等方向。
(1)通用智能体(Generalist Agents)
通用智能体是AI迈向AGI的重要一步,旨在跨多个领域执行多样化任务,依赖强大的计算资源和一个复杂模型实现多任务处理。随着大模型从单模态向多模态转变,通用智能体能处理跨模态任务。但通用智能体仍面临开放环境下任务规划、动态工作流生成等问题。
本次ICLR会议的研究方向主要集中在通过优化任务规划、工具使用和自我改进机制提升通用智能体能力。麻省理工学院(MIT)的研究者针对复杂、多约束、长时序的规划问题提出了一种通用规划框架,将自然语言描述的规划问题转化为优化问题,结合形式化求解器,使大语言模型能够为多约束或长时程任务生成可执行计划,增强智能体规划能力,该框架无需任务特定示例,显著提高了零样本规划的成功率;阿联酋人工智能大学研究者提出了一种创新框架ToolGen,将工具调用能力嵌入LLM参数中,使其能够直接生成工具调用序列,从而统一工具检索和执行,显著提升智能体在处理大规模工具集时的效率和性能;亚马逊AI实验室的研究者提出了DoT(Diversity of Thoughts)框架,通过增强大语言模型智能体的思维多样性和跨任务知识迁移能力,解决现有方法在决策空间探索和记忆机制上的不足。
总体来看,当前通用智能体的研究均以大语言模型为核心展开:一方面通过外围架构创新持续扩展大语言模型能力边界,另一方面将智能体在复杂环境中习得的工具使用能力反哺大模型训练。这种双向赋能机制正推动通用智能体与大语言模型的技术融合,二者的界限日益模糊,最终可能演变为统一的智能范式。
(2)多智能体系统
多智能体系统通过多个自主智能体间的协同交互实现复杂任务求解,其核心特征在于智能体间的通信机制与协作策略的优化设计。相较于单一智能体系统,多智能体系统更强调分布式决策过程中的信息共享、策略博弈以及动态协调能力。本次ICLR会议研究呈现出从基础通信协作优化向大规模协同与动态优化的趋势。
同济大学研究学者首次正式定义了当前基于大语言模型的多智能体系统通信冗余问题,并通过实验验证了通信冗余现象的存在,同时提出了一个高效、简单且鲁棒的多智能体通信框架AgentPrune。该框架能够无缝集成到主流的多智能体系统中,并修剪通信中的冗余甚至恶意内容,在降低token消耗和经济成本的同时,保持较高的性能;针对大语言模型在推理过程中由固定思维模式导致的错误,中国科学院自动化研究所研究团队提出了多样化多智能体辩论(Diverse Multi⁃Agent Debate,DMAD)框架,引导多个智能体采用不同的推理方法进行辩论,使每个智能体能够从不同视角获得洞察,进而精炼自身回答,从而打破固定思维模式,提升推理性能。
目前,大部分多智能体系统的研究局限于小规模系统,其智能体数量通常不超过10个,而来自清华大学的研究者将智能体的拓扑结构构建为有向无环图(DAG),通过图结构组织智能体间的协作交互通信,创新性地提出了支持超千个智能体协作的MACNET框架,并揭示了协作扩展定律,即随着智能体数量的增加,整体性能呈现出逻辑增长模式,且协作涌现现象比传统神经涌现更早发生。这一现象表明智能体协作可通过增加智能体数量来提升性能,而无需依赖大规模的模型再训练。
此外,上海交通大学研究团队借鉴神经网络训练中的反向传播(Back Propagation)思想,通过环境反馈分析每个智能体对最终结果的影响,使多智能体系统能够在测试阶段根据任务实时自我进化,智能调整智能体及其协作关系;Mila人工智能研究所利用大语言模型和强化学习(Reinforcement Learning)将自然语言描述的技能直接转化为可执行的策略代码,使智能体在没有额外训练的情况下,通过组合已有技能来执行新的任务,扩展了智能体的适应性和通用性。
(3)电影行业应用思考与展望
AI大模型作为智能体的核心组件,其语义理解、内容生成与上下文推理能力构成了系统功能的基础支撑。尽管当前基座大模型在电影行业特定任务上的表现仍有局限,但通过采用低耦合架构设计,智能体系统将任务分解、记忆管理、工具调用等关键功能模块与基座模型解耦。当基座模型升级迭代时,智能体系统可无缝适配新模型,实现性能跃升,同时保持系统整体的稳定性和可扩展性。
电影创作生产作为典型的复杂创意流程,涵盖剧本创作、场景设计、拍摄执行与后期制作等环节,其复杂程度远超单一智能体的处理能力。对此,将电影制作流程解构为最小任务单元,为每个细分任务配置具备深度领域知识与优化算法的专用智能体,最后通过构建可扩展的多智能体协作框架,实现各专业模块的智能协同,是实现电影摄制智能化应用的可行路径。
2.3 人工智能应用落地进程不断提速,行业领域赋能效益逐步显现,电影行业应统筹人工智能发展与安全,推动人工智能科技创新与产业创新深度融合并进,开辟安全有效、可信可控的“人工智能+电影”新赛道。
代表团在此次ICLR会议中围绕AI应用落地相关研究,参加了“学术界的语言模型训练”“AI安全与鲁棒性”“生成式AI水印”等多个相关主题报告和论坛,与论文作者进行了深入交流与探讨。现从低成本模型训练、AI安全和AI版权三个核心维度展开说明。
2.3.1 低成本模型训练
AI大模型作为人工智能领域的重要突破,具有参数规模庞大、训练数据需求大、任务泛化能力强等特点。近年来AI大模型技术快速迭代升级,但面临着算力成本激增、优质训练数据稀缺、数据获取合规性争议等三重挑战。随着相关研究的不断深入,学术界与产业界逐渐形成共识:模型规模的无限制扩大并不能保证性能的持续提升,这使得大模型研究从参数竞赛逐渐转向质量与资源效能相平衡的发展方向。
本次ICLR会议的研究热点之一是低成本模型训练和部署。陈丹琦教授作为特邀演讲嘉宾,深度解析了其团队研发的Sheared LLaMA与SimPO等突破性训练方法及通过数据整合(Data Curation)实现高效训练的相关研究,实现了仅需8块GPU即可在百亿级参数量下达到与千亿参数开源模型相当的性能指标。美国东北大学研究者聚焦视觉基础模型训练,仅需120万规模训练数据就可在多项视觉任务中实现与基于亿级数据训练的模型相当的精度水平。清华大学、北京大学联合微软亚洲研究院提出了一种全新的预训练数据选择范式,可在不修改训练框架的前提下实现2倍加速,减少1.8倍数据需求,有效提升数据利用率。
2.3.2 AI安全
AI安全包括AI可信安全(AI Safety)和AI防御安全(AI Security),是人工智能技术落地进程中面临的关键性挑战,构建兼顾稳健性(Safety)与防御能力(Security)的AI系统,可确保其潜在效益得以有序实现,增进社会福祉。因此,AI安全成为本次ICLR会议的重点关注方向之一。会议设置了2个AI安全主题特邀演讲,并录用了70余篇相关领域论文,其中1篇研究成果荣获杰出论文奖。会议展示了AI安全领域的最新研究成果,讨论了AI安全研究路线和现阶段研究瓶颈,并对未来科研与政策发展方向进行了展望。
普林斯顿大学的研究者分析了浅层安全对齐问题,给出了数据增强、约束优化两种改进方法;Virtue AI的研究者构建了首个基于政府法规和公司政策的AI安全基准测试,提出了AI安全评价工具;特邀嘉宾宋晓冬教授分析了AI安全研究的风险与挑战,指出AI攻击手段与保护手段研究的不对称性,提出深入了解AI风险、增加AI研究透明度、加强早期风险监测机制、加强AI保护手段研究、构建可靠AI研究社区等五点建议。
2.3.3 AI版权
随着生成式人工智能(Generative AI)的发展,AI版权问题日渐凸显:一方面生成式人工智能在训练阶段内化吸收了大量版权作品,从而导致其很容易在恶意用户的诱导下生成带有版权的内容,侵犯他人版权;另一方面,AI生成物的独创性难以界定,存在滥用风险,从而引发虚假传播、诈骗等违法行为。本次ICLR会议显著加强了对AI版权议题的学术关注,聚焦防止版权内容生成、模型版权溯源、生成式AI水印三个研究方向,梳理版权保护技术研究成果,加强相关领域研究者的讨论与合作。值得关注的是,本次ICLR会议首次为生成式AI水印设立了单独的专题论坛,录用了51篇相关主题论文,并设置了特邀演讲、口头演讲、海报展示等多个环节。
本次ICLR会议上,苏黎世联邦理工学院研究者提出了版权保护融合算法,通过模型融合的方式,在不影响生成内容质量的情况下,减少模型对版权内容的记忆;中国科技大学研究团队针对大型视觉语言模型,提出了参数学习攻击方法,通过构建对抗性图像的方式跟踪模型版权。在生成式AI水印专题论坛中,Scott Aaronson教授梳理了中国、欧洲、美国加利福尼亚州等地的生成式AI版权相关政策法规,并介绍了他在大语言模型水印的研究成果;Furong Huang教授讲解了其团队构建的图像水印鲁棒性评估的基准测试工具WAVES,并对比分析了传统数字水印和生成式AI水印技术的性能指标;此外还有来自纽约大学、华沙理工大学、香港科技大学、新加坡国立大学等高校机构研究者们展示了其在图片水印、扩散模型水印、大语言模型水印、水印攻击方法等方面的研究成果。
2.3.4 电影行业应用思考与展望
综上所述,实现落地应用已成为驱动人工智能研究的关键力量,低成本模型训练、安全性、版权保护等与人工智能应用生态密切关联的研究方向正加速成为学术界与产业界的关注焦点。我国电影行业应当把握智能化升级契机,积极响应国家“人工智能+”战略行动号召,强化应用牵引机制,同步构建战略性前瞻性风险研判体系,加快推动形成符合国家战略和行业需求的产学研用深度融合的AI技术创新生态。
3思考与建议
为全面贯彻习近平文化思想和党的二十大及系列全会精神,进一步深化文化体制机制改革,推动文化高质量发展,国务院办公厅于2025年1月印发《关于推动文化高质量发展的若干经济政策》的通知,提出“建设文化领域人工智能高质量数据集,支持文化领域大模型建设”。电影产业的智能化升级和AI工程化应用是一项复杂、庞大的系统工程,必须系统谋划、整体布局和有序推进。基于此次业务访问成果和ICLR参会收获,经认真研究分析,我们提出以下思考与建议:
3.1 适应国家战略与行业需求,基于国产AI大模型技术体系,聚焦算力数据资源高效优化利用,推动算法模型技术创新升级,拓展深化电影行业应用场景,在摄制播映运营管理智能化升级中推进精准化定制设计与科学化落地应用,服务电影产业提质升级。
当前AI大模型训练推理仍面临技术瓶颈,应面向电影级技术品质内容创作生产播映需求,以构建自主安全可控技术体系为目标,以国家电影数字资产平台建设为抓手,以算力、数据等资源受限条件下进行高效模型训练为攻坚方向。基于国产算力和创新算法模型,实施并行化设计和工程化优化,突破既有训练推理模式存在的边界递减效益与能耗失控风险,在深度融合国家战略导向与垂直行业场景需求的基础上,统筹可用性、可控性、安全性、复杂度,在推进电影产业智能化升级中不断提升技术研发与定制应用的精准性和契合度,有力支撑服务电影强国和文化强国建设。特别是,国产AI大模型DeepSeek的异军突起对于AI领域民族工业发展具有重要意义,其突破训练成本瓶颈,引发业界对低成本大模型的广泛关注,通过算法创新和工程优化,显著降低了训练成本,约为OpenAI GPT⁃4o的1/20。电影行业应以此为契机,加快开展基于DeepSeek等国产AI大模型的垂直领域研究与落地应用工作。
3.2 适应电影科技创新进入深水区和AI加快向AGI发展演进要求,我们应在科技与文化融合创新中发挥引领示范作用,将中华优秀传统文化的哲学思想和先进理念融入AGI发展演进中,在创新升级AGI技术路线中贡献中国智慧和中国力量,有力支撑电影科技自立自强和中华文化自信自强。
中国特色社会主义是马克思主义中国化、时代化的产物,是马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合的伟大成果。电影作为现代视听传媒技术发展制高点与文化产业发展龙头,在推进科技自立自强与文化自信自强中具有示范作用和引领意义。要深刻领会“两个结合”思想内涵,探索AI时代科技与文化深度融合的创新路线。要聚焦本土化场景需求,植根中国传统文化中的伦理体系与价值指引,将AI技术同中国电影发展实践相结合、同中华优秀传统文化相结合,依托数智化转型、高水平开放、新发展格局等创新机遇,借助中国文化深厚底蕴突破AI通用大模型的同质化竞争,借鉴中国古代哲学思想规范其自主决策伦理标准,形成与新时代相匹配的中国特色电影智能化演进技术路线。未来要获得可靠、可信、可控的AGI技术,需要从中华优秀传统文化,尤其是倡导“和合共生”的中国思想中获得营养。运用中国思想为人工智能的未来发展提供哲学层面的顶层设计,将中国思想的先进性转化成智能时代的工程代码与强大生产力。
参考文献
(向下滑动阅读)
[1] 朱松纯.为机器立心[M].浙江:浙江科学技术出版社,2024.
[2] 朱松纯.为人文赋理[M].浙江:浙江科学技术出版社,2024.
[3] 朱松纯.通用人工智能标准、评级、测试与架构[M].浙江:浙江科学技术出版社,2025.
[4] 澎湃新闻.香港大学马毅谈智能本质:现在的大模型只有知识没有智能[EB/OL].(2024⁃12⁃15)[2025⁃05⁃19].https://baijiahao.baidu.com/s?id=183144878313
1471493&wfr=spider&for=pc.
[5] 凤凰卫视.机器掌握知识≠智能,人类距离真正的通用AI还有很远|专访马毅[EB/OL].(2025⁃05⁃05)[2025⁃05⁃19].https://baijiahao.baidu.com/s?id=1831322524763592627&wfr=spider&for=pc.
[6] AKAN A K, YEMEZ Y. Slot⁃Guided Adaptation of Pre⁃trained Diffusion Models for Object⁃Centric Learning and Compositional Generation[EB/OL].(2025⁃01⁃07) [2025⁃05⁃19].https://arxiv.org/abs/2501.15878.
[7] ZHANG J, KHAYATKHOEI M, CHHIKARA P, et al. MLLMs Know Where to Look: Training⁃free Perception of Small Visual Details with Multimodal LLMs [EB/OL].(2025⁃02⁃24) [2025⁃05⁃19].https://arxiv.org/abs/2502.17422.
[8] OQUAB M, DARCET T, MOUTAKANNI T, et al. DINOv2: Learning Robust Visual Features without Supervision[EB/OL].(2023⁃08⁃14) [2025⁃05⁃19].https://arxiv.org/abs/2502.17422.
[9] ZHAO W, HAN Y, TANG J, et al. Dynamic Diffusion Transformer[EB/OL].(2024⁃08⁃04) [2025⁃05⁃19].https://arxiv.org/abs/2410.03456.
[10] HUANG W, ZHAI Z, SHEN Y, et al. Dynamic⁃LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision⁃language Context Sparsification[EB/OL].(2024⁃11⁃01) [2025⁃05⁃19].https://arxiv.org/abs/2412.00876.
[11] WEI C, XIONG Z, REN W, et al. OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision[EB/OL].(2024⁃11⁃11) [2025⁃05⁃19].https://arxiv.org/abs/2411.07199.
[12] XIA M, GAO T, ZENG Z,et al. Sheared LLaMA: Accelerating Language Model Pre⁃training via Structured Pruning[EB/OL].(2023⁃10⁃10)[2025⁃05⁃19]. https://arxiv.org/abs/2310.06694.
[13] MENG Y, XIA M, CHEN D. SimPO: Simple Preference Optimization with a Reference⁃Free Reward [EB/OL].(2024⁃05⁃23)[2025⁃05⁃19]. https://arxiv.org/abs/2405.14734.
[14] ZHANG Y, MA X, BAI Y,et al. Accessing Vision Foundation Models via ImageNet⁃1K [EB/OL].(2024⁃07⁃15)[2025⁃05⁃19]. https://arxiv.org/abs/2407.10366.
[15] GU Y, DONG L, WANG H, et al. DATA SELECTION VIA OPTIMAL CONTROL FORLANGUAGE MODELS [C]//ICLR 2025,2025.
[16] QI X, PANDA A, LYU K, et al. SAFETY ALIGNMENT SHOULD BE MADE MORE THANJUST A FEW TOKENS DEEP [C]//ICLR 2025,2025.
[17] ZENG Y, YANG Y, ZHOU A, et al. AIR⁃Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [EB/OL].(2024⁃07⁃11)[2025⁃05⁃19]. https://arxiv.org/abs/2407.17436.
[18] BOMMASANI R, ARORA S, CHOI Y, et al. A Path for Science‑ and Evidence‑based AI Policy [EB/OL]. [2025⁃05⁃19].https://understanding-ai-safety.org.
[19] ABAD J, DONHAUSER K, PINTO F, et al. Copyright⁃Protected Language Generation via Adaptive Model Fusion [EB/OL].(2024⁃12⁃09)[2025⁃05⁃19]. https://arxiv.org/abs/2412.06619.
[20] WANG Y, TANG J, LIU C, et al. Tracking the Copyright of Large Vision⁃Language Models through Parameter Learning Adversarial Images[EB/OL].(2025⁃02⁃23)[2025⁃05⁃19]. https://arxiv.org/abs/2502.16593.
[21] AN B, DING M, RABBANI T, et al. WAVES: Benchmarking the Robustness of Image Watermarks [EB/OL].(2024⁃01⁃16)[2025⁃05⁃19]. https://arxiv.org/abs/2401.08573.
[22] ARABI K, FEUER B, WITTER R T, et al. HIDDEN IN THE NOISE: TWO⁃STAGE ROBUST WATERMARKING FOR IMAGES [C]//ICLR 2025,2025.
[23] DUBINSKI J, MEINTZ M, BOENISCH F, et al. ARE WATERMARKS FOR DIFFUSION MODELSRADIOACTIVE? [C]//ICLR 2025,2025.
[24] XU Y, LIU A, HU X, et al. MARK YOUR LLM: DETECTING THE MISUSE OF OPENSOURCE LARGE LANGUAGE MODELS VIA WATERMARKING[C]// ICLR 2025,2025.
[25] CHANG H, HASSANI H, SHOKRI R, et al. WATERMARK SMOOTHING ATTACKS AGAINST LANGUAGE MODELS[C]//ICLR 2025,2025.
[26] HAO Y, ZHANG Y, FAN C. Planning Anything with Rigor: General⁃Purpose Zero⁃Shot Planning with LLM⁃based Formalized Programming [C]//ICLR 2025,2025.
[27] HU Y, CAI Y, DU Y, et al. Self⁃Evolving Multi⁃Agent Collaboration Networks for Software Development[C]//ICLR 2025,2025.
[28] KLISSAROV M, MIKAEL H, RAILEANU R, et al. MaestroMotif: Skill Design from Artificial Intelligence Feedback[C]//ICLR 2025,2025.
[29] LINGAM V, TEHRANI B O, SANGHAVI S, et al. Enhancing Language Model Agents using Diversity of Thoughts[C]//ICLR 2025,2025.
[30] LIU R, WEI J, LIU F, et al. Best Practices and Lessons Learned on Synthetic Data[EB/OL].(2024⁃01⁃10)[2025⁃05⁃19]. https://arxiv.org/abs/2404.07503.
[31] LIU Y, CAO J, LI Z, et al. Breaking Mental Set to Improve Reasoning through Diverse Multi⁃Agent Debate [C]//ICLR 2025,2025.
[32] QIAN C, XIE Z, WANG Y, et al. Scaling Large Language Model⁃based Multi⁃Agent Collaboration [C]//ICLR 2025,2025.
[33] TEAM A, ZHU H, WANG Y, et al. Aether: Geometric⁃Aware Unified World Modeling[EB/OL].(2025⁃03⁃24)[2025⁃05⁃19]. http://arxiv.org/abs/2503.18945.
[34] WANG R, HAN X, JI L, et al. ToolGen: Unified Tool Retrieval and Calling via Generation[C]//ICLR 2025,2025.
[35] ZHANG G, YUE Y, LI Z, et al. Cut the Crap: An Economical Communication Pipeline for LLM⁃based Multi⁃Agent Systems[C]//ICLR 2025,2025.
【项目信息】中国电影科学技术研究所(中央宣传部电影技术质量检测所)基本科研业务费项目“基于《现代电影技术》期刊内容质量及编审能力提升研究”(2024⁃DKS⁃11)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.