“心中有光,沸煮茶香。”4月25日晚, “中关村围炉夜话”第2期——大模型的奇幻漂流专场,作为2024中关村论坛年会配套活动之一,在中关村国际创新中心如期举办。本期活动由中关村发展集团主办,中关村天使投资联盟、中关村资本基金管理公司、中关村国际会展运营管理公司承办,微软亚太研发集团协办。
“问道者”是著名主持人、中关村天使投资联盟副主席、天鹅优选创始人郎永淳;“论道者”是科学界和企业界的顶级专家:欧洲科学院外籍院士、香港大学计算机系教授徐东,欧洲科学院外籍院士、北京大学讲席教授谢涛,微软全球资深副总裁、Microsoft AI亚太区总裁张祺,昆仑万维董事长兼CEO方汉,出门问问创始人兼CEO李志飞,“闻道者”包括北京市人民政府副秘书长韩耕,海淀区副区长唐超,中关村发展集团董事长潘金峰,中关村发展集团副总经理、中关村天使投资联盟主席贾一伟,一轻控股副总经理韩松等50余位政府嘉宾、投资人、创业家。
为了更高效地释放中关村优质资源,进一步推动北京国际科技创新中心建设,加强科技创新领域交流合作,促进北京市成果转化、推动中国硬科技早期创投生态建设,在本期活动中,中关村天使投资联盟聘请徐东院士、谢涛院士为大模型领域的“首席科学家”,联盟贾一伟主席为首席科学家们颁发了聘书。
“中关村围炉夜话”结合北京市未来产业六大领域20个细分方向,挑选最前沿最火热的话题,从世界的视野、以多元的角度,邀请顶尖科学家、领军企业家围炉邀月,一起品茗论道,共鸣未来。
以下是本期详情——
01
Sora启示录--大模型技术进化对人类的影响
郎永淳:
AI领域的创新和迭代速度可以说是日新月异,如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,比如sora的问世,就突破了文字乃至图像的范畴。短短一年,大模型再度快速进化,与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同,由于大模型的能力维度变得如此丰富多元,这一次人们开始期待或惶恐——我所从事的行业会收到怎样的冲击?有多少人会被大模型替代?大模型演进成当下水平,最重要的技术推动力是什么?
徐东:
从ChatGPT开始,大模型技术不断取得突破。Sora模型的出现,将视频生成的时长从几秒大幅提升到几十秒,如东京街头女孩子散步60秒的视频,远远吊打了以前的Pika、Runway等国内外文生视频模型,因为视频生成任务的难度随着时间的增长而指数级增加。Sora技术路线包含了两个方面:1)对视频数据从时空两个维度同时进行数据压缩,使得输入到Diffusion Transformer(DiT)模型中token的数量得以减小;2)使用DiT技术来实现文生视频,基于扩散模型的路线并采用 Transformer 取代 UNet来实现噪声去除并生成视频。Sora之所以如此出色,是因为OpenAI的研究人员在过去一年自动996,而且其算力和算法也远超同行,包括Google和Meta。现在这轮的差距,不只是中美之间的差距,更多的是OpenAI跟其他公司的差距。
谢涛:
我同意算法上的创新是大模型技术进步的一个重要因素,尤其是像Sora这样的模型,它使得视频生成取得了令人震撼的成果。但是大模型技术发展在不同阶段(从通用模型的研发到具体应用的落地)中需要考虑不同的因素,在研发阶段可以不惜代价地达到技术上限,在应用落地阶段则需要考虑效率和成本问题。算力如此之贵,高质量数据和大规模高质量数据可以提升效率,降低成本。
张祺:
我认为对基础大模型要有一种信仰。尽管为特定行业创建更细分的模型在实施上是合理的,但从科研探索和推动技术最前沿的角度来看,持续对基础模型的投入是非常必要的。在模型训练端,算力的指数级增长是必然的,并且这种增长趋势在未来一段时间内仍将持续。以Google的Deepmind的模型为例,过去十年模型训练所需的算力每年增长了10倍。所以,持续的算力投入和相应的算法创新是推动基础模型发展如Sora这样的多模态生成式AI模型繁荣的关键。当然,我同意在大模型应用实施时需要考虑效率和成本,包括大小模型的混用、云端协同以及算法工程优化。
郎永淳:
过去每一年算力以十倍的速度在增长,大家会担心它对人类的影响到底如何,都在讨论AGI通用智能会不会达到那个奇点?能不能达到超过人力智力的水平?将来有没有相应的风险?人脑是天生多任务的处理器,现在的机器目前看起来还达不到多任务同时处理的情况,我们看机器和人脑运作的模式有什么样的相似之处,有什么样的不同之处?机器到底有没有人类的智慧?
方汉:
大模型分为训练和推理两部分。训练的本质是将人类知识进行压缩,以便在GPU等硬件上高效运行。而所谓的推理就是把有损压缩的人类知识回放出来。我认为Sora不是AGI,它是一个视频生成推理模型,根据你的提示生成视频,并不能真正理解视频。我认为AGI的奇点是上一代大模型可以训练下一代大模型的时候,比如GPT-6能训练GPT-7,实现智能的自循环。这个奇点一旦到来,只要没有能源的限制,大模型本体会飞速进化,这时候我们人类的智慧将会被远远地抛在后面,这时候硅基社会迅速超越人类社会。
李志飞:
这个问题很难回答。今天很多人说神经网络是机器在学人类,但其实我们自己对人都搞不清楚。在2020年之前,我认为NLP在解决认知问题上没有希望,因为AI似乎无法真正理解和处理人类的语言和认知。但ChatGPT的出现改变了我对AI能力的看法,因为它展现出了不可预测的行为,这在某种程度上类似于人类。而Sora的出现对推动AGI发展至关重要,因为语言模型通常处理的是抽象和虚拟的概念,这些概念在现实世界中可能没有直接对应的实体(例如“空气是透明的”或“法律”),但Sora将语言模型中的抽象概念与现实世界中的实体联系起来(例如“六个”“男人”“打领带”)。除了语言和视频模型之外,AGI的发展还需要机器人和其他可以与物理世界互动的技术出现。
02
AGI:“加速主义”VS“利他主义”?
郎永淳:
我们看到《经济学人》杂志有这样一个观点,认为目前在AI界已经形成了非常明显的两大阵营,一个阵营是拥护“加速主义”的繁荣派,这一派认为不仅应该允许AI发展,并且强调AI推动社会进步的潜力。另外一派就是受到了“利他主义”影响的建制派,这一派对人工智能的安全感到担忧,认为人工智能不能无限发展,要加强监管。到底人和机器的边界在哪里?
张祺:
我是一个技术乐观主义者,相信AI技术,特别是AI生成内容(AIGC)的发展,将极大地推动社会进步。由于人力智力有时间限制,但AI智力没有时间限制,AI技术带来的经济价值和对社会的影响将推动其加速发展。但与此同时,AI也带来了不可预测的能力和潜在风险,如果没有合适的机制去规范和限制,可能会造成严重的后果。DeepMind的联合创始人Mustafa Suleyman撰写了一本书《The Coming Wave》,这本书里详细地讨论了AI发展的必要性以及监管的必要性,以实现AI技术平衡发展,推荐大家读一读。
谢涛:
我选择“加速主义”,但我不反对加强监管。因为对AI技术进行监管或管制,并不一定意味着要减缓AI技术的发展,某种程度上会加速AI技术的发展。我们都知道数据质量对于训练AI模型的重要性,以代码大模型为例,如果训练数据中包含大量未经人工审核的自动生成代码,可能会降低最终模型的效果。解决办法是可以在大模型生成的内容中加入水印,帮助机器更好区分自然数据与合成数据。
李志飞:
人类在做决策时会考虑行为的后果,而当前的AI模型,如Autoregressive Model(自回归模型),只能根据过去的数据进行预测,不具备对未来的预测能力。我认为实现人类水平的智能体需要几十个补丁”,包括记忆是一个补丁,规划是一个补丁……这些都能补齐,但有一个无法补齐,那就是意识补丁,它是否能有爱恨情仇,它是否感到痛苦和害怕?人们对AI未来发展的一些担忧是过度的,因为AI还缺乏许多基本的智能机制。所以在当前阶段,应该更注重推动AI技术的发展,而不是过分强调安全问题。先别想多了,干起来再说。
方汉:
担心AGI是否具有人类意识或对人类构成威胁是一个伪命题,这是一个基于错误假设的问题。我是学核物理的,我先说一个天体物理学的观点:太阳最终会变成红巨星,地球将不适宜居住,这意味着人类文明终将面临灭亡的命运。为了避免灭亡,人类必须发展恒星飞行技术,这需要两个前提条件:无限能源(如核聚变)和AGI。AGI将导致人类科技的快速进步,人类的终极目标应该是在宇宙中生存和扩散。
郎永淳:
有人认为,加速AGI会给人类带来能源恐慌,目前全球AI生态都在为英伟达打工,您怎么看?我们将如何走出这些窘境?
方汉:
AI发展不会遇到能源瓶颈,因为能源与国家的军事力量紧密相关,而强大的国家控制着大部分能源。我认为AI大模型的竞争很像囚徒困境,每个国家和公司都会追求自己的AI发展,以免落后于竞争对手。就像造原子弹,我不会轻易用,但我得有,这种竞争是国家实力的体现。与国家支持的原子弹项目不同,AI大模型的训练主要由追求盈利的公司进行,因此它们在投资时会更加考虑成本和回报。如果AI大模型的训练不能带来经济效益,公司将不会继续投资于它们,所以放心,不会有能源恐慌。
谢涛:
尽管国产AI芯片在性能和能耗方面有所进步,能够投入使用,但主要挑战在于生态壁垒,即如何打破由现有技术领导者(如英伟达)建立的生态系统的壁垒。在这里引用孙凝晖院士的观点,介绍三种发展模式:
A体系(高铁模式):采用外部技术并将其优化使用,但存在依赖外部API更新和兼容性的风险。
B体系(北斗模式):自主研发技术体系,如华为昇腾和寒武纪,建立自己的生态系统,虽然耗时较长,但能自主控制发展路径。
C体系:全球合作共建生态系统,打破单一公司(如英伟达)的垄断,促进技术的开放和共享。
03
AGI:重塑生产力
郎永淳:
AGI的进化将重塑人类生产力,各位认为AGI的切实应用将从哪些行业、哪些场景开启?
徐东:
Sora模型将对广告、传媒和影视行业带来潜在的影响。Sora首先可能服务大B用户,如好莱坞等,由于生成科幻电影中的场景通常需要大量采用图形学技术,并且科幻电影的高预算也可以覆盖Sora的使用成本;Sora还能服务中B用户,包括游戏工作室、营销公司和短剧制作团队,这些用户可能会利用Sora生成视频内容的能力来提高生产力和创意;Sora还能为那些以制作视频为职业的人士(小B)提高效率和创意。随着AIGC的发展和端上算力的提升,如果Sora能够在端上运行,那么它可能会直接面向消费者(toC),使得每个人都能成为视频内容的创作者,而且不满意的地方可以由AI帮助修改和编辑。这可能导致个人用户也能逐渐成为专业的内容创作者,并且未来也可能不再需要传统意义上的演员。AGI有可能改变传统的影视制作和名人文化。
谢涛:
AI在软件工程领域大有作为,比如可以被本地化部署的AI辅助编程工具。我们北大软件团队孵化了一家叫硅心科技的公司,其产出的代码大模型aiXcoder可以辅助软件工程师提高编程效率。其实微软的Copilot AI辅助效果非常好,但国内企业和美国企业不一样,美国企业利用云上的资源建立代码仓库都是比较常见的,国内很多企业代码是不出公司的,必须得是本地网,这要求AI工具必须能够在本地网络环境中有效运行。由于本地部署的AI工具受限于硬件资源,提高推理性能成为关键。
郎永淳:
从企业的维度看,假设看1—3年,AGI可能会对我们组织变革,生产方式带来挑战和机会。您看到的是什么样的机会?会有什么样的产品策略?会有什么样的计划或者是规划?
张琪:
分享一个我在微软推动了一年多的一个理念——OPE(单人企业家),即一个人加AI,能干什么?我做了一个实验,一个人用ChatGPT,它可以做什么?团队里有一个产品经理,不会编程,但非常聪明,她用ChatGPT一个星期实现了搜索引擎在移动端的形态。一个人+5美元(ChatGPT订阅费20美元/月)基本上实现了十到几十个人团队两到三个月时间的工作任务。我觉得,随着个体生产力的提升,传统的组织架构和资源获取方式可能会发生变化。
方汉:
我们是做C端的。我们对AIGC在C端落地的商业模式判断是“免费”。全世界80亿人口,能够付起ChatGPT 19.9美金订阅费的不会超过1亿人,剩下有79亿人是用不起的。我们做C端的企业一定要考虑什么样的商业模式能够支撑得起免费,因为现在模型的推理成本始终存在。我们认为有三个路径。一个是降低推理成本,一个是实现端侧推理,还有一个是我们选择的“AIUGC平台”模式,它结合了人工智能生成内容(AI Generated Content,简称AIGC)与用户生成内容(User Generated Content,简称UGC)。在这个模式中,AI技术被用来增强和扩展用户创作内容的能力,从而创造一个更加丰富和互动的内容生态系统。简单来说,就是一万个人中1个创作者用AI创作内容,剩下的9999个人去消费内容。
李志飞:
尽管大模型技术有潜力渗透到各行各业,但目前主要还是集中在聊天(如ChatGPT)、内容创作(如Midjourney)、配音等娱乐和教育领域。在医疗、制药、房地产和政府等严肃行业中,AIGC的应用会来得更晚,因为这些领域对准确性和可靠性的要求非常高。作为一家创业公司,我们提出了To PC/To SMB(针对专业的内容创作者和中小型企业的商业模式),这是介于To C(面向消费者)和To B(面向企业)之间的一种模式。专业消费者愿意为提高工作效率的工具支付一定的费用,但不像企业客户那样有高额的支付能力。我们公司的产品“魔音工坊”就是一个面向内容创作者的AIGC工具,这些创作者愿意为提高创作效率支付一定的费用。
04
大模型的荆棘与荣耀之旅
郎永淳:
汽车出来了,有人会为它买单,但影响了马车夫。今天大模型来了,有些人会想:它对我的伤害到底是什么?我有可能会被它替代吗?怎么样让自己的水平提升不被替代?在这个方面,你们有什么样的思考?
谢涛:
AI技术在替代某些对人类身体有害的工作,也在取代一些对工人身体无害的工作,虽然提高了生产力,但也引发了关于工作替代和社会责任的思考。回到我所在的软件工程领域,随着AI技术的发展,尤其是像自动编程这样的技术,未来可能不再需要那么多的软件工程师,但仍然需要审查和测试代码的人类工程师,这可能会导致软件工程师行业的变化。我们的教育系统需要适应技术变革,培养能够适应未来需求的软件工程师。
方汉:
OpenAI出过一个研究报告,指出工作中使用电脑的步骤越多,该工作受到AI自动化的威胁就越大。相反,与电脑关系不大的工作如体力劳动,目前不太受AI的影响。我举个例子,淘宝模特和摄影师这个行业受到非常大的AIGC技术冲击,因为AI生成图片的成本远低于传统摄影。但这不代表计算机科学就不重要了。我依然认为计算机科学(CS)是未来十年最好的专业,AI技术落地需要程序员来实现。对于所有人来说,学会使用AI技术是很重要的。现在使用AI技术最踊跃的人其实是大学生们,它们非常积极地拥抱新技术。
李志飞:
尽管AI在技术和知识方面可能超越人类,但人类的情感、创造力和提出新问题的能力是AI难以复制的。我发现,我12岁的女儿能够理解复杂的AI算法,但在开放式问题和创业等没有标准答案的情况下她不知所措。这让我反思AI时代我们要如何教育孩子。人类在开放和动态环境中的适应能力,人类在定义问题和提出问题方面的能力,这些是AI目前做不到的,是人类的重要优势。所以我们要注重培养孩子提出问题和思考问题的能力,而不仅仅是解决已有的问题。
郎永淳:
在您看来,如何平衡大模型技术的发展与伦理合规的要求?
徐东:
AIGC技术在视频生成中使用了现有的版权材料,如YouTube视频,但这些材料的版权归属并不明确,导致版权使用上的困境。即使是开源的AI模型也可能面临版权问题,因为它们可能使用了受版权保护的数据进行训练。如果AIGC技术使用了艺术家的作品作为训练数据,是否可以通过向艺术家支付版权费来解决版权问题?
张祺:
我还是推荐DeepMind的联合创始人Mustafa Suleyman撰写的那本书《The Coming Wave》。AI需要技术发展与社会责任之间的平衡,我认为这种平衡是非常有必要的,一定要有这样一种共识;另外一方面对AI发展包括伦理价值平衡的把控很可能需要用技术的方式去实现,因为AI太强大了以后,攻防之间可能需要用更加提升的技术方式,不仅仅是一些人力的方式;第三是AI的监管和发展需要多领域和跨国界的合作,这意味着不同国家、不同学科和不同行业的专家需要共同努力,以确保AI技术的健康发展。
饮一杯茶,烤一炉食,围炉夜话,探讨科技与人文,赋科学以诗性浪漫,让技术拥抱人性温度,同频共振,迸发火花。
来源:中关村论坛官网