配套活动丨由Sora启航，点亮AGI 曙光——“中关村围炉夜话”之大模型专场|李志飞|人工智能|谢涛|agi

分享至

“心中有光，沸煮茶香。”4月25日晚， “中关村围炉夜话”第2期——大模型的奇幻漂流专场，作为2024中关村论坛年会配套活动之一，在中关村国际创新中心如期举办。本期活动由中关村发展集团主办，中关村天使投资联盟、中关村资本基金管理公司、中关村国际会展运营管理公司承办，微软亚太研发集团协办。

“问道者”是著名主持人、中关村天使投资联盟副主席、天鹅优选创始人郎永淳；“论道者”是科学界和企业界的顶级专家：欧洲科学院外籍院士、香港大学计算机系教授徐东，欧洲科学院外籍院士、北京大学讲席教授谢涛，微软全球资深副总裁、Microsoft AI亚太区总裁张祺，昆仑万维董事长兼CEO方汉，出门问问创始人兼CEO李志飞，“闻道者”包括北京市人民政府副秘书长韩耕，海淀区副区长唐超，中关村发展集团董事长潘金峰，中关村发展集团副总经理、中关村天使投资联盟主席贾一伟，一轻控股副总经理韩松等50余位政府嘉宾、投资人、创业家。

为了更高效地释放中关村优质资源，进一步推动北京国际科技创新中心建设，加强科技创新领域交流合作，促进北京市成果转化、推动中国硬科技早期创投生态建设，在本期活动中，中关村天使投资联盟聘请徐东院士、谢涛院士为大模型领域的“首席科学家”，联盟贾一伟主席为首席科学家们颁发了聘书。

“中关村围炉夜话”结合北京市未来产业六大领域20个细分方向，挑选最前沿最火热的话题，从世界的视野、以多元的角度，邀请顶尖科学家、领军企业家围炉邀月，一起品茗论道，共鸣未来。

以下是本期详情——

Sora启示录--大模型技术进化对人类的影响

郎永淳：

AI领域的创新和迭代速度可以说是日新月异，如果说2023年的大模型风暴还集中在“对话”上，那么，今年AI带来的亿点点震撼，比如sora的问世，就突破了文字乃至图像的范畴。短短一年，大模型再度快速进化，与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同，由于大模型的能力维度变得如此丰富多元，这一次人们开始期待或惶恐——我所从事的行业会收到怎样的冲击？有多少人会被大模型替代？大模型演进成当下水平，最重要的技术推动力是什么？

徐东：

从ChatGPT开始，大模型技术不断取得突破。Sora模型的出现，将视频生成的时长从几秒大幅提升到几十秒，如东京街头女孩子散步60秒的视频，远远吊打了以前的Pika、Runway等国内外文生视频模型，因为视频生成任务的难度随着时间的增长而指数级增加。Sora技术路线包含了两个方面：1）对视频数据从时空两个维度同时进行数据压缩，使得输入到Diffusion Transformer（DiT）模型中token的数量得以减小；2）使用DiT技术来实现文生视频，基于扩散模型的路线并采用 Transformer 取代 UNet来实现噪声去除并生成视频。Sora之所以如此出色，是因为OpenAI的研究人员在过去一年自动996，而且其算力和算法也远超同行，包括Google和Meta。现在这轮的差距，不只是中美之间的差距，更多的是OpenAI跟其他公司的差距。

谢涛：

我同意算法上的创新是大模型技术进步的一个重要因素，尤其是像Sora这样的模型，它使得视频生成取得了令人震撼的成果。但是大模型技术发展在不同阶段（从通用模型的研发到具体应用的落地）中需要考虑不同的因素，在研发阶段可以不惜代价地达到技术上限，在应用落地阶段则需要考虑效率和成本问题。算力如此之贵，高质量数据和大规模高质量数据可以提升效率，降低成本。

张祺：

我认为对基础大模型要有一种信仰。尽管为特定行业创建更细分的模型在实施上是合理的，但从科研探索和推动技术最前沿的角度来看，持续对基础模型的投入是非常必要的。在模型训练端，算力的指数级增长是必然的，并且这种增长趋势在未来一段时间内仍将持续。以Google的Deepmind的模型为例，过去十年模型训练所需的算力每年增长了10倍。所以，持续的算力投入和相应的算法创新是推动基础模型发展如Sora这样的多模态生成式AI模型繁荣的关键。当然，我同意在大模型应用实施时需要考虑效率和成本，包括大小模型的混用、云端协同以及算法工程优化。

郎永淳：

过去每一年算力以十倍的速度在增长，大家会担心它对人类的影响到底如何，都在讨论AGI通用智能会不会达到那个奇点？能不能达到超过人力智力的水平？将来有没有相应的风险？人脑是天生多任务的处理器，现在的机器目前看起来还达不到多任务同时处理的情况，我们看机器和人脑运作的模式有什么样的相似之处，有什么样的不同之处？机器到底有没有人类的智慧？

方汉：

大模型分为训练和推理两部分。训练的本质是将人类知识进行压缩，以便在GPU等硬件上高效运行。而所谓的推理就是把有损压缩的人类知识回放出来。我认为Sora不是AGI，它是一个视频生成推理模型，根据你的提示生成视频，并不能真正理解视频。我认为AGI的奇点是上一代大模型可以训练下一代大模型的时候，比如GPT-6能训练GPT-7，实现智能的自循环。这个奇点一旦到来，只要没有能源的限制，大模型本体会飞速进化，这时候我们人类的智慧将会被远远地抛在后面，这时候硅基社会迅速超越人类社会。

李志飞：

这个问题很难回答。今天很多人说神经网络是机器在学人类，但其实我们自己对人都搞不清楚。在2020年之前，我认为NLP在解决认知问题上没有希望，因为AI似乎无法真正理解和处理人类的语言和认知。但ChatGPT的出现改变了我对AI能力的看法，因为它展现出了不可预测的行为，这在某种程度上类似于人类。而Sora的出现对推动AGI发展至关重要，因为语言模型通常处理的是抽象和虚拟的概念，这些概念在现实世界中可能没有直接对应的实体（例如“空气是透明的”或“法律”），但Sora将语言模型中的抽象概念与现实世界中的实体联系起来（例如“六个”“男人”“打领带”）。除了语言和视频模型之外，AGI的发展还需要机器人和其他可以与物理世界互动的技术出现。

AGI：“加速主义”VS“利他主义”？

郎永淳：

我们看到《经济学人》杂志有这样一个观点，认为目前在AI界已经形成了非常明显的两大阵营，一个阵营是拥护“加速主义”的繁荣派，这一派认为不仅应该允许AI发展，并且强调AI推动社会进步的潜力。另外一派就是受到了“利他主义”影响的建制派，这一派对人工智能的安全感到担忧，认为人工智能不能无限发展，要加强监管。到底人和机器的边界在哪里？

张祺：

我是一个技术乐观主义者，相信AI技术，特别是AI生成内容（AIGC）的发展，将极大地推动社会进步。由于人力智力有时间限制，但AI智力没有时间限制，AI技术带来的经济价值和对社会的影响将推动其加速发展。但与此同时，AI也带来了不可预测的能力和潜在风险，如果没有合适的机制去规范和限制，可能会造成严重的后果。DeepMind的联合创始人Mustafa Suleyman撰写了一本书《The Coming Wave》，这本书里详细地讨论了AI发展的必要性以及监管的必要性，以实现AI技术平衡发展，推荐大家读一读。

谢涛：

我选择“加速主义”，但我不反对加强监管。因为对AI技术进行监管或管制，并不一定意味着要减缓AI技术的发展，某种程度上会加速AI技术的发展。我们都知道数据质量对于训练AI模型的重要性，以代码大模型为例，如果训练数据中包含大量未经人工审核的自动生成代码，可能会降低最终模型的效果。解决办法是可以在大模型生成的内容中加入水印，帮助机器更好区分自然数据与合成数据。

李志飞：

人类在做决策时会考虑行为的后果，而当前的AI模型，如Autoregressive Model（自回归模型），只能根据过去的数据进行预测，不具备对未来的预测能力。我认为实现人类水平的智能体需要几十个补丁”，包括记忆是一个补丁，规划是一个补丁……这些都能补齐，但有一个无法补齐，那就是意识补丁，它是否能有爱恨情仇，它是否感到痛苦和害怕？人们对AI未来发展的一些担忧是过度的，因为AI还缺乏许多基本的智能机制。所以在当前阶段，应该更注重推动AI技术的发展，而不是过分强调安全问题。先别想多了，干起来再说。

方汉：

担心AGI是否具有人类意识或对人类构成威胁是一个伪命题，这是一个基于错误假设的问题。我是学核物理的，我先说一个天体物理学的观点：太阳最终会变成红巨星，地球将不适宜居住，这意味着人类文明终将面临灭亡的命运。为了避免灭亡，人类必须发展恒星飞行技术，这需要两个前提条件：无限能源（如核聚变）和AGI。AGI将导致人类科技的快速进步，人类的终极目标应该是在宇宙中生存和扩散。

郎永淳：

有人认为，加速AGI会给人类带来能源恐慌，目前全球AI生态都在为英伟达打工，您怎么看？我们将如何走出这些窘境？

方汉：

AI发展不会遇到能源瓶颈，因为能源与国家的军事力量紧密相关，而强大的国家控制着大部分能源。我认为AI大模型的竞争很像囚徒困境，每个国家和公司都会追求自己的AI发展，以免落后于竞争对手。就像造原子弹，我不会轻易用，但我得有，这种竞争是国家实力的体现。与国家支持的原子弹项目不同，AI大模型的训练主要由追求盈利的公司进行，因此它们在投资时会更加考虑成本和回报。如果AI大模型的训练不能带来经济效益，公司将不会继续投资于它们，所以放心，不会有能源恐慌。

谢涛：

尽管国产AI芯片在性能和能耗方面有所进步，能够投入使用，但主要挑战在于生态壁垒，即如何打破由现有技术领导者（如英伟达）建立的生态系统的壁垒。在这里引用孙凝晖院士的观点，介绍三种发展模式：

A体系（高铁模式）：采用外部技术并将其优化使用，但存在依赖外部API更新和兼容性的风险。

B体系（北斗模式）：自主研发技术体系，如华为昇腾和寒武纪，建立自己的生态系统，虽然耗时较长，但能自主控制发展路径。

C体系：全球合作共建生态系统，打破单一公司（如英伟达）的垄断，促进技术的开放和共享。

AGI：重塑生产力

郎永淳：

AGI的进化将重塑人类生产力，各位认为AGI的切实应用将从哪些行业、哪些场景开启？

徐东：

Sora模型将对广告、传媒和影视行业带来潜在的影响。Sora首先可能服务大B用户，如好莱坞等，由于生成科幻电影中的场景通常需要大量采用图形学技术，并且科幻电影的高预算也可以覆盖Sora的使用成本；Sora还能服务中B用户，包括游戏工作室、营销公司和短剧制作团队，这些用户可能会利用Sora生成视频内容的能力来提高生产力和创意；Sora还能为那些以制作视频为职业的人士（小B）提高效率和创意。随着AIGC的发展和端上算力的提升，如果Sora能够在端上运行，那么它可能会直接面向消费者（toC），使得每个人都能成为视频内容的创作者，而且不满意的地方可以由AI帮助修改和编辑。这可能导致个人用户也能逐渐成为专业的内容创作者，并且未来也可能不再需要传统意义上的演员。AGI有可能改变传统的影视制作和名人文化。

谢涛：

AI在软件工程领域大有作为，比如可以被本地化部署的AI辅助编程工具。我们北大软件团队孵化了一家叫硅心科技的公司，其产出的代码大模型aiXcoder可以辅助软件工程师提高编程效率。其实微软的Copilot AI辅助效果非常好，但国内企业和美国企业不一样，美国企业利用云上的资源建立代码仓库都是比较常见的，国内很多企业代码是不出公司的，必须得是本地网，这要求AI工具必须能够在本地网络环境中有效运行。由于本地部署的AI工具受限于硬件资源，提高推理性能成为关键。

郎永淳：

从企业的维度看，假设看1—3年，AGI可能会对我们组织变革，生产方式带来挑战和机会。您看到的是什么样的机会？会有什么样的产品策略？会有什么样的计划或者是规划？

张琪：

分享一个我在微软推动了一年多的一个理念——OPE（单人企业家），即一个人加AI，能干什么？我做了一个实验，一个人用ChatGPT，它可以做什么？团队里有一个产品经理，不会编程，但非常聪明，她用ChatGPT一个星期实现了搜索引擎在移动端的形态。一个人+5美元（ChatGPT订阅费20美元/月）基本上实现了十到几十个人团队两到三个月时间的工作任务。我觉得，随着个体生产力的提升，传统的组织架构和资源获取方式可能会发生变化。

方汉：

我们是做C端的。我们对AIGC在C端落地的商业模式判断是“免费”。全世界80亿人口，能够付起ChatGPT 19.9美金订阅费的不会超过1亿人，剩下有79亿人是用不起的。我们做C端的企业一定要考虑什么样的商业模式能够支撑得起免费，因为现在模型的推理成本始终存在。我们认为有三个路径。一个是降低推理成本，一个是实现端侧推理，还有一个是我们选择的“AIUGC平台”模式，它结合了人工智能生成内容（AI Generated Content，简称AIGC）与用户生成内容（User Generated Content，简称UGC）。在这个模式中，AI技术被用来增强和扩展用户创作内容的能力，从而创造一个更加丰富和互动的内容生态系统。简单来说，就是一万个人中1个创作者用AI创作内容，剩下的9999个人去消费内容。

李志飞：

尽管大模型技术有潜力渗透到各行各业，但目前主要还是集中在聊天（如ChatGPT）、内容创作（如Midjourney）、配音等娱乐和教育领域。在医疗、制药、房地产和政府等严肃行业中，AIGC的应用会来得更晚，因为这些领域对准确性和可靠性的要求非常高。作为一家创业公司，我们提出了To PC/To SMB（针对专业的内容创作者和中小型企业的商业模式），这是介于To C（面向消费者）和To B（面向企业）之间的一种模式。专业消费者愿意为提高工作效率的工具支付一定的费用，但不像企业客户那样有高额的支付能力。我们公司的产品“魔音工坊”就是一个面向内容创作者的AIGC工具，这些创作者愿意为提高创作效率支付一定的费用。

大模型的荆棘与荣耀之旅

郎永淳：

汽车出来了，有人会为它买单，但影响了马车夫。今天大模型来了，有些人会想：它对我的伤害到底是什么？我有可能会被它替代吗？怎么样让自己的水平提升不被替代？在这个方面，你们有什么样的思考？

谢涛：

AI技术在替代某些对人类身体有害的工作，也在取代一些对工人身体无害的工作，虽然提高了生产力，但也引发了关于工作替代和社会责任的思考。回到我所在的软件工程领域，随着AI技术的发展，尤其是像自动编程这样的技术，未来可能不再需要那么多的软件工程师，但仍然需要审查和测试代码的人类工程师，这可能会导致软件工程师行业的变化。我们的教育系统需要适应技术变革，培养能够适应未来需求的软件工程师。

方汉：

OpenAI出过一个研究报告，指出工作中使用电脑的步骤越多，该工作受到AI自动化的威胁就越大。相反，与电脑关系不大的工作如体力劳动，目前不太受AI的影响。我举个例子，淘宝模特和摄影师这个行业受到非常大的AIGC技术冲击，因为AI生成图片的成本远低于传统摄影。但这不代表计算机科学就不重要了。我依然认为计算机科学（CS）是未来十年最好的专业，AI技术落地需要程序员来实现。对于所有人来说，学会使用AI技术是很重要的。现在使用AI技术最踊跃的人其实是大学生们，它们非常积极地拥抱新技术。

李志飞：

尽管AI在技术和知识方面可能超越人类，但人类的情感、创造力和提出新问题的能力是AI难以复制的。我发现，我12岁的女儿能够理解复杂的AI算法，但在开放式问题和创业等没有标准答案的情况下她不知所措。这让我反思AI时代我们要如何教育孩子。人类在开放和动态环境中的适应能力，人类在定义问题和提出问题方面的能力，这些是AI目前做不到的，是人类的重要优势。所以我们要注重培养孩子提出问题和思考问题的能力，而不仅仅是解决已有的问题。

郎永淳：

在您看来，如何平衡大模型技术的发展与伦理合规的要求？

徐东：

AIGC技术在视频生成中使用了现有的版权材料，如YouTube视频，但这些材料的版权归属并不明确，导致版权使用上的困境。即使是开源的AI模型也可能面临版权问题，因为它们可能使用了受版权保护的数据进行训练。如果AIGC技术使用了艺术家的作品作为训练数据，是否可以通过向艺术家支付版权费来解决版权问题？

张祺：

我还是推荐DeepMind的联合创始人Mustafa Suleyman撰写的那本书《The Coming Wave》。AI需要技术发展与社会责任之间的平衡，我认为这种平衡是非常有必要的，一定要有这样一种共识；另外一方面对AI发展包括伦理价值平衡的把控很可能需要用技术的方式去实现，因为AI太强大了以后，攻防之间可能需要用更加提升的技术方式，不仅仅是一些人力的方式；第三是AI的监管和发展需要多领域和跨国界的合作，这意味着不同国家、不同学科和不同行业的专家需要共同努力，以确保AI技术的健康发展。

饮一杯茶，烤一炉食，围炉夜话，探讨科技与人文，赋科学以诗性浪漫，让技术拥抱人性温度，同频共振，迸发火花。

来源：中关村论坛官网