写在前面:
这是《405游局》播客第一次尝试用文字稿的方式来呈现我们的内容,之后每一次非闲聊局的话题,我们也都会尝试用文字的方式加以记录。在形式的选择上,本次采用了完整的文字稿,内容较多、阅读时间较长,但能更好的保留对谈中的细节。我们也同时在考虑未来是否会采用精简的文章,更加符合阅读习惯。如果听友们有任何建议,欢迎与我们联系。
本文较长,约24000字,分为四个部分讨论了:我们对于AI生成游戏的初尝试、AI生成游戏的产品形态、UGC社区发展的思考以及创业者的机会。
叠个甲:文字直接从播客录音导出,难免还是会有口语化的部分,请见谅~
本期录制时间:2025.12.20
播客音频(小宇宙链接):
![]()
2025年下半年开始,尤其是在Gemini等模型上线后,我们观察到“AI生成游戏”这个产品方向的探索越发热闹了 。最近我们也密集看了一些创业项目,尝试了各种AI生成游戏的工具,包括最早的Rosebud,也包括最近阿里出的灵光 。
AI生成游戏必然会带来一个老生常谈的话题,就是UGC社区 。AI的到来对于UGC社区的成长真的只是Buff加成吗?带着这些观察和问题,我们也想聊聊对于这个探索方向有哪些思考。
01.AI生成游戏的初尝试
筱宁:我们就从一些最近大家的尝试和观察开始。你们俩最近都尝试过哪些AI生成游戏的小工具,感觉怎么样?
少云:我比较粗浅的尝试了一些,像Gambo、Rosebud、Aippy,包括像Google的AI studio,可能不完全是游戏方向的。比较眼前一亮、或者说带来其他方面一些启发的还是回到阿里的灵光AI,这是比较大的一个话题,我可能后面更详细展开。
我的尝试会简单一点,因为它宣传的就叫做一句话就能做游戏。一句话说我要做一个祖玛,做一个俄罗斯方块,或者做一个Flappy bird类似这样的游戏,目前其实已经能够把所谓这种小游戏用一句话、可能只有20个prompts就能搭出来了。这个流程已经跑通了,这也是现在看到的一个能力的边界。
最近带给我不太好的体验的方向,可能是往往大家会把这件事情的上限讲到非常高。好像说一句话能做游戏,那是不是做游戏这件事情就会被替代掉?这也是今天可能想要去展开探讨的一部分。
孙皓:我这边的话分几个不同的方向。第一个比较native的类似于用Cursor,Claude code,Copilot这些偏向于这种IDE的插件,或者是IDE本身。比较倾向于是工程师的角度来看,其实现在像cursor给他一个比如20到30字的一个prompt,让他生成一个简单的2D游戏,我觉得现在他做的已经蛮好。
他的做法比较倾向于基于javascript,从零搭出来一个游戏。他会先搭一个简单的引擎,在这个简单引擎上再把这游戏框架写出来,这种形式相对来说比较适合做demo。他也能简单的使用一些引擎,比如像Phaser这种做2D的,或者Godot这种都可以去写,但是写起来的bug还是比较多的一个状态。
第二种的话是MCP,比如说包括pixso lab,它会提供一些像刚刚说的cursor或者claude可以去直接用的这类MCP。他用这个MCP,通过一些像style transfer的方式,把美术资产也生成了。这种生成结果可以保证在实际去做游戏生产的时候,素材可以达到风格统一。在做2D游戏上面,效果还是不错的。但是3D游戏的话,目前还没看到特别强的MCP。
第三个的话就是端到端的游戏平台。比如说像gambo、Rosebud、灵光也算,但是灵光可能不是专门去做游戏的。Gambo和rosebud的话,gambo会更偏向于做2D,rosebud他自称是3D游戏的生成平台。
Gambo后边用的是Phaser,Rosebud的2D也会用Phaser,3D的话用的是Three.js。基本上用这两个产品是能做出来质量比较一般、但是比较像03、04年那个水平的那种游戏性挺强,但是比较粗糙的游戏原型。这个目前来说基本两分钟就能做出来,然后包括里边的assets,包括一些音乐等等,都会在里面。
筱宁:其实我们自己拿这种平台去做游戏的时候,可能还有很多人没有尝试过。我非常惊讶的一点是因为我自己用的时候,有时候还会特别详细的描述我想要一个什么样的游戏。
然后我第一次看孙皓做游戏的时候,能知道这个事情简单到什么程度。你要不要说说你当时那个提示词是咋写的?
孙皓:对我当时直接写的就是:“你是一个天才的游戏策划,你非常懂什么是好的游戏,我现在要做一个泡泡龙,但是除了我要做个泡泡龙以外,我没有任何的想法,其他全靠你去写。然后你要把它做到行业尖端的水平,3A游戏的质量”,然后它就开始写了。
少云:对,当时我也目睹了这个过程,非常的震惊。可能我想象中专业的程序员去讲提示词,会有非常专业的一些框架或者指导。没想到是一个比我们提需求还更直白的一个状态。
至少在第一个版本里面,其实做出来效果还挺惊讶的。第一它当然能够跑通,一开始的时候还没有bug,一下子做出来就能玩了,然后也非常像模像样,像回事儿。泡泡龙游戏就被刚才那个有点PUA的提示词给做出来了。
孙皓:这个提示词里面大部分还是废话,但里面重要的点还是说你最后想要什么样的效果,这个效果下你做了一个泡泡龙,这两件事比较重要。
其实它跟Gemini3,包括像Claude 4.5以后的这些模型能力是有极大的关系的。尤其像Gemini3的话,它在实际做这个事的时候,不像以前大模型,你提一个很模糊的诉求,他很容易就模糊的给了一个回答。
但Gemini3会有一个很长的thinking的过程,它里面的recursive thinking,会尝试把你的诉求扩展成非常广的一个搜索空间。在这个搜索空间之后,逐渐把它转译成code的一种语言。
所以它有点像是把我的这种intention转化成了一个过去的高级语言,你可以把它当成一种超高级的编程语言。
少云:我看到孙皓的这个游戏,或者叫泡泡龙这样的一个demo,其实也做出来了。然后我们就尝试给他提一些新的需求,比如我们会觉得说泡泡龙的那个球,在每一个回合,因为它需要给玩家更强的一种压力,需要你每发一个球,整个泡泡龙的所有的球就会向下落一层,最后比如说触底了,可能你就输了,这是我们传统泡泡龙的规则。
但在刚才的prompts里面,不包含这个规则。所以我们就提了一个类似于说你每发射一个球的时候,整个就会下落一层,但是好像就从头到尾,反正我们最后给了这样的提示词,但没有搞定这件事情。
孙皓:关于下落这个问题,就相当于我们人类其实把这个诉求给定的非常严格。但这个严格的诉求,它实际去理解,包括去生成的过程中,对于引擎的理解也好,对这种物理现象的理解都还是偏弱。所以导致试了好几次,有的会比较接近,但接近的和我们脑海中认为该下落的那个形式还是有一定的区别。
筱宁:是不是因为它是一个现有的游戏类型,所以我脑子里已经有了这样一个印象,泡泡龙它应该是这个样子的。当我用自然语言去跟AI做这个交互的时候,这个过程中它的生成效率并没有非常高效,或者没有贴合我的预期?
孙皓:有一个主要原因是2D的界面本来对于大模型来说,它的理解难度就会高一点,3D就更难了。3D里有更复杂的assets,还有一些网格这类概念。
我们这么想,大模型本身它是一个线性输出,它最好理解的其实是线性逻辑。不好理解的是什么呢?如果我用一个二维的概念才能去讲清楚的事,他就不好理解。
它比较好理解比如说X大于500的时候就发生碰撞,这个没问题,因为这是一个很线性的逻辑。但一旦提到需要上面的墙以什么样的形式下落,然后这个落的过程中要体现出这种可能人类语言也讲不太清楚的效果,就比较难。
少云:可能这是一个叫做需求描述,我觉得还是涉及到一些现在AI vibe coding的一些边界的、本质的东西。
后面我们中间也尝试了一些乱七八糟的需求,比如做一个超炫酷的效果,我们也没有具体描述说什么是超炫酷或者效果要加在哪里,但它自己去理解了一下。可能就在每一次发射的时候、产生消除的时候,会疯狂的炸烟花
孙皓:我觉得它就更容易在一个很模糊的诉求中,给你一种感觉,他做出来结果还不错;但不太容易在一个尤其你对效果的要求特别高的一个prompt里,给你一个非常还原prompt的一种效果,这是比较难的。
比如说刚刚说那个爆烟花,我看了下它怎么做,他就弄了一堆svg、搞了很多的code能写出来的特效,这种凡是能code写出来的,它做的都不错。但一旦涉及到一些assets,它的理解就变弱了很多。
02.AI生成游戏的产品形态
筱宁:有三类的结构,一个是大模型原生就可以去做游戏;第二种其实叫做一站式生成的everything的平台,也有很多这样的平台,游戏或者交互娱乐算其中一种;第三种就是直接到了游戏。
从生产结果来讲,有两种产品形态:第一种类似Aippy的信息流形态,可能每一个的体验不超过10秒钟,修改轮次可能1-2次,比较贴近于AI原生理解、原生生成的东西;
第二种是像我们去做的泡泡龙或者Flappy bird,带有原生的印象,希望多做几个关卡,像Rosebud这类货架式的、多一些深度的体验。
这两种形态你们会怎么看?
少云:游戏本质是一种交互体验,假如完全没有交互,可能就是抖音,是一个短视频的观看体验。如果把交互的参与程度作为一个很核心的一个维度去考量,把现在所有这些体验都放到这个维度下面,去拉一根轴,可能这个轴的最浅的、最左端的叫抖音。
再稍微长一点可能有点类似于B站中长视频,它里面有一点点的交互。原来B站当然也尝试过交互式的视频,但那个做的很复杂,有点像影视游戏的感觉。稍微浅一点的可能投个币,也算是交互,发个弹幕也是,这就是一种在中长视频里面的一种交互形式。
再稍微重一点,人的卷入多一点,我自己感觉是像抖音滤镜。抖音有很多滤镜,人需要利用比如前置摄像头去去顶个球也好、做一个动作也好、拍一个这种模型的短视频也好,这个就很模糊了。
抖音滤镜它是一种游戏,还是一种短视频呢?它就已经是在临界点上。
里面比较tricky的点在于抖音滤镜是有真人的up主、真人的主播去进行一个表演的。这意味着这个真人在这里产生了一种额外的价值,不是说只有滤镜的一种交互的方式、玩法产生的价值,是这个真人本身他的脸、他的表演的形式也产生了价值。
因为人对人的这种表情和肢体动作的感知是最敏感的、最敏锐的。所以他去看这些的时候,会觉得很好。因为这个舞是这个小姐姐跳的,所以我特别喜欢看;换了一个很魔性的秃头大叔跳,那也OK,是一种魔性的方向,但是跳的可能是同一个舞。
但是如果一旦这个东西变成一个抽象的,变成刚才说的小游戏的形式,那似乎人的价值,或者叫创作者的价值就在这里一下子就模糊了。
所以我会觉得交互再往前一点,就越过了这条线,到了刚才说的超休闲的游戏。然后再往下的游戏可能变成刚才讲的叫做有平台跑跳的,有Flappy bird,有羊了个羊,抓大鹅这些游戏出来。
再往后可能就是传统游戏定义里面的东西了,有挂机游戏,有休闲游戏,三消、二合,MMO,最后可能是魂游吧,3A的动作游戏,已经交互到非常强了,这样的一个轴,就叫做交互参与程度的一个轴。
当然我们现在也不指望AI vibe coding能做一个魂游,3A魂游可能离得非常远,甚至就我而言,在这上面还是有点偏悲观,我不太相信AI能完全解决人类交互体验这件事,我觉得AI它还是一个生产工具。
人跟AI最后的一个区别叫做人是有对内容的消费的需求的,但AI是没有的。人是怎么消费内容的?它是基于自己过往的生活体验、生活经验,而且我是一个物理的人,我需要吃喝拉撒睡,需要有这样的东西。
最早我们对游戏的定义会说游戏是一种模拟,远古时代的游戏都是对于生活或者对于未来生活的一种模拟和预演。为什么小猫小狗之间之间要打闹撕咬,他们在做这样的游戏,因为他未来要捕猎。这当然是很原教旨主义的游戏的定义。
但这些东西其实产生游戏一个最底层的诉求:就是作为一个人,作为一个生物个体,你是有消费的需求的,但AI是没有的。
所以AI不会去定义这个交互是好还是坏,最后在这上面缺少一个逻辑闭环。或许在未来的某一天,比如说我们造一个具身智能的机器人,他有充电的需求,他有找一个充电桩的需求,他要在这个环境里面去交互、去生活、去感知,可能有一类游戏是专门满足这样的机器人的,因为它也有某种消费的需求。
至少在当下的AI大模型里面,它是一个抽象的东西。所以人有消费的需求衍生出我对于交互体验是有一个判断的,我会对这个体验说好还是不好,这个闭环最后扣在人上面,我不太相信,AI vibe coding能够解决人类最本质的对于游戏创造、创意以及判断。这件事情只有人能驾驭,有了判断才能把整个生产流闭环起来。
孙皓:很赞同,现在从大模型发展的角度来说,也是缺少self rewarding。换句话说,对于模型而言,它没有跟人类一样的情绪反馈。他缺乏五官,缺乏对世界的理解。
他的理解往往来自于语料,来自于其他的一些人类所发过的information。但这些信息无法取代它在meta level上有一些被情绪或者被一些本能所驱动着的反馈机制。
如果说没有这个前提,就会发现我们只能让模型去模仿人类,或者说去拟合人类的偏好。更高level的角度来说,它没有办法形成自己的偏好,或者是真正站在“人类本质上是如何去看待事情”这样的一个方式来去理解。反过来说的话,像游戏它模拟的往往是很本能的东西。
少云:像弗洛伊德定义的“力比多”的概念,它有几种冲动,可能叫做战斗的冲动、源自于死亡的冲动、繁衍的冲动,可能还有其他的一些冲动。这些基础的冲动,衍生出我的行为。
孙皓:现在大模型在这件事上确实对他的理解还是非常弱的,所以它会导致一个问题,就是他没办法评估自己做出来一个游戏,哪怕现在长了眼,他可以去看这个游戏做出来的是不是有bug,这个都没问题,但他做不到的是我看到了一个没有bug的游戏,它到底好还是不好。
应该说除非模型的这种机制或者说他的学习方法有一个根本的变化之前,目前还是没法解决的问题。
筱宁:如果说我们不对AI要求那么高,可能他不去做判断,也不去做一些筛选。vibe coding这个词其实是今年才出现的,在整个流程当中,它的角色到底是什么?
包括其实也想问孙皓的,是因为其实低代码这件事情并不新鲜了。在vibe coding之前有很多的场景,大家尝试做过一些所谓低代码的工具。
但确实是在vibecoding来了以后,大家去生产自己的APP也好,或者说游戏也好,变成了一种觉得还挺exciting的事情,那他到底发生了什么变化?
孙皓:我个人的一个体验就是,UE其实也有蓝图,也有很多方式能够让你通过拖拽的形式就能做出来一个不错的故事流。但这些都是基于一个引擎,这个引擎上面已经有至少十几年的迭代,这个迭代里面包含了大量的行业知识。
在一个引擎上面去加这些东西,对于一个完全不懂coding的人来说还是没办法介入的。但如果是让我去打几个字,他就能做出来跟我打几个字效果差不多的东西,那我这还是挺magic的。
Vibe coding对于工程师来说是非常重要的,可以用它提效十倍以上。但是它更关键的确实是对于那些原本没有任何工程能力的人来说,给了他一个能够开始设计比如说他喜欢的游戏也好、还是说这种小工具软件,它都可以去想办法通过他的语言一次一次的改来去达到目的。这个事儿原来确实是做不到的。
少云:这个话又说回来,就通过语言一次一次能达到目的吗?刚才泡泡龙的例子好像并没有达到目的?
孙皓:游戏的vibe coding是比较难的。目前来看的话,其实从小工具的角度来说,因为它比较逻辑化,它的UI不重要,它重要的是逻辑写的对不对。
凡是这样的场景,其实目前vibe coding已经做得很好了,甚至说他99%的工作都可以胜任。我现在基本上在做这种web开发的过程中,可能只有5%的时间在写代码,剩下时间都是大家去跟AI进行互动。
游戏确实有点特殊。游戏它有两个挺大的难点,一个难点就是它里边包含了太多的assets。这还只是2D游戏。3D游戏像刚刚说的,它还包括了其他的包括网格、包括肢体动作,然后里面有很多是没办法靠一个视角就能观察的东西。
这个对于AI来说它更难理解,这是第一点。然后第二点的话,游戏本身是给人玩的,不是给人去解决问题的。凡是玩的东西到底好不好玩,和能不能解决问题,我觉得是很大的一个差别。
筱宁:是不是还有一个原因跟数据也相关,可以用于AI去训练的数据,这个量级也是不一样的。像你说web,也是因为它有大量的数据,大量的公域数据。但在一些更复杂的场景,比如说更复杂的一些APP,包括游戏,其实你没有那么多的数据可以去采集,也会影响到它的生成?
孙皓:我觉得这个非常对。现在的vibe coding为什么在网页游戏上或者说用Three.js,javascript基础的这种框架上做得还不错,主要原因也是因为他的数据量比较大,他看过的网页至少是够多的。所以他可以去保证在这种web环境的基础上能做出来比较好的一个结果。
但是相比之下,比如Unity,Unity数据还相对多一点,但是Unity有一个大问题,就是Unity的版本迭代太多了,以至于它过去的垃圾数据特别多。它的语法变化太大,导致今天再去用AI去写Unity它经常给你写出一些过去脚本的一些语法,它自己也会混乱,它也不知道哪个是对的。
因为大部分的项目,其实你如果只看项目code文本本身,是看不出来它到底是哪个版本的。除非你把整个项目,包括它的配置文件都看了,你才知道是什么版本。所以其实AI学习这种像Unity、包括UE的这些代码都会面临这个问题。
相对来说的话,好的、优质的数据是比较少的,尤其现在这个版本下的优质的数据就更少了。这也是为什么说现在那种game engine上面去做了很多这种vibe coding的尝试,但是他们本身还是积累的债太多了,然后导致他确实不够native。
或者说现在如果真的从零开始开始做一个engine,然后面向vibe coding去做的话,也不会按照那个形式来做。
少云:我其实想补充有两点:我们在做游戏的时候,就像比如说生产一辆汽车或者一部手机。你作为苹果或者作为小米在造车,在做的第一件事情是什么?或者我们本质上在做什么?是在手搓一个手机,在拧螺丝吗?都不是。我们在做一个生产线,一个流水线,这个流水线在游戏里面就被称之为编辑器。
所以我们做的东西,其实编辑器的形式它不是那么拘泥于说一定要是一个蓝图,一定要有什么上下左右按钮,或者像是War3 Editor这样的才叫做编辑器。
原来我们做的所有填表的工作,比如像excel,它其实就是一个最好用的编辑器。它是面向人类的,比如说面向数值策划的一个编辑器。这个编辑器其实是非常高效的,能够去控制你想要的东西的一种数据结构。
比如说一个人他需要升级,每一级需要有经验值。现在这个东西如果用vibe coding,你需要去念第一级需要10点经验、第二级需要20点经验……这样念一遍,效率高吗?还是说我直接在excel上一张表拉下来就效率更高?
所以编辑器不是说vibe coding它就是最好的形式,还是要根据我们具体的设计需求,有时候excel反而是更快的。这是我想补充的第一点。
第二点的话,我们在定义vibe coding,或者说在定义这件事情的时候,刚才说有两个大类,一类是叫小游戏信息流的,一类是叫做可能稍微在垂类里面深入一点的,像横板卷轴跳跃这种品类的。
为什么是这样的一个结果?我们现在眼睛只看到了很新鲜的出现的这样一种编辑器的形式,它的边界或者说它的能力范畴,和刚才讲的这两种形态是最合适的。
为什么不一出来就做一个重度的MMO或者说一个肉鸽或者数值导向的游戏?或者挂机类的游戏呢?因为这是它不擅长的。就现在投资领域来讲可能不够sexy,它没办法讲个好听的故事。因为那些东西还是用excel效率最高,所以我们不去讲这个东西,我们最后变成去讲更加好听的,更加高大上的故事。
但真正的游戏体验,其实不是只有这种小的,甚至小的那部分,现在来看可能是占比反而是较少的部分。怎么去看刚才说的两条线的东西真正在落地角度的价值?
第一条价值我觉得就跟刚才说的,他最后是不是会变成抖音滤镜?我们要想的是把所有在做这件事情的创作者的价值能够更多的融入进去。因为现在的prompts一股脑儿就20个字,那孙皓来说,还是小宁来说,谁来PUA,不是结果是一样的吗?大家生产出来的东西全是同质化的,那差异度在哪里?这是一个核心的问题。
第二个问题是说所有这些生产出来的那些交互,其实它相对刚才讲的像抖音、视频类的,他对于玩家的门槛还是高的。你要想象一个玩家每5秒钟要换一次交互形式。我玩了Aippy里面有一些挺魔性挺有意思的交互,就是一个哈基米转瓶盖,你点住哈基米,它会转转转,还有声音,然后把瓶盖什么转起来,就很无厘头的一个东西,很有意思。
但你第一眼看到它根本不知道该怎么玩,没有人知道,因为就只是一个交互而已。然后你随便去点,可能大量的所谓的玩家或者泛用户,他并没有这种耐心或者注意力的资源,要每5秒学一个新的交互形式。这个门槛相对短视频来讲,我觉得要高得多得多。甚至相对于小游戏来讲,我觉得都要高。
回到更加落地的,刚才我们已经有一些品类像横版的卷轴跳跃,包括泡泡龙。我相信vibe coding一定能在里面发挥价值,但是比如横版卷轴跳跃,最简单你要编辑那些个弹跳的关卡,一关一关要去过。
这是一个2D的编辑器来的效率更高,还是我口述说你给我改第三排第七个方块改成什么样效率更高,还是说我就反拿个鼠标点点点,我直接就改掉了。甚至我拿个excel表,我填数字,都比这个要快得多。
我们还是抛开太fancy的部分,我们回到说现在真的他能够给我们传统游戏体验,不是说excel表就一无是处,它还是有它效率更高的部分,那两者是不是能更多的去结合一下。
像刚才孙皓也提到,就是像web的开发,可能95%已经全部是PUA的部分。回到游戏,因为有交互,这个是vibe coding不太绕得过去,也不太做的好的部分。传统的编辑器、传统的开发流,还是有很大价值的。
筱宁:其实我们看到好多这种做agent,不管是一站式的还是直接做游戏的,都会有一个方向。大家就去做模板,做了模板以后,然后大家去做remix。这个形式本身是不是一个解法?
少云:我认为是的。可能一些现在并不那么fancy的工作,做出来之后你需要针对比如横版跑跳里面的一些像刚才讲的,他的痛点在哪里?他的痛点是游戏资产没有对齐。
我现在如果说一个提示词,然后这个资产就能生产出来,并且生产出来的这个资产它是能走跑跳的,它是有基础的3C的交互,它还有叫做战斗的东西。然后我给他说一个技能,他这个技能就能把所有的这种资产全部拼在一起。我说有一个火球,他就得拼一个火球出来。
最近玩了一个游戏叫《球比伦战记》,它里面会把各种各样的技能,排列组合能够去融合、进化出来。像这样的东西,这种资产它是不是能够纯粹的基于刚才讲的这种提示词能够去生产出来。
这些工作其实他没有那么高大上,它有很多是对齐的工作,是比较细碎的一些事情。但这些事情我觉得是有价值的,因为他就把开发流里面的一个点其实打通了。
打通了之后这可能都不叫vibe coding了,其实可能叫资产生成也好,或者叫什么也好,就能够把具体的体验通过一句话或者一个提示词就能够生产出来,觉得这件事情反而是更具有落地价值的,也是大家如果想要去用的时候,很容易就能上手,能去生产
筱宁:remix也有两种可延展的形态。第一种最简单的相当于我有一个别人做好的模板,但可能比如说你做了一个横版卷轴跳跃,我希望那个跳的东西是皮卡丘,那我可能就remix下用提示词的方式在跟AI进行一轮沟通,但这个可能改的还是比较简单的一些东西。
第二种就变成了remix之后我再做个编辑器,但如果说我又回到编辑器了,那就又回到那个问题了。那在这其中加入了一步能够自然语言对话的这个价值会在哪里体现出来?
孙皓:我觉得就像刚刚说的,它主要解决的确实不是专业开发者的诉求,它解决的是那些原本就没有办法去用一个编辑器来换掉一些素材,然后达到他们的效果这样的一群创作者。创作者的门槛有很多种,有些创作者他最后也变成了engineer。
我知道至少90%的创作者的核心,或者说他的偏好就不在于把这种东西实现出来,而是把他的脑洞更多的去放置到这个游戏里面。它就有点像你说的第一种,它会把资产给换掉,什么变成梅西跟C罗打在一起,类似于这样一种形式,他已经很开心了。
我觉得就是刚刚你说的两种,其实它多少都是有点针对于像是early-adopters,而不是最靠前的那部分的创作者。至于说他到底有没有价值,我觉得它作为比如整活、恶搞,包括一些IP的二创,这些方面的话其实都是有价值的。
包括我们之前在做museland的时候,当时也发现有很多用户喜欢拿别人的IP来做二创,赋予一个新的场景,赋予一个新的世界观,然后在里边就可以跟原来那个IP玩的很开心。
我的逻辑比较像,比如我现在有一个魂斗罗,那我把魂斗罗的那个主角换成,比如我喜欢的某个动画片里面的角色,然后让他去打打,是OK的。但是至于说他有多大的价值,我个人还是会认为他比较偏向于叫创作者自娱自乐的状态,不太是一个有很强商业价值的事。
03.UGC社区的生长
筱宁:所以其实商业价值也可以往下探究一层,商业价值其实有3种方向,一个是to b的商业方向,第二个就是完全to c的,还有一个就是to D(developer)的。
如果我们不光考虑early-adopter,因为early-adopter他其实对于所有新鲜的事物都是有一定的好奇心,然后愿意去尝试的。但它要变成一个真正意义上的产品,它到底是哪样的机会呢?
少云:这个可能也是想要聊的一个比较大的一个话题,就是创作者生态,或者叫做UGC。它怎样发展出来,怎样变成一个生态,或者怎样放大商业化的一个价值。
首先就刚才孙皓提到那一点,我可能再稍微量化一点。可能我们认同的一点是每个人都能去做一个flappy bird,但是最大问题是谁来玩?产能是过剩的。
Flappy bird的核心用刚才所谓vibe coding的那种方式,我把bird本身换成了很多种的样子,有时候是一个bird,有时候是一个坦克,变成一个皮卡丘,变成一个奥特曼,但其实这个价值就比较有限。这种早期的噱头型的价值很快就被消耗掉了。
我们可能看的是在这个过程中,在被消耗掉的过程中,一方面是有没有人能够去创造自己的IP,这个IP特别适合flappy bird这样的一个交互形式。但这个比例是多少呢?可能1‰、1‱,这是第一点。
第二点是假如这个噱头是成立的,我吸引了非常多的人卷入进来,卷入进来之后UGC的整个创作者生态是怎样发展起来的。我不太喜欢就所谓把to B、toC 、to D这样的事情讲的特别清楚。
我们回忆第一个接触的UGC的游戏是什么,可能我能够想到的是坦克大战,还有就是摩托车,有一个摩托车手,然后在那边它如果加速过猛的话,那个引擎还会过热,它里面也可以自己去摆各种各样的那种三角形的跳台之类的,这样的一个游戏。大家在玩那些,那你不就在生产关卡吗?坦克大战也是在做这些事情。
做这个事情的时候,你定义你是一个developer?是一个to b的事情?不是的,你就是一个玩家,你在参与这件事情,你觉得这个东西很好玩,然后你可能做的感觉还挺自豪的,而且我做的不错,那我就分享给孙皓玩一下。我如果我觉得也没啥,那可能我就自娱自乐一下就结束了。
我会觉得在UGC生态的最早期,B、C、D是不区分的。把这东西分出来的阶段,其实是一个比较晚期的商业化成立的阶段。在最早期的时候,其实就所谓BCD的这些东西,它是融合在一起的,就是创作即娱乐,创作即消费。
你在探究这个编辑器的边界,你在想象这个编辑器它能够做到什么事情,你在做这件事情的过程中,就比如像很多人在玩Minecraft这样的游戏的时候,他在做什么?他在挑战这个世界或者这个游戏的一些边界。我看看他什么时候死机,我把整个世界塞满TNT现在点爆,然后我的显卡炸了,这个很好玩,他是在玩吗?其实不是。
他在挑战这些东西,但挑战这些东西也是游戏的一种,它是最本质的游戏的一种,所以它也是一种体验。
在看待这些的时候,这种所谓ugc最早期的时候,我比较希望就是说game vibe coding这件事情,它降低了很大的一个门槛,是不是能够让更多的人以玩乐的心态参与进来,然后去讲一些我们从来没听过的提示词,然后他也会给你一些你从来没见过的反馈。
可能这里会开创出一些新的品类,新的赛道,或者新的所谓的游戏的交互形式、交互体验。可能是只有1‱或者10万分之1,而且还需要那个人他非常的有兴趣,他真的是个人兴趣、个人体验驱动的,他不一定是利益驱动,应该说他肯定不是利益驱动,因为一开始是没有任何利益的
他就是个人兴趣驱动,然后把这件事情会一直去做的深,他就创造出了一种游戏的品类。我们现在几乎是所有看到最大的游戏品类,Moba、 FPS的吃鸡等等,这些都是来自于mod。
那么早期它是一个怎样的形态?它是基于说因为未来能赚大钱,所以我现在做是一个to b的事情吗?不是,他就是一个爱好者,他就在那边做,但是他坚持了很多年,他在上面一直去优化,一直的去改进,把这件事情做得越来越make sense。
当然到后面整个的发展,我相信超出当时所有人的想象,他会变得越来越大。他甚至还到了手机上面,他甚至还变成一个,各种各样的衍生的生态都变成很大的生意,这是非常早期的一个东西。它应该是一个BCD捏在一起的状态。
孙皓:感觉早期像那个魔兽争霸的地图编辑器,其实一出来的时候大家都在那儿玩。然后一开始的use case就是说我可能造一些特别奇怪的地图,我就在水里边出生之类的。但后来的话发现里边有做3C的、包括后来的dota,都是从这样的一种形态中慢慢演化出来的。
其实UGC的精髓确实来自于说1万个或甚至10万个这种UGC的创作者,最终会跑出来一两个特别牛逼的品类。然后这些品类最后甚至吞掉了原来这个编辑器、原本的游戏自己的这个生态。
这个里边比较重要的一点就是这个编辑器到底提供了多强的自由度。这个点是很重要的。我们还是会认为说vibe coding给提供的自由度还是很广泛的。
只不过是今天,比如我形容自己的话,就觉得自己有点像那个早期玩魔兽争霸的地图编辑器,在那把十个房子给放到一起这样的一个程度的一个创作者。
但真正要说非常厉害的创作者,当他看到vibe coding的能力以后,他会在上面去衍生出一些我们之前完全没有想象过的一些方向。这个确实像少云刚刚说的这是一个非常早的阶段。
这个阶段可能会需要一方面是大模型能力的提升,然后另一方面的话是不断的积累创作者,逐渐的在上面也会产生一些非常独特的东西。
筱宁:在深入聊到UGC之前,因为你们俩刚才都提到了一个词,也是AI时代大家经常提的一个词,叫做AI降低了创作门槛。但我想把这个东西稍微再具象化去聊一下,就是所谓的降低门槛,刚才也提到说模型可能要等他再去更智能一些或者更强大一些。
降低的门槛到底是什么?就在创作游戏这件事情上面,什么门槛被降低了,什么东西其实并不是这一波AI带来的门槛的降低?同时如果我们真的是在期待模型变得更加的强大,强大那部分又是什么?
孙皓:如果从纯工程的角度来看这个问题的话,其实刚刚也提到过,我们整个计算机的发展。一开始的话是汇编,然后汇编后边逐渐出现了C这种高级语言,然后C后来也不够高级了,出现python,然后python不够高级,出现了vibe coding。
所以基本上这是一个封装的过程,你在不断的去把一些更底层的,但是不需要上层去理解的这种概念,被上层的语言直接就内化掉了。
其实我们对大模型的未来的期望倒不是说就你PUA一下就够了,而是说你有一个很清晰的自然语言的描述,它就可以被转化成有效的、可以在计算机里跑的这样的这么一套机制,然后它也可以被称为一种语言。
这种语言的话,如果它强大到、简单到普通的创作者本身,只要他脑洞够深,他的这些脑洞都可以被执行下去,至少他的这种玩法都可以被实现出来,就基本达到了一个更高级的语言封装这样的一个目的,这是从大模型的角度。
但是它确实解决不了的几个问题。比如像这种assets,尤其是3D下会有大量的问题。这些问题的话确实是因为现在包括pixso lab这种产品也出现,他在想办法去解决比如说你的一张图,做一些风格迁移,保证把你的图像风格迁移到在同一个游戏里面,看起来是没有违和感的这样的一种工具。
这种工具的话它本身也可以作为一个MCP去用在跟大模型的游戏code生成的合作里面。所以它逐渐会形成一套生态,这种生态会辅助普通的创作者。你只要有想法,然后你有一些这种参考图,就能做出来一个足够好的这种还原。
要说什么东西不太行,就凡是一提到3D我觉得我就比较消极。因为我觉得当年自己作为一个人类,我在unity里面去调动作、调里面的模型的骨骼,这些事儿我作为一个人类用的很痛苦。
它又是一个非常不容易去被线性描述的这样的一些资源。这些资源的话其实对于大模型来说,我觉得直到很后面以前都会是一个很大的问题。
想弥补这些问题的话,可能就会是有一些专门的工具。这些工具比如说很擅长做这个事情,它内部有一些不一定是用现在我们说的这种大模型的方式来去解决,但是它可能能辅助到大模型,就相当于把这部分的工作就外包给这些工具了,这样的一个形式来解决。
少云:从另外一个角度,我看到的是,现在比如AI coding这件事情,他能够一句话去做一个体验。但是我可能非常习惯去思考,这个体验能不能更久一点、游戏寿命能不能更长一点。
它仅仅是一个10秒钟、15秒的东西,就算你做成一个横版闯关跳跃,它的整个应该没有超过五分钟、十分钟的,根本就谈不上一个比如说2个小时、10个小时的一种make sense的体验。
这一点上,有一点像比如说AI的聊天对话,包括大部分这种情感陪伴类的产品。最初在情感陪伴类里,我们看到一个很大的一个问题是,很多只能聊比如20轮或者最多半个小时,聊完之后其实就很无聊了。这还是等他生成的时间很久,如果能够反馈的更快一点,其实根本聊不到半个小时。
现在vibe coding也有类似的问题,它生产出来的所有这种交互体验就只有那么短,我们很希望它变得更久,但是在变得寿命更长的过程中,好像一下子就会触及边界。我不知道怎样让他变得更久,或者说我知道,但是我告诉他他做不到。
孙皓:这里边比较大的一个原因是因为,首先大模型的context有限,然后现在的很多游戏开发的语言又不够高度抽象,所以导致大模型在长context下很容易涣散,然后你又很难把它的上文,尤其游戏的机制非常复杂,可能还涉及到了很多的关卡设计,每个关卡里边就有很多细节……
这些东西很难被压缩到同一个上下文里边,让大模型可以长时间里都保持一致性,这是一个比较大的问题。
我倒也见到业界有一些比较新的想法,看怎么去设计一套更新的引擎。因为引擎这个东西本质上就是来做高度抽象,把一些更基本的,包括粒子渲染、包括物理引擎全都给封装起来了,你不用再去关注它了。但是引擎目前的封装还是不按照vibe coding的形式来做,所以有人去尝试。
在Hugging Face上有一个项目叫vibe game。它的思路是这样的,在抽象的角度来说,它会把什么物理、渲染这些机制全都抽象起来。就相当于你不用再去管理他们了。然后在语法上面来说,它用类似于那种ASML,跟HTML比较像的一种语法形式。
这种形式因为大模型以前已经看过很多次了,所以说再去掌握这种新的语言会很容易。然后第三个的话就是他会把实体和组件去拆分,保证在长期整个系统里边一个模块化比较有序的状态。
很多这种基于vibe coding原生去尝试做的新的引擎可能会带来一些变化。会使得比如说context压缩的很短,反过来说就相当于在context里面可以去容纳下更多的信息。
信息量大了以后,它在继续推理的时候,就更容易去跟原来的这种开发习惯,包括物料、游戏机制都能保持一致。这个我觉得是对于游戏的vibe coding来说是非常重要的。
筱宁:这里面有几个点,一个是说他能去压缩一些context,而大模型本身其实能够去容纳context的能力也是在提升的。包括可能在现在的发展过程当中,对于他的记忆的管理,本来也是一个在研究的、有进展的方向。
第二个就是,大模型之前他比较擅长处理一些线性context的关系。对于非线性的这些context,怎么样做结构化的处理和管理,甚至再到生成,这可能又是另外一个需要去攻克的难点。可能这些都在解决的是,模型如何去拿到更多的、多维度的context,并且能够去同时生成不同的模态。
少云:一个游戏的系统,一个成长的体系,或者一种比如说技能的体系,把这个东西拆开来,然后排列组合或者去推理。刚才这个结构会比现在的这种比较模糊的、给一个一句话的prompts就让他去生成,会更加清晰。
筱宁:回过头来我们还是聊回到UGC这里,因为这也是一个现在融资故事里面比较大的一个故事。但其实我们有时候听到的这样的一些故事会直接去到今天我们看到的,比如说roblox,但我觉得我更想回到最开始那个状态。
刚才可能少云讲的是一个最原点的状态,但如果沿着这个原点再往上走,可能就是我们常说的0到1。对于一个UGC平台来讲,这个0到1到底要有哪些要素,或者他怎么成长起来?
少云:这个其实还挺难回答的一个问题,否则的话UGC品类可能就会变成一个比较模式化的存在。但是真正的UGC的游戏、UGC社区,其实说实话是非常少的。
我们自己早期会更加广泛的去看UGC。比如说玩家在做创作的这件事情,那都是UGC。他是不是一定要在一个很原教旨主义的,比如说引擎上面或者说编辑器上面去做创作呢?还是说他在游戏里去做最简单的,比如MMO里面都会有一个家园,或者生存类游戏你有个家,那现在给你一个沙发,给你一个床,你要摆一下,这就是UGC。
因为你会对这东西有个想象,所以你要造一个东西,这种UGC可能是比较粗浅一点,毕竟它提供的游戏内容是相对偏少的。可能你摆放完,看了一眼,内容就已经被消费了。
可能更进一步的UGC会变成什么?会变成比较像肉鸽类的游戏,你要去做一个build。所有的这种重度游戏,包括战斗游戏、包括吃鸡,你在单局里面做一个你的build,这种build本质上也是一种对战斗的一个UGC,对角色的一个UGC。
当我们回到很原始的状态,比如说在MMO里面每个人都有一个自己的avatar,这个avatar其实代表了你自己内心的隐秘的愿望,不一定在现实生活现实场景里会出来,但是在虚拟世界里面反而会更加的暴露。
那我在虚拟世界里面,我就要提供很多的元素,让你可以把这些东西build出来。可能你穿的衣服、你选的门派职业、你是个男的女的,可能每一次我选的都是人妖号,就想要体验不一样的状态,这都是一种UGC。
再到我们很原教旨主义说拿一个编辑器做一个游戏或者做一个关卡,这当然是很UGC。所有这些其实你都在生产一个内容,但这个内容不一定是给别人消费的。
绝大多数的刚才讲的很多内容其实是给自己消费的,从来没有想过这个内容要卖钱。只是说我因为游戏提供了这样的自由度,所以我做了一个自我表达。
在这个过程中,UGC并不是今天突然出现。我们要想的是,玩家在一个虚拟世界里面,他的需求是什么?他是不是有未被满足的一种需求或者一种体验,这样的一种体验最后可以被UGC化,这可能是原点,再往下的部分可能就叫设计方法论的部分。
他需要有一群人,在一个很核心的、可能很tricky的一个体验上面,大家一起在这里面去努力,然后我做一点东西给你看、你做一点东西给我看,这就是一个小小的UGC的一个原点。我们来想这件事情能不能放大。
筱宁:其实有点像不管是一个人、还是一小撮人,他的创作和消费是被揉在一起的。但是到今天其实比较成型的UGC的平台,不管我们说的是抖音还是一个游戏,它的一个特点叫做我的创作和消费不一定是同一群人了。
有一些人已经变成了创作者,甚至是专业的创作者,大部分人其实在里面就是一个纯消费了。这是他达成了一个叫做可商业化的UGC平台的特点。
当然,你刚才讲了一个叫做最早大家是为了热爱,或者说因为喜欢玩聚在一起的。但是如果最终要发展成一个平台,相当于有一些人能从这个环境当中能跑出来,变成一个头部的创作者,首先是AI会让这个路径变得不一样吗?或者说传统的路径会是怎么样过渡过来的,有什么样的一些很重要的转折点?
少云:首先刚才讲的这样的原点,可能存在在很多的、广泛的兴趣社区里。社区里面会有人、或者说人人都是创作者,人人都是消费者,是这样的一个状态。这些兴趣社区假如有一个东西,可能在某种机缘巧合之下,他出圈了,或者被放大了,或者被发现了,那这个东西会变得更厉害一些。
这时候走上的一个道路,通常可能我会分成叫三个阶段,第一个还是一个成长的阶段,第二个是叫做成熟的阶段,第三个可能是运营的阶段,当然运营也是贯穿始终的。
假如一开始我们就要做这件事情,其实一开始就要用运营的力量去介入。那在一开始的、还是兴趣驱动的阶段,在没有利益和商业化参与的时候,大家比拼的是什么东西呢?好像有时候是一种尊重的东西。这种环境最多的其实是大学校园。
大学校园没有生活压力,不需要赚钱,所以它一切的东西是基于叫做某种智力比拼:我很厉害,我做了一个产品,我做了一个游戏。所以大学里面会有很多非利益驱动的创作者。这件事情如果被驱动起来,其实就已经具有能够去消费的一个基础群体了。
第二步其实是比较难的那个部分,看的是你的创作者是不是足够多?当足够多的时候,还要保证这些人能有持续的创作动力,因为大学的话一旦毕业了,他就不创作了,他就有现实的社会的生活压力就来了,但这个社区它是一个兴趣社区,它完全没有商业化,它无法供给我的这种收入。
所以这时候,现在这个时代比较好的就是有抖音、快手、小红书这样的社媒平台,信息平权的平台,所有这些创作者可以把他的东西放到这些平台上面,叫做羊毛出在猪身上。
在另外一个地方,完成我的价值闭环,他不一定是我做了这个游戏,这个游戏要卖上钱我才有收入;我做了UGC的内容,发到了小红书之后,小红书看的人很多,然后我去做直播,我最后卖个货,可能也是一种方式。
最后他会在这些社媒平台上完成价值闭环,在那里达成了商业化结果。但这一点就比较困难,因为需要这个人要非常的厉害,对创作者要求非常高。我们从实操角度,我觉得可能是1‱的人。
所以你首先你得有1万个的创作者,而且是有持续创作意愿的人,这样的冷启动其实还是有规模的门槛存在的。
包括这些创作者在这个平台上面,他持续不断的产出内容,在产出内容的过程中,他一定会遇到瓶颈,他遇到瓶颈是你提供的编辑器能够做的边界。这时候你作为编辑器的运营和开发者,你就要给他提供新的内容,拓展他的边界。
但是这时候就有个悖论,就是这个边界越拓越宽的时候,你的创作者的来源门槛会变得越来越高,你的来源会收束,愿意来做的人会越来越少。
抖音也是这样,所有的UGC平台都会经历这样的一个阶段,就是有一群人赚到了钱,他因为把他赚到的钱再投入到他的内容生产里,他成为了PGC的、专业的开发者,他能够自负盈亏了。
这时候他就会提高内容的上限,他会倒逼平台去提供更强力的工具给他,甚至会自己去生产这样的工具。
这种降维打击形成之后,比如说现在我们自己要去抖音起个号,白手起家,从零开始,说我现在要拍短视频,这个门槛可想而知。所以这时候就分化了,就像刚才筱宁说的,叫做创作者之间的有人赚到钱,有人没赚到钱,卷成功的人在那边越做越大,就来到了最后的运营阶段。
运营阶段其实要讲的是平台和创作者之间的某种关系。你不能让创作者去垄断平台的话语权,平台还是要保留自己最终的选择的权利。对于创作者来讲,还是相对比较短视的;平台对价值会看的非常的长远,平台上的内容丰富度如果是收敛的,最后对平台生态一定是不利的。
所以我需要去打开整个信息茧房,需要去做流量分配、流量管控,有我的价值观需要输入。包括对于创作者生态的平衡,新增的创作者在哪里挖掘,老创作者的利益怎么平衡,这时候就全部是运营的工作。
筱宁:这里面有两个地方是我比较好奇的。第一个就是因为头部创作者这个比例就是很低的,就是一个1‱的比例。那先有1万个人这件事情,是不是AI来了就变得容易了呢?
少云:我感觉还是会容易一些,毕竟像刚才孙皓讲的,其实这波噱头它会吸引到很多人。但我不太清楚,因为我只是很浅的去用,但像孙皓可能在搭整个vibe coding的时候,其实有搭建整个环境,现在这两种之间会有个门槛上的一个区别吗?
孙皓:我觉得区别还挺大的。首先外边套了一层IDE的壳子,那基本上普通的创作者应该是不会去用的,实话说这个东西一看就是个工程软件。本身没有很明确的工程经验、或者说没有在互联网行业做过的人,他应该是不会去掏出一个cursor去狂写代码的。这也是为什么Lovable这样的公司会出现,它给了原本不去用IDE的人一个机会,这是很关键的一个事情。
其次的话,我会比较倾向于认为,最终光靠文字的交互可能不是最好的形式。现在从整个大模型的应用的角度来说,还没有找到一个特别适合大模型去工作,并且人类也觉得舒服的一个UX的形式。
但是至少我们知道IDE对于普通的创作者来说肯定不是好事。其他的这种各种形式,就得看到底谁能最好的找到创作者原本认为最舒服、然后需要改动的次数最少、又能够去准确表达他的意图的这样一种形式。
少云:换一个角度,比如像这样的编辑器,你认为它最后是大一统的,还是说他会在方向上更加的专业化?
我随便举一个例子,就比如说像捏咔,一个OC的社区,如果对它用AI进行改造,那我就需要有它的所有的context,然后把它全部输入进来,让它的效果更好,让它的OC的表达可能更准确,更生动之类的。这是一个非常专用化的一个编辑器。那编辑器最后变成UE,就是通用化的引擎。我不太清楚在这个上面再往前走一下,它是一个更专业化还是一个更泛的一个方向?
孙皓:我觉得从UGC视角来说的话,专业化和泛化的两种编辑方式肯定是都存在的。包括今天你也可以掏出抖音直接录一段,也是个视频;但是你拿剪映,甚至比剪映更复杂的一些工具,10个小时做出来的这种很精细的视频,你会发现都是视频,但是大家差别很大。
未来我觉得也差不多,肯定会有一帮人在做的是你有一个idea可以快速的生成出来,这肯定是一种形态;但是对于每一个独特方向想要做出很强的商业性的内容,我觉得还是需要有很专业的这种工具在后面支撑的。
筱宁:回过头来,刚才聊到UGC应该算成长期。在传统的一些UGC的平台上,我们最极端一点,拿抖音举例子,我什么样的人能在平台上跑出来,我觉得其实是有三类。第一个叫做我有这个技术,你没有。可能到游戏里面就是我能写出来这个代码,你写不出来,这是一种。
第二种叫做审美上的,这个也是通用的,可能就是做出来的东西大家就是很欣赏。
第三种其实是时间上的,抖音上经常会有一个类型的视频,去说这是耗时多少时间,几百个小时做出来的,那可能放到游戏里面,比如说我拿Minecraft去还原了一下我在的这个地方,可能我是花100小时搭出来的。所以其实是有时间、包括审美、包括技术三重东西来构成这种差异化。
但如果AI来了以后,首先我不用去搭乐高了,我说我要一个东方明珠,他就给我生成了,那时间这个成分就减少了。第二个,你说技术,如果大家都是通过vibe coding的方式,或者说我让AI干活的方式,好像你能做的我也能做了。
那是只剩审美了吗?或者说如果在一个AI的这种UGC的社区里面,我不管他是不是游戏,头部创作者靠什么跑出来?
少云:我是这么看的,就是说刚才讲到了三个阶段。在第一个阶段里面,其实有一个点没有很细的去讲,就是编辑器不应该太强。说白了就是最强的游戏编辑器,可能游戏引擎unreal已经在了,你为什么不用呢?因为它门槛非常的高。
它的确是最强的,但是并没有那么多人会去用它。所以一开始并不应该做功能那么强大一个东西,其实说门槛那么复杂的东西,反而他应该把门槛降低。门槛降低就意味着我能容纳的创作者的数量是变多的。为什么这些创作者都要来?他一定有一个共性,这个共性的门槛越低越好,这个共性就是他们都很有空,他们都不要钱,这就是最低的门槛。
所以刚才提到在大学里面的人就往往会有这样的兴趣社区,因为很有空又不要钱,所以我就在这里做这些事情。一旦门槛加上来之后,这里就有一个悖论,生产力的提升或者功能的强大,是不是会对这件事情是个好事?
先不说vibe coding,就AIGC(文生图),现在是不是已经足够成熟了,但还是有强有弱的。这里面还是有会有门槛,vibe coding只会把这个差异变得更大,这是第一个。第二个是我生成出来的东西,有时候在一些专用领域,它会有比较专业化的一种用法,比如vibecoding在一些单一品类会有更专业的用法。
再回过头来说,UGC发展的早期,编辑器不应该是一个特别复杂的东西,而是应该让人看到有兴趣去用,这比你的功能强大与否要重要的多得多。加新功能的时候,特别是AI类的功能的时候,是要非常的谨慎。因为一旦你加进去,你就要想象到你的所有的创作者的基础里面,90%那些最有空、但是其实可能没那么有创作能力或者有技术水平的人,就被你这一个东西给淘汰掉了。
我们称之为电子十字绣。有很多人其实电子十字绣在上面就是一个像素一个像素去做,这件事情看起来好像在浪费时间,但不是的,大家对于这件事情会说你好厉害,你就能把东方明珠这么一个像素搭起来,大家看到的是工作量,这件事情在东亚特别被买单。
筱宁:当时你们做museland的时候,也会有这种电子十字绣的现象吗?
孙皓:有的。你会发现有一些用户他会像写小说一样,把人物背景信息给写到上千字,很多东西他都要精心的雕琢,甚至这里边有一些不是我能看得懂的语言,还有很多黑话在里边。然后这个会作为他们的作品,他们也管这个东西叫做他们自己的崽,把它作为自己的一种资产去看待。
还有一种就是从消费的角度来说也是一样的,当你发现一个用户跟AI的角色去聊了几百轮,你会发现他正在尝试把这个角色塑造成一个他想要的样子。
我们也见过一些比如海外的大龄家庭主妇,他没什么事儿干,他就喜欢去把我们平台上每一个霸凌的角色全给劝诫成好人。类似这种就是他会有大量的时间,然后他拿这个时间做的事就是他要净化这个平台。
其实类似的像minecraft上面就有人在搭了一个神经网络,也是个老外干的。
少云:我记得最近MC还有一个新闻,有个人在正常的模式里面一直往边界走,走了十几年,然后现在终于抵达了边界。其实如果开创造模式,一下子输坐标就到了,但他就要自己走,走到那个地方。
筱宁:一句话生成游戏会不会就剥夺了这种行为艺术?
孙皓:也不一定,比如现在vibe coding做游戏,做个泡泡龙,它做出来东西挺一般的,但是一定存在某种野生大神可以通过这个方式把泡泡龙给做到一个像3A游戏的水平,我是相信有这种人存在的,他可以在这个过程中把prompt能力搞到极致,我觉得在AI所带来的这种自由度上,还是能够去产生足够多的差异化。
上一代做视频的,用midjourney和Vidu做出来的视频已经很惊艳了,你可以说sora2出来之后,他之前的功夫可能无效了,但至少在当时看来,很难想象一个普通人到底花了多少精力,才能把一个两分钟的视频迭代到那个程度。对努力的这种赞赏也好,还是对工艺技艺上的这种赞赏,我觉得在AI时代还是挺常见的。
筱宁:所以我就在想,其实大家追求并不是说更短平快的一句话生成,而是在这样的一个平台上,或者在这样的一个工具下,能够通过一些方式实现我之前实现不了的东西。可能是不是这样的东西会更倾向于被鼓励?
少云:对我觉得肯定还是结果导向的。生产过程如果你只是自娱自乐的,那只是我们基于UGC早期形态来讲,你在走出校园以后,你一定要直面社会的考验,直面商业化的评判。
一旦我们进入到所谓第二个这种商业化评判的时候,就是结果导向的,这个结果能被多少人看到,能影响到多少人,能卖多少钱,本质上还是这些事情,但这些事情他不一定只有一种方向,它可能有很多种方向。
那vibe coding是不是能让这种方向更快的去实现出来,可能在加速,但最后跑出来的那些人我觉得其实还是超级个体,还是那些真的或者非常有taste,或者非常有创意,或者非常有坚持的,只是坚持的东西跟原来不一样了,他不能去卷电子十字绣了,他就卷另外一个可能很行为艺术的事情,最终还是最极致的人,超级个体,他被卷出来以后,接受商业化的一个判断,大家来用脚投票,用注意力来投票。
筱宁:如果在0-1的时候,大家的聚合是因为热爱、因为兴趣、因为有时间,工具(编辑器)又不能做的太复杂,其中也不牵扯到钱,那么,不同游戏社区之间的壁垒到底是什么呢?
少云:对于社区的评判肯定还是结果导向的,什么是好的社区?能永续的社区就是好的社区。那怎么能让它永续?其实还是把握刚才的那个度:我要提供功能,但又不能一下子把功能拔的太高,让上面的人走的太快,因为人的差异很大。到了尖端的人,会有垄断的冲动,会希望利益最大化,在利益最大化的过程中,他会把下面的人干掉。
平台要做的就是去平衡这样的力量,不能让头部垄断,要让头部轮换、并不断发掘新的创作者,去保护他们、补贴他们,无论在流量还是钱上,甚至还要培训他们,在这上面做大量的投入,才能让生态保持一个健康状态。
如果我们作为运营者,在早期其实手里没有那么多的工具,中期商业化如果能转起来的时候,手里其实会有很多的资源和工具。这个工具最后是基于你的价值观去使用的,那我们的价值观还是希望社区能够永续,尽可能长的去运营。
筱宁:我想到一个比较好的例子,虽然不是游戏的,就是淘宝当年的直播电商和今天抖音直播的对比,其实就有点像刚才说的那个形态。一个活的生,就是我这个生态里面还得有一些流动性,但其实这件事情反而对于创作者来讲压力是非常大的
少云:这个的确是这样,但是随着平台的成长,创作者其实也有了一个更大的一个平台,更大的一个成长。但压力的确在那边,你要跟上这个平台成长的速度,很多人可能跟不上了。
筱宁:刚才听这个描述就会觉得,之前我们讲所谓的AI UGC社区的时候,大家更多去关注的还是技术的部分和产品的部分,但好像在这样的一个成长链路里面,变成运营的部分可能反而特别重要.
少云:在你没有各种资源的时候,其实就特别吃运营,最后面当然是运营,但那个时候是制度化的运营。在最早的发展阶段,对运营而言,可能情绪价值也很重要,你跟创作者就是生活在一起,你也了解、或者说你本身就是这个创作的团体的一员,否则你怎么想到要做这个东西呢?
你了解需求,只是现在更有能力、或者现在有资源,把这个事情做得更好,让这个社区变得更大或者更厉害,去满足大家。
04. 创业者的机会
筱宁:问一个比较VC的问题,我们现在在聊的是大家会去相信有AI时代的roblox吗?
少云:Roblox本身一定已经在做大量的AI vibe coding化的一个改造了。这个还是回到前面播客也讲过,就是我认为会有AI native的平台的机会。
但是它核心在于就这件事情真正带来的价值在哪里。它如果跟现在的那个价值是重叠的,可能就没必要,或者现有的平台他就能做。核心在于那个价值原点现在在哪里,至少在AI game vibe coding上面,其实我会看见的这个价值原点现在不是特别的强。
孙皓:我比较认同的就是,如果原来的能力上已经能做出来,现在把它增效十倍,这件事儿对于创作者来说其实价值没那么大,优秀的作品其实最后还是那些。头部作品占据了绝大部分的attention,那些没什么用的作品,虽然你可以更快的做出来,但也没什么用。
roblox现在虽然在做很强的vibe coding适配,但最后在平台上沉淀下来的游戏,可能还是那些。如果想找到一个AI时代的roblox,要考虑到底哪些是他现在做不好的事,而vibe coding更容易做好的。
少云:刚才一开始也留了个坑,就是灵光,灵光其实给到一个很大的启发,并不是在vibe coding的能力上,是他vibe coding之后,可以变成一个链接分享给他人,这件事情一下就拓展了一个维度。
原来是我一个人在编一个坦克大战的关卡,现在我们两个人一起来,你先编辑一下,然后我拿过来再编辑一下,我们变成两个分支,还会分享给其他人,其他人继续在分支上面再分支,或者继续去深化开发。这件事情就特别像刚才讲的早期社区,我不知道灵光会怎么去做这件事,但这件事情已经有这样的原型了。
如果作为运营方的话,其实可以看到所有的vibe coding里面,这些分支里面被改动次数最多、传播最多的、玩的最多的是什么。筛选出这样的原型后,可以去做运营导向甚至到商业化闭环的事情。
筱宁:刚才的描述特别像升级版的github,门槛低很多的github。刚才描述的场景里面还想到一点,因为现在比如我们在rosebud上面做remix,还是一个中心化的过程,它没有一个共创和接力的过程。
少云:现在就更像是一个去中心化的一个平台,如果像传统的,还是要去找一个原型,在原型上面改,我觉得太重了。
游戏本身就来自于社交关系,它使得我们刚才讲的一句话生成游戏种,给那“一句话”赋予了意义。这个意义是什么?是这句话是谁给你的?这句话是谁说的?它的意义来自于发给你的那个人,你会觉得那个人怎么是这么想的?怎么有人会想做一个什么这样题材的东西,好奇怪。可能我基于我的taste我就会加两句话进去,然后我再问回去,这之中产生了一定的社交关系。
它是基于社交的一种自我展现,但又不是那么直白的说“我是一个怎样的人”,它是一个创作过程,一个可交互的组件。我说的稍微抽象一点,有点像我给你做一个测试,“我有20个问题你能不能回答上来”,是一种不那么生硬的社交感觉。
这是一个游戏,这个游戏就是我做出来的,我做给朋友的,让你更了解我了,然后你也做一做,你也弄两下,然后又发给另外一个人,他也更了解了,他会变成这样一个挺奇妙的感觉。但这件事情要运营好可能更难了。
孙皓:他分享给别人的时候,会把我的创作过程也分享过去吗?
少云:分享的过程其实是相互能看见对方的prompts。原来我们会觉得这句话其实很无聊,也就20个字,但是现在因为是来自于谁,来自于一个跟你是有关系的人,当然关系有亲密有远有近,这句话就赋予了意义。然后我再回一句话,这句话又有了另外一个表现,叠加在这个小游戏上面,又传回去再扩散出去。
孙皓:产生了一个基于社交关系做出来一个最终的结果。这个结果上面能看到整个流程中,大家每个人是在上面怎么去思考的,这个很有意思。
少云:可能也不一定是结果,我觉得结果都不一定重要,这个过程对这个小团体,这个社交关系来讲是非常重要的。
筱宁:怎么感觉这个过程其实很像一个简化版的跑团,就大家共创的不是一个故事,但共创的是一个交互的体验,一个小游戏。
从另一个角度提到灵光,就会觉得因为灵光也是一个大厂的产品,就会回到那个永恒的话题,在这样的一个叙事面前,创业者的机会在哪儿?
其实在海外所谓的AI应用创业会有一句话叫做,离模型能做的能力稍微远一点,远多少大家都有自己的说辞。但你会发现在国内这个问题好像变得更加的有挑战性,因为大厂不仅拥有模型的能力,大厂也具备所有分发的能力,就他全在他手里,那在这个时候创业者的机会会在哪儿?
少云:我觉得其实回到刚才你提的那三个价值,时间可能在这里就不成为很强的一个竞争优势。但是taste,特别是在垂类里面的专业知识,可能还是有价值的。这个东西可能至少在早期,它不是一个平台级的机会。
但是在早期的话,你的切入点,你要做很多像刚才说的资产对齐的工作,这样的一些dirty work,这些事情现在至少在大厂角度,他不会很在意,这个就是早期创业者一个切入点。
我就是对这个引擎或者这个兴趣社区,它是一个很小众的兴趣社区,我特别专业,我对这个引擎我比较熟,然后我现在做一些这种资产对齐,把开发流程打通的工作。先不要一上来说我现在要颠覆整个社交关系,社交平台,这可能比较困难一点
孙皓:我感觉差不多。总的来说的话就是我们会比较看重的是dirty work。具体的形态比如说gemini、claude、openAI互相竞争,中间可能有的时候也会做做PPT,claude也会做做用户研究,openAI会去做会陪伴。
但当他们真的竞争激烈的时候,他们会把所有的资源投在哪里呢?还是会放在基础模型能力上。比如gemini3.0上线以后,Sam Altman的第一反应就是要把5.1升级成5.2,其他的资源都可以停掉。
我们要找的方向就是这种,有可能大厂甚至涉及过的,但大厂一定不会作为战略上非常重视的地方去深挖的方向。这个深挖的结果会造出一大堆的dirty work,包括对行业的认知、一些很重要的能力。
这些积累起来以后,你就会有一个你足够脏,大厂觉得跟你搞得一样脏也不一定有你搞得好的这样的一个生态位,这个生态位对小公司来说就活下来了。
其次的话,大家老生常谈一个词叫“native”。这个词针对的不一定是大厂,针对的是原来的行业占有者。行业占有者一般做AI转型的时候,他的主要思维还是说我尽量把我原来的这套商业逻辑能够尽可能的拿AI来提效,但其实他们一般所看不到的机会是AI可以完全颠覆他原来的这套商业逻辑的东西。
这个就要看创业者能不能从原本的一些很垂的行业,这些行业可能没赶上AI这个时代,甚至还没赶上互联网。他们在这猛追的时候,他们往往所看不见的这些东西。
筱宁:AI的这一波应用创业里面,我自己印象最深刻的产品是Grammarly,因为你会觉得这个是最不make sense的,是模型应该具备的能力,但它居然活了下来,还活的挺好。我觉得它给我的启发是,它抓住了足够多的context。
并不是能力本身的差异,而是如果这个能力已经嵌入到了比如gmail里面、我的文档里面,我直接可以调用,这本来也是一种价值,是来自于context的价值。
可能有点像你说的第一个情形,这也是一种dirtywork,它通过一定程度的做好了context和能力的捆绑,把产品嵌入到了实际的应用场景中,也是一种有趣的方式。
包括关于native,这个我觉得在游戏这个场景里面也很契合。就像今天我们看到所有的游戏大厂去做一些AI的东西,可能还是说在一个原有的里面去加一个AI然后看到他有一些什么样的营销噱头。但是如果特别原生的,可能就是小厂愿意去探索的一种方向。
少云:在这个上面我稍微补充一点,就是刚才我们都在讲灵光是大厂,但灵光其实在社交领域和游戏上他不是大厂。但反而他做出了在这个似乎现在让人非常眼前一亮的一个东西。
而且因为他的这个传播性非常的强,现在已经有一定的限制,这只是早期。他后续的这种运营的方式,或者如何去放大它的价值,承接它的价值,延续它的价值,再放大它的价值,这件事情可能还是需要一个做法。
筱宁:之前看公众号文章,最近也被讨论很多的一个人,姚顺雨也说过一个点,他说创业公司最大的机会在于设计不同的交互方式,这件事在游戏的场景下成立吗?
少云:其实一开始讲的就是所谓叫交互的一个嵌入程度,就刚刚说的那根轴,就是从非常被动的到需要玩家全神贯注,高度注意力去进行交互的。可能我是从一个更抽象的维度,就是叫玩家沉浸感的这样的一个维度去看待这个问题。
交互形式只是基于说如何去满足当前我在这个维度标尺上的那个点。游戏本来就在做这个事情,好像一开始也聊过这个话题,就是游戏有一些长时反馈的,延时反馈的东西,后劲很足,它需要一些长期的投入积累,可能到未来的某一点延迟满足的这样的一些点,这是游戏可以带来的体验,很多其他的交互形式会有点困难。
筱宁:最后,推荐2-3款你们最近在玩的游戏吧
孙皓:推荐又不那么推荐的两个游戏:《文明7》、《永恒之塔2》
少云:推荐的游戏:《球比伦战记》、《Dispatch》
游戏葡萄招聘内容编辑,
游戏行业书籍推荐: 葡萄书房
(星标可第一时间收到推送和完整封面)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.