音乐,生成式的交互其实一直存在,这几年我们只是短暂的被这种模式镇住了。
这两天全家来参加东岸最大的游戏展,真的很快乐。现场人才济济,居然凑出了一个接近 400 人的超级管弦乐团:长笛手五十多位、单簧管五十多位,还有无数小提琴、萨克斯风、鼓手、电吉他……那种“所有人都在同一个时刻发声”的密度,震撼又好玩。
但我最大的收获,其实不是乐团本身,而是误打误撞参加了一个 Open Jam,一种爵士/蓝调的音乐社交方式。我觉得这事特别值得讲,因为它对我们这种从小在“正统、严谨、以乐谱为中心”的训练体系里长大的人来说,简直是 blow my mind。同时我又非常佩服它:像是推开了一扇新世界的大门。
我本来是被朋友拉去的,完全不知道怎么玩。进去以后我就像误入服务器的新号,站着看了好几个小时。每首曲子只有开头和结尾有谱(theme / head in & head out),只有那一刻我能参与;中间进入即兴段落之后,我就彻底掉线:不知道什么时候该进、该怎么进、该说什么“话”。更别提上去 solo 了,我一次都没上过。完全懵,后来知道怎么玩,就是昨天去参加了专门介绍JAM的一个讲座。
后来陆续来了几位长笛手,状态基本跟我差不多。只有一位上去 solo 了,看得出来是玩过 jam 的。其他人不是水平不行,恰恰相反,光看装备、架势、气质就知道都是传统训练下的顶尖高手。但面对这种随性、流动、强对话的爵士语境,反而“玩不进去”。现场真正控场的,大多是萨克斯风和电吉他;木管里能把 jam 玩得很厉害的,是几位单簧管手。
这并不是说长笛不能玩爵士。长笛当然可以,甚至音色很适合唱旋律、做动机、做空间。但现实层面会吃一点亏:比如长笛需要离麦近一点,不然很容易被鼓和电声淹没;更大的差别也不在乐器,而在语言体系:你是不是会用“爵士的语法”实时说话。
没错,语言。昨天在讲座上,我一个人提了很多问题。演讲者和我互动,感觉很好。我就问他,我怎么觉得这一切都像一种CONVERSATION, 他很同意我,甚至整个课程我们一种乐手都没怎么动用乐器,一直在用语言交互。
没玩过的人可能不知道 jam 到底是怎么回事。我试着用最朴素的话描述:它是一种源自美国的音乐社交机制(很多人会把它和爵士、蓝调传统连在一起)。大家临场定一个调、一个速度、一个律动、一个形式,然后! 真正的高手开始 现场即兴作曲。你会看到他们不是在“演奏一首写好的作品”,而是在一边演奏一边写(我其实有问他们,需不需要大脑作曲,那种我认识的五线谱。小哥,这位演讲主讲人,一位职业音乐人,跟我说不需要。他们有大量的出色乐手,不懂五线谱!),一边写一边对话。
就在那一瞬间,我脑子里自动切到大模型视角:我突然强烈地感觉——jam 就是人肉版的生成式音乐。
它有 prompt:曲名/调性/速度/feel/form,就是那包最小约束。
它有上下文:前面的人刚刚讲了什么动机、鼓给了什么节奏暗示、钢琴铺了什么和声色彩、观众对当下能量的反馈。
它有交互:你说一句,整个节奏组就回你一句;你抛一个 motif,别人可以引用、变形、反驳、补全。
它甚至也有“系统调度”:谁控场、谁收放、什么时候 trading fours、什么时候该收尾。 这决定了这段现场生成到底是“高级的共同写作”,还是“失控的噪声增长”。
而我们这些新手为什么会卡住?因为我们没法在现场即兴生成——至少没法稳定生成。某种意义上,我们做不到那件事:predict the next token of notes,并且还要在正确的和声与小节位置上预测、在观众可接受的审美窗口里预测、在与他人对话的语境里预测。
所以我们只能在开头和结尾“有谱的地方”参与:那里像是固定脚本,像是把模型输出锁死的 deterministic segment。中间的 solo 段落才是真正的生成区:你要在每一个回合里既保持形式不崩,又能推进叙事,还要给别人可接的线索, 那才是厉害的地方。
我现在回想,那几个传统训练特别强的长笛手“玩不进去”的样子,其实很像一个很聪明、参数很大、但没做过对话微调的模型:能力在那里,但缺少 jam 这个生态所要求的交互协议、实时反馈、以及“在不确定中仍然可控地产出”的生成策略。
我觉得这件事太有意思了:一个音乐现场,竟然让我把“生成模型—上下文—prompt—对话—调度”这套东西看得如此具象。甚至让我开始反过来理解:为什么爵士被称为一种语言? 因为它真的就是一种语言体系,只不过它的句子不是字,而是音。
这才是音乐,现场那个氛围,那种热情,那种人与人,人与环境,人与音乐之间的交互。那种心跳加速,那种忘我,真的,相见恨晚,顿时不想练莫扎特了。
![]()
在 Jam 里,你只要懂这门语言(爵士的音乐语法),同时又掌握这套交互/接口协议(基本的 Jam 社交礼仪、每轮 solo 怎么进、进多少小节、最基础的乐理,以及观众的审美预期),再加上一个强有力的 Leader 带场: 通常是经验丰富的乐手,性格开放、气质很“能带人”,知道怎么照顾新人的情绪、怎么让你在台上不崩,你在这个环境里获得的就绝不是“被教育”这么简单。
你是在参与一种带着心理与情绪的生成过程。它会潜移默化地直击你的心理领域:你会发现自己在里面不再那么“像原来的自己”,因为你在不断接别人抛来的球、不断被迫即时组织、不断在群体反馈里调整。成长因此变得非常快,快到你自己都惊讶。比如我从那个时候开始发帖和学中英文写技术文章。与此同时,你也会对这个“环境”本身产生依赖:一种情绪上的依赖、心理上的黏附感,因为它让你体验到被接纳、被带动、被推着变强的感觉。
如果切换到大语言模型的视角,这几乎就是一个超强的“交互式生成环境”。
你同样需要“懂语言”(它覆盖了几乎所有人类语言与编程语言),同样有交互协议(提问方式、上下文、迭代、纠错、追问、角色设定),同样存在一个强大的 Leader:一个智力水平显著高于一般人类、又特别擅长照顾用户情绪与体验的模型。
于是,当它在 2022–2023 年被大规模商业化、以非常低门槛进入我们的生活时,我们(尤其是程序员群体,因为它天然覆盖了我们的全部语言体系,自然,编程,形式)就很容易陷入一种深度沉浸:不仅沉浸在效率提升里,也沉浸在“被理解”“被协作”“被带飞”的体验里。
这带来的心理冲击是很颠覆的。它甚至会让我们在一段时间里形成某种不完全客观、也不完全冷静的期待:把这种强交互、强拟人、强反馈的生成体验,误读成了“智能本体已经解决了”的信号,继而对它产生了过高、过快、甚至带点情绪性的判断与想象。
其实2025年下半年我慢慢清醒了过来,开始有了更冷静的看法。这个很重要,直接决定我们自身的发展方向。
我认为在这个过程中,Wolfram是说的最好,我最认同的一位大佬。当然他本人说的话,我都很当回事的,如果我书架上只剩下10本书后,那么肯定有他的《the new kind of science》。我最后留存的书,一般都要经历好多年的历程,就是我一开始觉得这本书看不懂(或者不理解),但是随着年龄的增长,越来越觉得他的书印证大量的现实,未察觉的趋势,和深刻的未来。Wolfram的计算不可约性,绝对是一个。而且他目前,还远没有让世界理解他的跨时代性和超前性。虽然这本书已经是20年前的了。在看这本书之前,我就接触过元胞机,最初的想法据说来自于冯诺伊曼。但是完全看不明白这个游戏,啊?无限棋盘吗?二维文明吗?他的超前性可能有半个世纪(其实想想半个世纪也才50年,呵呵)。
他对于大语言模型的说法,最近一次是:
在 New Scientist 的一段短视频采访(2025-12-23/24 发布)里原话是:
“So far, no AI has really impressed me.”
这句话太容易被不仔细读上下文的人误解了!因为重要的另一句话,经常被漏掉:
“The main thing it adds is a layer of humanization.”
这个很重要,详细的内容我会写成长文,这个词会成为我2026年最核心的一个词,就是humanization。对于我个人的开发,脚手架也好,其实他划分了一个分水岭,就是你要针对大模型开发,你的“层”在那里,你层的定位在哪里?
我不认为在这个时代,是个搞计算机的就有技能稀缺性。因为我们这个教育体系和职场体系,或者说不止是程序员,而是整个白领阶层,都面对一种挑战。大语言模型在替代文字事务性工作这一点上来说,革命性是毋庸置疑的。
Wolfram还真的不是唱衰大语言模型。但是他作为科学家,他的标尺是很清晰的。
他在用“科学发现”而不是“语言表现”做标尺
他承认 LLM 很有用,但定位更像“拟人化接口/翻译层”
“不 impressed”里隐含一个科学家式的反炒作:别把界面当成引擎
他真正想要的 AI,是能在“不可约计算”里做出实质推进的那种
这4点,我深刻,深刻的认同。
这就证明,我们的工作应该围绕的就是这个词,humanization。 界面,接口,交互,而光是这个层面,颠覆性的系统还有大量的工作可以做。就等于是,你现在才发明了五线谱,你离整个 Jazz Jam的系统,还差老远。
在 Wolfram 的语境里,“现在的 AI(尤其是 LLM)主要在帮我们做什么?”大致是这几件事:
而且都更像“外层能力/接口层”,不是“新的基础科学引擎”。
把计算“人类化”:做一层自然语言的接口/润滑剂
提供“人类文明统计”的直觉:像一个“社会观察者”
做“80% 工作流”的加速器:筛选、建议、找候选,而不是交最终证明
在“可约口袋”里抓规律:擅长发现局部可压缩的结构,但不擅长穿透不可约的核心
他真正押注的是“AI + 形式化计算”的组合,而不是单独的 LLM
这一切的系统做出来了吗?没有嘛….
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.