贾佳亚教授：模型不必一味求大！优化神经元连接方式同样是智能跃升的「关键密码」丨GAIR 2025|模态|克隆|脑神经

分享至

12月12日，第八届 GAIR 全球人工智能与机器人大会于深圳正式拉开帷幕。

本次大会为期两天，由GAIR研究院与雷峰网联合主办，高文院士任指导委员会主席，杨强院士与朱晓蕊教授任大会主席。

作为 AI 产学研投界标杆盛会，GAIR自2016年创办以来，始终坚守 “传承+创新” 内核，是 AI 学界思想接力的阵地、技术交流的平台，更是中国 AI 四十年发展的精神家园。过去四年大模型驱动 AI 产业加速变革，岁末年初 GAIR 如约而至，以高质量观点碰撞，为行业与大众呈现AI时代的前沿洞见。

本次峰会之上，香港科技大学讲座教授、冯诺依曼研究院院长，IEEE Fellow贾佳亚教授亲临现场，为与会者们带来了一场精彩纷呈的开场报告。

贾佳亚教授在会上先是回顾了冯诺依曼研究院成立前后，其带领相关团队从事的一些AI研究以及取得的成果。其中今年的一些最新技术成果，此前均未在公开场合正式披露：

1、2023年，发布了LongLoRA技术，成为全球第一个32K长文本上下文理解大模型技术；
2、2024年，推出 Mini-Gemini—— 该平台在 GitHub 上收获超 3000 个 Star，且为当时开源社区中性能最强的模型。其以文字系统为基础，融入多模态理解能力，可实现高性能图像理解与推理式图片生成；
3、今年，推出 Mini-Gemini 新版本，该版本新增完整中文语音系统，支持长视频理解、无样本音色克隆及跨语言生成，解决中文语音系统混乱的痛点。

此外，智能图像生成编辑技术成果丰硕：ControlNeXt轻量化操作可实现图像风格转换、动效生成等。

同时，研究院新推出了全球领先的智能图像生成编辑统一系统DreamOmni2，有望成为在开源系统里唯一能跟Nano Banana对齐的系统。据了解，Nano Banana的研发投入了10万张卡，投资规模超50亿美金，而DreamOmni2仅由2名学生主导，用500张卡、耗时半年便完成开发。

回顾过去三年的研究探索，贾佳亚提出关键思考：

1、大模型智力是综合多因素结果：神经元数量不代表更聪明，更重要的是神经之间的连接方式，包括大脑皮层的复杂度，以及大脑与其他器官的配合程度等。

2、因此未来大模型发展有两个关键要点：当前Sacling Law是基本发展方向，但大模型发展需聚焦“改善神经元连接方式”，让其在同等数量的神经上变得更聪明。从早期的卷积神经网络，到后来的Transformer，都是在改变神经元的连接方式。

3、未来人工智能发展的两大重心：一是训练方法要从一次性学习转为像人一样的连续学习，二是要结合机器人、机械臂等作为人工智能的感知载体，弥补当前AI无实体的短板。

4、AI与大模型的未来发展模式：会走向感知机器与终身学习结合的训练模式，该发展将在未来五到十年持续性发生，并会带来巨大进步。

以下是贾佳亚院长演讲的精彩内容，雷峰网作了不改变原意的整理与编辑：

大家中午好，我从事计算机视觉研究超过20多年，2000年进入香港，到现在20多年的时间。去年我从港中文转到了港科大，我们建立了冯诺依曼研究院，研究院是今年5月份揭牌，成为了香港里程碑式的AI发展事件，包括香港特区政府财政司司长，见证了我们的开幕。

在短短半年的时间中，我们邀请了很多专家和领导对冯诺依曼研究院进行了访问，看了我们很多的研究和进展，大家觉得很兴奋，觉得这应该是香港未来发展得最快、最领先的AI团队。

在这个团队中，我们有大概超过30位的年轻教授在从事AI的各项研究。今天我就花点时间给大家介绍一下我基本没有在公开场合讲过的一些大型技术。

2023年，我们自己发布了LongLoRA技术，这是全球第一个32K长文本上下文理解大模型技术。

可以想象一下，2023年，虽然ChatGPT3.5已经有了很多大模型的能力，但很多大模型不具备长问答的能力，你只能问它一个很简短的问题，它回答你的问题长度没办法超过50字或100字，这是2023年的状态。当时我的学生以敏锐的嗅觉，察觉到了这个问题。

我们发布这个模型之后，在全世界得到了很多的关注和影响力，后来在整个领域中，所有的大模型开始推动长文本上下文理解。我们终于可以让大模型在人类历史上第一次开始读一本书，并对这本书的内容进行分析，在此之前，没有任何的大模型能够真正读一部非常长的文本并进行总结和归纳的，大概有四万多个Token、两到三万字，它进行了回答。

但我们并不满足，我们又提出了Mini-Gemini，这是GitHub上超过3000个Star的一个大产品。当时我们基于了文字系统，加入了我们的多模态理解能力，我们希望能够做到非常强悍的图像理解能力和推理式图片生成。Mini-Gemini是去年发布的，当时应该是整个开源社区当中最强悍的模型。

它可以做很多事情，给大家举几个例子。今年，我们不满足于去年的版本，我们做了一个新的版本。如果对人工智能或多模态系统感兴趣的可以应用一下这个模型，它加入了音色克隆技术，在现有的开源大模型当中，不具备完整的中文语音系统，而这个模型具备完整的中文语音系统。

给大家举几个例子。它可以干什么事？它可以读一个超长的音频和个性化的音色，比如它可以看30分钟长的TVB News或新闻联播，然后它可以把新闻联播里所有的内容进行归纳总结，用户可以提问任何有关长视频的问题，它的回答是可以基于语音的。

这是一个清华的公开课，90分钟的时长，每一个想学大模型的学生想看这个视频，是非常难受的事情，因为内容很长，需要大家专注的时间也很长。我们做了一个视频的理解，希望用一个Attention机制，用户看完这个视频之后，你可以问它任何问题，然后大模型可以通过这个问题去回答所有的内容。比如，它可以用马斯克、周杰伦、川普的声音给你进行回答。这是一个完整的中英文音色，在当前阶段非常具体、有用的中文语音库存。

我们还可以做音色克隆，这是无样本学习，你不需要在输入的时候加入，我只输入了大概2秒钟的周杰伦的音色，它就可以复制出来。再比如邓紫棋、太乙真人的音色，它是自动的，文字输入进去，语音就输出出来了，音色可以自己调节和生成。这就是大模型的当前阶段，一方面它可以塑造出非常多创造性的事情，另一方面也可以用它做很多不同的事情。

另外，可以用它做跨音色、跨语言的东西，比如有一个讲座，要求你用英文来进行讲座，但你的英文并不好，或者需要你用法文，怎么办？就用它来生成就可以了。

在这个过程中，我们也可以输入一些非常有意思的其他音色，这里我们输入了网红马宝国的音色，然后让他读了一段非常正经的文章。这一段的话非常难念，大家可以尝试，中国很多开源模型是读不好这段话的。现在它已经全部开源了，大家可以在网上做尝试。

我们之前为什么做这件事情？因为我们发现在整个市场中，英文系统做得非常强大，而中文系统一直做得非常混乱，我们希望成为第一个把中文语音系统做得比较完整和完备的团队，这是我们做这个事情的初衷之一。

再给大家看看我们做得非常有意思的创造性工作，非常直接，可以拿来做非常有意思的创造性效果。

比如大家可以输入图像，这个叫ControlNeXt，它可以生成完整的、真实的、自然图像的表达，包括卡通图像，或者是任何形式的图像表达。我们可以把一张图像变成任何的风格，比如版画风格或中式风格。

我的一个学生非常希望看到静态图片能够跳舞，让它能够动起来，我们用了一个简单的模型就做了这个事情，ControlNeXt是非常轻量化的操作，不需要预训练，也不需要你有5张卡或10张卡，你只需要有一个系统，就可以实现以上所有功能。

另外它还可以做超级分辨率，以前拍摄得非常模糊的图片，都可以用它变清晰。这不是我们做出来的，是我们放出来这个系统之后，其他国内高校团队用这个系统做的尝试，发现它在超分方面的能力非常强悍，所以我们也把这个结果借鉴过来了。

这是我们最新出的全球领先智能图像生成编辑统一系统（DreamOmni2），它强大到，我觉得是在开源系统里唯一能跟Nano Banana对齐的系统。大家知道，Nano Banana用了10万张卡，投资规模在50亿美金以上。我们这个系统大概就是2名学生，用了500张卡，在半年之内就做出来了。

这个系统的能力之强悍，证明了这个世界上在现有的AI研究中是绝对的聪明制胜。如果你的团队有一个聪明的人，可能一个人能干一百个人的活。它的功能非常强悍，这个系统叫DreamOmni2，它可以做广告设计、图像编辑、虚拟试衣、一键美容、改变光照、产品设计，它的很多功能甚至比Nano Banana还强悍。

这是外部媒体对这个工作的报道，大家都觉得很震撼。一个很难的工作，就是把图里的这盏油灯换成下面的这只狗。以前用photoshop，需要很长的时间。现在只需要说一句话，请将第一张图里油灯换成第二张图的狗，很快就可以完成，它可以做局部替换、局部光照姿态的融合。

这也是同一个例子，“请将第一张图里的男人替换成第二张图的女士。”，实际是非常难的，它涉及到每一个像素级的编辑和修改。右边就是我们做出来的结果，可以看到它在效果上达到了专业美工三天才能干的事情，我们只花了大概10秒钟，就实现了这个功能。

再比如这张图上面小孩子哭的表情很有意思，我只是想把这个小孩子的表情转移到上一张图里，这是一个非常抽象的动作，但它也可以完成，这是非常抽象概念的转移，大模型中的文本理解、图像理解、像素编辑等领域，都具有极大的挑战性。这是一个很难的问题，我们找到了办法把这个问题解决了，也发表了论文，这也是开源的系统，大家可以尝试修改，可以尝试去玩。

再比如这张图，我想把这个女士的发型改变一下，也是可以的，甚至连耳环的样式都很相似，说明大模型对像素级的精准理解到了极致的状态，这是非常难做的商业化水准的工作。

它还可以换衣服，比如你拍了张照片，你想知道这个衣服你穿着合不合适，现在大家都会进行网购，试衣服是很难的，不可能网上试衣服。以前试衣服，要人为编辑，现在我们可以“一键试衣”，也就一句话：把第一张图里的衣服替换成第二张图里的样子，就完成了，是一张非常自然的图像，质量达到了非常高的地步。

还有一些非常抽象概念的融合，比如上面这张猫的图片，你非常喜欢，但是你只想改变这张图的光线、色彩分布，这件事情是非常难做的，对人而言，这都是非常抽象的概念，但是我们这个系统，可以一键把光线这件事情进行理解，能够把猫的照片，从一个明媚的早晨搬到一个歌厅里。

再比如你喜欢这张衣服，但不喜欢它的纹路，这又是非常难做的一件事情，因为你改变的不仅仅是换衣服，而是不换衣服，仅改变材质，这件事情可不可以做？也是可以的。如果达到如此精准的编辑状态，你可以想象，这在全世界将有无限的可能性，不管是中国还是美国，我想绝大部分的设计师都面临着失业，因为所有的事情都会被电脑替代掉。

再比如你有一辆非常好的跑车，但你觉得跑车的颜色不好看，你直接对它说：把第一张图里的车换成第二张图里的鼠标外观，如果你感觉这个效果满意，你再去4S店换你的车衣就好了。

再比如这个杯子，不改变样式，只改变成下图霓虹灯的样子，这也是非常难的事情，系统对文字的理解已经到了极致的状态，它可以区分出来什么是文字，什么是纹路，电脑的理解已经比人更深刻了。

我们也可以做女式的包包，以前需要设计师去设计图像的外观，现在你只需要把图像输入进去，就可以把纹路换成你想要的设计。这都是以前完全做不到的事情，不管你用什么大模型，不管用开源的、闭源的，不管一个月花一万美刀还是一千万美刀，你都是做不到的，我们这个月才完成这个事情。

再比如，你可以让一匹站着的匹马坐下，你也可以把一个雕像从玉的材质变成大理石的材质。

再比如把这只狐狸从最右边的质感，变成最左边水的样子，也是可以完成的（中间图效果），它可以变成非常真实、透明的、水材质的狐狸。

当你想把这个老人的姿势从左边的捂脸姿势，变成右边的握手姿势，可不可以？也是可以做的，中间图片就是呈现的效果，可以看到他的其他部分都不会发生改变。

这是我们这个月跟千问、GPT-4o、Nano Banana做的比较，在很多评测上我们超越了Nano Banana，这是难以想象的事情，因为我们只用了它的万分之一的资源，达到了这个效果。人类的未来，很多时候不见得要拼资源或者拼谁有钱，有很多聪明人能力在这个过程中杀出来，用最少的资源实现最漂亮的效果。

不仅如此，我们还可以把有两只在打拳的猫换成哈士奇在打拳。经常被很多人二创的《甄嬛传》，我们可以对这类视频再次进行二次创作，比如变成机器人给皇后捏肩。

我们还可以对图像、视频的生成做6~20倍的加速。你可以想象，这可以帮全世界节省多少资源。这个技术上了之后，对于每一个系统而言，可以节省95%的能源。

我们得到了非常多的荣誉和认可，得到了很多国内外媒体对我们的报道和认可。

在Hugging face上，我们有非常多的引用量。这是黄仁勋当时来我们实验室参观时拍的图片，它可以识别出来谁是黄仁勋，下面这张图可以识别出来哪些是人、哪些是机器。

最后跟大家做个总结。现在大模型的路径对不对？这是我在这三年时间内非常深度的思考。

一方面，我们觉得大模型有非常强的创造力。另一方面，我们觉得大模型会产生很多幻觉。一方面，我们觉得大模型是非常高智商的。但是他又会犯很多错误。在早期的时候，他不会数数，可能会给人类生成 6 个手指头，一些很简单的操作他会犯错，但一些很难的操作他也可以做到，这是为什么？

大家知道，人是很聪明的，人是世界上最聪明的动物，但世界上比人的大脑神经元更多的动物是什么？像大象、鲸鱼，他们脑神经中的神经元比人类要多，但它们没有比人更聪明。大家看着大象的脑袋那么大，神经元的总量肯定是比人类多的。但神经元的数量并不代表着它更聪明，因为智力是一个综合、多因素的结果，所以不仅是数量，更重要的是神经之间的连接方式，包括大脑皮层的复杂度，以及大脑与其他器官的配合程度等等。

现在的大模型，在一路高歌猛进，沿着更大、更强的方向走的时候，我们需要从另一个角度思考，大模型做得更大这件事情，只是它其中的一个因素。另外一个因素是神经元的连接方式。包括我的团队，我们所有学生以及所有年轻教授做的事情，我们考虑的就是如何改善神经元的连接方式，让同等神经数量的大脑变得更聪明。

这两个要点都非常重要，首先，Scaling Law 是基本方向，但是我们研究人员，或者说我们的业界和学术界现在做的事情是：考虑如何改变神经元的连接方式，让它在同等数量上变得更聪明，这两者我们都在做。

之前 Transformer 或卷积神经网络，都是在改变神经元的连接方式。最早的计算机视觉我们叫卷积神经网络，到后来的 Transformer，说到底，他们并没有在改变神经元的数量大小，他们改变的是连接方式，也就是改变每一个神经元和另外一个神经元之间的连接方式，这个改变是天翻地覆的，让整个大模型的智能提升了大概1万倍。

相信我们未来继续探索，还会有比 Transformer 更好的架构，能够把智能再提升 1 万倍。

未来，整个人工智能发展的重心是训练方法。训练方法是什么意思？现在大模型的训练是一次性的，一次性学完1万亿到10万亿参数，而它未来的学习方式应该像人一样，连续学习，像课程一样，从小学一直学习到大学，这才是真正的学习方式，而不是像现在这样让它一次性学完，这是我们在研究过程中得到验证的一个例子。

另外，今天我们看到很多教授讲的机器人，我们在整个领域里，包括投资界比较热门的机器人、机械臂，这是未来人工智能真正的载体。现在的人工智能是完全没有载体的，它是一个虚拟的大脑，它没有活动装置，它不能像人一样通过手臂、通过四肢去理解这个世界。

但未来如果加入了机器人的控制，人工智能的发展会越来越像人。而现在大模型和人之间真正的差距还是相当大的。我认为人工智能的未来发展重心是：一个是改变训练方法，另一个是感知载体。

我觉得AI与大模型一定会走向感知机器与终身学习结合的训练模式，这也是未来我们所有的学生、年轻人以及企业界未来发展的重心。而这个发展不会那么快，在未来五到十年的过程中都会持续性发生，但它的发生一定是不可避免的，同时一定会带来巨大的进步。

这就是我今天带来的分享，谢谢。雷峰网雷峰网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.