大模型的能力边界在哪里?中美的大模型能力差距有多大?Transformer架构能走多远?
在九合创投12周年年会的“AI专场”圆桌对话环节,九合创投合伙人谢振亮对话硅基流动创始人袁进辉、CreativeFitting创始人朱江、行者AI创始人尹学渊和心影随形创始人刘斌新,分享对大模型未来发展的思考和一线的实战心得。
Key Takeaways:
Agent的大面积推广、成熟和落地卡在模型的规模化推理能力上,需要进一步提升。
To C大模型和To B专业化工具之间有三个词:一致性、高可控、高精度,三者需要在垂直场景里落地,不同的应用赛道有特定的know how和数据,这是大模型所缺乏的。
模型不等于产品,做应用的核心是围绕用户需求,要对当下和长期的模型能力做预判,哪些是模型可能很长时间都没法解决的问题,需要企业自己来做。
可能有一天Transformer变种到一定程度,就出现了新一代的架构,在这个变化的过程中已经能够解决很多问题。
首先请各位做一下自我介绍
袁进辉:我们是国内最早坚定相信大模型这个发展方向的创业团队之一。2016年,我从微软出来做AI Infra的创业,成立了一流科技,当时希望解决的问题是模型变得很大之后,底层架构该怎么做,基础设施怎么做。当时啸哥认同这个方向,给了我们第一笔来自机构的投资。自成立起,一流科技一直致力于研发,在2023年被并购,成为第一个让股东赚到钱的AI Infra公司。2023年8月,我又重新创业,成立了硅基流动,目标是让大模型使用成本降低1万倍,从而让AI原生应用蓬勃发展。
朱江:我是一个连续创业者,第一次创业做了AI+内容的输入法公司,在美国纽交所上市;2021年再次创业做AI生成视频,自研了故事类的视频大模型,去年年底推出了全球第一个AI短剧App,希望在新时代里做出一个超级应用。
我们和九合非常有缘,创业之后行业有一个小的低谷,赶上疫情,2022年12月12日我来到九合的办公室,整个大楼除了九合,其他公司都居家办公了。我很幸运,在ChatGPT出来两周的时间就拿到了九合的投资,也有了后来的一系列的发展。
尹学渊:在2022年ChatGPT火爆之前,九合就投了我们,我们一直在做人工智能+游戏这个赛道。整个游戏行业的生产力很低,生产成本很高。我们公司的目标是把游戏这个非常复杂的系统工程,用AI的手段做降本增效,提高大家的生产效率,降低成本。去年我们实现了几千万的收入,在“AI+应用”这个赛道上,我们是为数不多能挣钱的公司之一。
刘斌新:我们是从游戏场景切入做AI情感陪伴,第一个产品是“逗逗游戏伙伴”。在半封闭的游戏场景里面,除了打游戏,很多在游戏里的情绪价值都没有得到满足,所以在游戏里有很好的情感交流机会,同时在游戏外也可以聊天,实现陪伴,我们的产品在海内外上线之后,很快得到了不错的用户反馈。
大家都位于AI创业的一线,从目前大模型的效果看,能力边界在哪里?哪些东西已经做得很好了,哪些需要团队从其他的角度来弥补?请各位谈谈在一线的体感。
袁进辉:语言模型有三个基础能力:第一是语言能力,生成比较符合人类自然习惯的序列,目前语言能力已经非常好了;第二是知识,分为常识和知识,目前大模型做的不够好,但是通过RAG等辅助手段可以满足使用;第三是推理,现在做的不太好,水平最高的大模型GPT-4在这方面也不是尽善尽美。Agent的大面积推广、成熟和落地还是卡在模型的规模化推理能力上,需要进一步提升。
朱江:视频模型最近一年进展很快,尤其在高分辨率和视频时长方面,但是故事视频生成的能力还不是特别好。最近我们跟一个国际导演合作,参加了上海电影节的AI电影马拉松大赛,。在和导演的磨合过程中,控制是一个非常重要的因素,包括精细化控制演员、场景情感、角色矛盾冲突等等。未来在这个点上可能会分化两个方向:解决物理世界的模拟,和可控视频生成。其实国内的模型并不差,至少我们在这个场景里做的还是不错的。
尹学渊:大模型有点像个非常聪明且好学的高中生,如果成为从业者或者生产力工具,还需要输入专业知识,进行定向且专业化的培养。在人工智能四大要素“算法、场景、数据、算力”中,算力是可通用的,在每个行业不同的场景有不同的know how,不同的数据输入,这方面是大模型缺乏的,不同的应用赛道有特定的数据。
To C的大模型和To B专业化的工具之间有三个词——一致性、高可控、高精度,这三者需要在垂直场景里落地,这是今天大模型的边界。我认为,未来在每一个场景下,不管是做医疗、游戏、娱乐,任何一个赛道里这都是一个非常关键的卡点。
刘斌新:要相信大模型,依赖大模型,但不要迷信大模型,模型不等于产品,做应用的核心还是围绕用户需求。我们之所以从“AI+娱乐”场景切入,因为娱乐中的幻觉和错误不那么致命,反而我们可以发挥一些优势。总结而言,要特别清楚模型边界,以及未来可能发展到哪个阶段,哪些东西是模型可能很长时间都没法解决、需要自己来做的,哪些是有机会解决、不需要企业做的。我们要对大模型当下和长期发展做出清晰的预判。
从一线来看,中美在大模型能力上有多大的差距?国内模型的能力在应用场景上表现如何?
刘斌新:国内的模型发展很快,客观来讲国内的模型可以相比GPT-3.5的能力。我们自己的模型是在开源底座的基础上训练的,训练出来的效果在线上的真实环境来看,比GPT-3.5要好50%,跟GPT-4比还是有差距。美国的优势会持续存在,而且是在比较长的时间内,算力、算法、数据都有一定的优势。美国也很卷,算法进步非常快。
尹学渊:今天国内很多模型的能力和国外的差距并没有那么大,特别是结合场景的know how之后训练出来的模型并不差,可以带来更多的机会。所以大模型推理成本、训练成本的降低对应用生态实际上是一种利好。
朱江:从基础模型的角度来说,国内的模型相对海外有差距,但这种差距在不断缩小。从应用公司的角度,我们的战略是跟随策略,保证AI应用模型能够在第一梯队。做应用的公司有自己的模型能力,保证模型能力是最领先的那一代很重要,当下追求第一名并不是最关注的问题。相比之下,抓住用户的需求是有机会窗口的,这一点非常重要。
袁进辉:现在国内外模型能力肯定存在差距,但是差距在缩小,好几个国内头部的大模型基本上接近或者达到GPT-4的水平,GPT-4有不同的版本号,应该超过了最早推出的水平,但是还没有达到今天最新版本的水平。未来随着GPT不断迭代,也许还要有很多路要赶。如果是GPT-5没有大的变化,则说明遇到了天花板,我们肯定会追赶的更快。最后,今天国内大模型的能力肯定对于很多的应用都是够用的。
国内大模型公司已经开始卷了,纷纷在降价,这个问题大家怎么评价?
袁进辉:价格的下降是必然发生的,现在只是价格战提前来到了一点,很多公司一定程度上是出于营销的目的降价,实际上现在的使用量还没那么大,即使降价,还不用补贴很多钱。综合来说这是好事,能促进应用的蓬勃发展,也能让整个行业更加关注怎么解决价格问题。在这个阶段,如果不能从技术上真正解决架构问题,那降价是不可持续的,今天真正敢参与这个游戏的,要么有钱,要么就是技术很牛。
朱江:首先从做应用的角度,降价肯定是好事,成本降低了;第二,对整个模型的发展来说也是好事。创业要想好场景是不是有商业价值,不管做模型还是应用,都要回到商业的本质,能够满足用户诉求,最终产生一个正向健康的商业。
尹学渊:对于创业者来讲,第一机会变多了,当然如果只是不计成本的打价格战,对整个生态还是会造成一些影响,而且很难长久持续。价格战带来的机会建立在有实力、有技术的基础之上,通过技术去优化成本,而不是赔本赚吆喝。
刘斌新:价格战的背后就是大家没有差异化,此外成本降下来是应用爆发的前提。如果成本很高,原来GPT-4那么高的价格不可能做应用,而伴随成本下降,可以诞生更多的应用,更多的把思考集中在对用户的价值上,回归到产品的本质。
你们怎么判断基于目前Transformer架构能真正走多远?大家心目中AGI的程度是怎样的?
刘斌新:大家对AGI并没有一个标准答案,更多的是把AGI当做一个符号,是大家追求的目标,这可能会更好指引大家的发展。当然只靠Transformer是不够的,可能后面的架构各方面都会变化,AGI会发展的比较快。回到具体行业,不用迷信大模型,做应用的过程中,我们不能指望AGI实现了才能做好产品,核心是两点,第一用户的价值,第二大模型的技术能力发展,能解决哪些问题,要做好判断。
尹学渊:从技术的角度,Transformer这个模型在当今的人工智能赛道无疑是一颗明星。AGI的终局是真正达到或超过人的智慧,Transformer架构不一定能走到最后,会卡在某一个特定的点上,最后可能会衍生出一种全新的架构,把人工智能又推上一个新的高潮,这种概率是很大的。
朱江:Transformer架构的优点是通过注意力机制能够解决上一代神经网络算法的问题,缺点是推理速度比较慢等。现在Transformer也在各种变化,可能有一天Transformer变种到一定程度就出现了新一代的架构。
袁进辉:我也赞同前面几位的观点,从理论上来说Transformer实现不了最高等级的想象的AGI,但是它可以近似,在这个过程中已经能够解决非常多的问题了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.