以ChatGPT为代表的AI技术,微软总裁纳德拉断言,每个软件服务类别都会发生根本性变化,如今,这已是世界上大多数科技从业者所达成的共识。
但是,在国外科技行业火热地投身到这股大潮的时候,中国的实践者却伤心地发现:国内对于大模型的研究近乎空白。大模型的发展速度与国内相比似乎并不乐观,尤其是近几年,国内大模型项目更是寥寥无几,更遑论有什么大公司出现了。仅有少数大型企业零零散散地宣布,将来会推出各自的大型型号,以及几个明星创业者透露将在这个领域创业。
基于此情况,创业公司MiniMax的「横空出世」无疑是一个意外的惊喜。它的出现让人感到了一种全新的力量——技术驱动。这家成立于一年半以前的企业,自创立首日起,就以大模型为重点研发方向。在过去的两年时间里,它完成了由二维到三维再到多维的发展历程。如今已具备了三种模态,涵盖语音,图像等基本大模型、文本中产生了不一样的内容。
在自研大型模型基础上,他们推出智能对话机器人生成平台Glow,现在已拥有近五百万用户,每天都有数以亿计的用户被呼叫。
ChatGPT大火之前,做大模型这东西要投入大,赛道偏门的,商业化前景但很不确定的愚蠢生意。在这个行业里,没有人愿意做大的项目。不要说普通创业者,甚至是那些拥有大量资源的互联网巨头,亦很少涉足或投资有限。这其中最主要的原因是大模型行业缺乏足够的资金支持和专业技术人才。并正是造成当今我国大模型空白的直接因素。
正因为如此,MiniMax出现在人们的视野中让人感到好奇。它究竟是怎样的一群人?在与几位前期会员及技术骨干交谈后,我们发现,这批人有着截然不同的遭遇,背景,却对AI抱有持续思考和探索的技术理想主义者。由于对AGI(通用人工智能)的信念,他们聚集在一起。
当有人惊呼技术长期主义很难生存时,这类队伍的诞生似乎是众望所归。
01
三大模式
MiniMax自创立之初,便选择了以大模型为重点研发领域。
MiniMax现在具有不同的容量、三个模态的基础大模型(foundation model):分别是Text-to-Text、Text-to-Visual、Text-to-Audio。
三种模式各自对应着不同形式间内容的变换和产生。这些转化和生成都有各自相应的实现方式,其中最基本也是最重要的就是要借助一个工具。Text-to-Text对应文本与文本间的转换(比如可以通过能够通过生成的文本回答提问),Text-to-Visual对应文本与视觉图像之间的转换(比如可以通过文字描述生成图像),Text-to-Audio根据文本产生声音。
大模型的建立是一项复杂的系统工程,MiniMax的创始人之一Allen(杨斌)使用了造火箭—所涉科技、论文公开发表,但是,这并不是说就一定能制造火箭。如果想要成功地完成这个过程,就必须有足够多的投入。而且作为一家创业公司,既要完成既定目标,又要投入有限时间,更要投入资源。
研究小组初期的葛温描述说,「每个技术判断,都会直接影响到最后的效果,每一个步骤都是串联在一起的,因此每个决定都是重要的。」而团队成员的技术背景各异,这使他们可以视角互补、充分探讨。
Allen告诉极客公园,该小组成立后,第一个里程碑就是用了6个月时间,将3个主要模型达到了世界领先水平。它考验着团队在一个个的技术选择中做出正确的决策,这也鼓励他们对更基本,更底层的科技进行更多的探索。Allen说,「我们在底层技术上,做了通常创业公司不太会做的事情,」
在MiniMax自研技术中,底层是为了支持大模型所建立的硬件基础设施,即用有效的GPU来提供对语音和文本的稳定和可靠并行计算、视觉多模态计算等内容,自训练计算能力高,同时还具有较强的适应能力。它在底层架构上采用了一种“自上而下”的设计方式,即从上层软件开始,逐层构建高性能计算平台,然后再到硬件资源层进行应用开发。通过该基础设施层,向大模型提供数据,算力等养料。
在技术先进的同时,大模型以向外输出服务为最终目标。在这一过程中,我们将把最优秀的设计和开发成果进行集成,形成一个完整的解决方案。该公司于去年11月份推出了首款产品:Glow。在这之前,我们做的都是一些小应用。4个月后,App的用户数接近五百万。
有网友称Glow是第一人称视角的开放世界,小组认为是恰当的。它是一种沉浸式游戏模式,以人工智能技术作为核心。选手们通过与AI驱动智能体进行对话,为了构建属于你的天地。在这个过程中,除了会产生虚拟人物外,还能感受到与其他参与者的互动。Glow可以提供与各种不同的「人设」智能体交谈的经验,玩家可选择现有智能体,例如,它也许就是小说《三体》里的一个人物,还能独立地用文字来形容个性,「捏」出来你的智能体。
Glow对MiniMax来说,是跑通大模型与现实世界互动。我们将这个系统叫做“智能体在移动环境下”,它是一个面向应用开发的开源框架。通过该产品,大模型具有以特定方式为用户服务的功能。它是一种能够与人进行对话的工具,也就是我们所熟知的智能体来模拟人的行为。例如用户能够用语言来描述,生成智能体头像,从Text-visual图像生成能力;也可从文本描述中提取语义特征,从而得到一个人的声音。不同智能体,具有不同音色与音质,这是Text-audio的语音生成。
在Glow中就能建立你自己的智能体了|出处:Glow
Glow现在每天都会被数亿个用户呼叫。为了把大模型所具有的功能这么大范围地呈现在大家面前,从技术上讲,需解决低成本,高效率的问题、稳定性面临挑战。所以基于模型,MiniMax搭建了一个推理平台(Computing Platform)。
Allen形容「怎么让一个很重的东西用起来很轻?这其实是一件工程难度非常大的事情。」未来,该推理平台将支持更加广泛的用途,通过这些运用,模型和现实世界中人的行为之间存在着广泛的相互作用,并且数据会指导模型的不断迭代。
02
信奉AGI的队伍
MiniMax成立于2021年12月。队伍中多名核心技术骨干,多出自国内外著名AI公司及科技大厂。
葛温(花名)毕业于约翰霍普金斯大学,10年来,他一直在大学实验室中学习计算机自然语言。在他看来,人工智能就是人和机器之间的一种互动方式。葛温是美国微软总部的学生,也是他毕业之前最后的实习,其间触及生成式对话系统,科技的可能使他激动不已。
「做自然语言处理,想做的就是一个能听懂人话,能跟人交流的一个算法、模型,或者智能体,这是我读这个专业的初衷」,能够做到和真实世界中海量用户进行互动,以及从这些语言模型中进行反馈和迭代,正是对他进入MiniMax等创业公司最为着迷。
创始人大葱(花名)曾就职于商汤,坚信AI可能,不过,历经了前几次AI浪潮后,还深入了解了前几代AI技术范式存在的局限。
在以往,AI技术团队都是基于特定应用场景来自定义一个个模式,模型不断增加,却无法真正打通,长期保持数以百计的型号都是真实的。随着人工智能研究不断深入,越来越多的人将目光投向语音识别和自然语言处理等领域。哪怕是耗费很多的心血,使技术水平越来越高,AI技术对现实世界的冲击则日益受限。自2018年GPT-1问世以来,他一直专注于语言模型的发展,渐渐认识到语言可能是交互界面,将不同模态进行融合等技巧。
Allen以计算机视觉博士为背景,在海外留学时,他曾是Uber ATG研究院创始会员,历经研究院整体搭建过程,还体验了Uber自动驾驶团队打包销售的场景,后以创始会员身份进入自动驾驶初创公司Waabi工作,在数据驱动端到端系统方面积累了丰富的经验。在回国之前,他已经参与了多个项目的研发工作,比如无人驾驶汽车和无人物流车等。Allen于2021年与现任合伙人相识,他们时不时地交流一下最新论文的突破。一步步突破,让他感觉AGI(通用人工智能)离自己越来越近。
对于团队来说,2020年至2021年,不同行业发生的三件小事,使他们坚定地认定AGI已经降临。
第一件是GPT-3,于2020年6月份正式上市。这款机器学习产品是基于深度学习技术设计开发的。模型参数量由以往百万级别、亿级上升到千亿级,训练方式亦由以往的数据标记转变为多种语料上进行学习。参数量与数据量双量变,触发奇妙质变,让GPT-3具有了推理能力,并形成以往AI模型没有的一般泛化能力。
第二则发生在六个月之后,即2021年1月份,跨模态模型CLIP的出现。在这一年中,人类第一次将“视觉”与“听觉”进行有机融合,并首次提出基于多模态理论的跨模态文本分类算法。CLIP既可以实现自然语言对图片的解读,也可以用文字描述的方式产生画面。它把语音转化为文本并在一定程度上对其进行编辑处理。这就为语言与文字这两种不同媒形式之间的过渡开辟了道路。它可以让用户在理解文本内容同时也能看到图片,从而提升信息传播效果。OpenAI随后发布的Text-to-Image生成工具DALL-2便是基于CLIP模型技术。
这事儿有什么用,以往,对于不同模态,必须设计出不同专有模型,目前,一组技术框架能够处理各种模态下的数据,并且能够实现很好地跨模态生成与转换。
第三个是6个月以后。这让人们对未来无人驾驶的前景产生了极大的兴趣,也为人工智能领域的研究带来了新的方向和动力。2021年7月,特斯拉向AI Day演示最新自动驾驶技术,首次验证了该端到端全数据驱动技术路线,可成功用于现实世界中自动驾驶汽车。此后,世界上绝大多数的自动驾驶公司都在慢慢地信任,端到端的深度学习,本来真能work到现实世界。
Allen认为,有3件事情是在各种行业中发生的,由他们本可以一直抱有AGI梦的人们串连而成。他们认为,AI技术必将在今后两三年内发生质的改变,实现质的提升;在这一提升的基础上,AGI也许会在这一代人有生之年降临。
于是特斯拉AI Day落幕4个月之后,MiniMax诞生了。这意味着一个全新的汽车工业时代即将到来。据研究小组介绍,MiniMax,那时设立,大概是全国首家All in AGI。
还发生了一件有趣的琐事:在创业筹备阶段,队员中有几个非常喜欢打底特律变。他们把机器人当作一种玩具,让它做一些简单而有趣的动作来模拟人类的思维和行为。Allen认为,游戏描绘的是AGI达成后的场景,人类和机器并存的年代。
在他看来,将来人机共生的局面必将成为现实,机器人可以是实体的,亦或是虚拟的存在,但其智能完备程度如何,都能让它和人类之间产生一些实实在在的联系,也许提供生产力,亦或是感情相伴。
用户共享Glow中创造的情节|出处:小红书共享
03
「User- in-the-Loop」 「User- in-the-Loop」
「ChatGPT火起来之后,我们觉得很开心,这下省了很多教育市场的气力。」在一场小型的媒体沟通会上,MiniMax一名创始会员在与出席该事件的记者对话时表示。这是该公司在过去14个月内首次正式小范围露面,企业很少向外界发出自己的声音,始终默默地进行着技术与产品的研发。
ChatGPT付费账户,用户仅用2个月时间就超过1亿户,也使其成为一个新的生存状态。它的出现让我们对付费模式有了新的认识。本身就是个庞大的模型,但是其受欢迎程度,使用频率等,这也让它变成了与「产品」相似的人。
「ChatGPT这件事最大的启示似乎是验证了我们在做的这些事情,确实是有需求的。」葛温认为这是对自己莫大的鼓舞。
Allen认为,这是目前大模型中最为神奇的一点,「当它足够通用,泛化能力足够强,它本身就有足够的多任务的通用能力,很多时候就可以直接拿来用」。
当前,已出现了不少拿ChatGPT来修改编码Bug,查资料,写论文的人、甚至试图将其用于报告的产生,人将按需要加以利用。使用门槛够低、可为各类人所用,使大模型自然地具有一定的产品属性。
「AGI公司其实也是一个全新的公司类型。」Allen在沟通会上介绍道,各大模型公司已经不去以AI技术为依托,进行有针对性地解决,而是从多种途径,使得更多的人能够直接和科技动态地接触、实时更新互动。
在该系统中,本来toB、toC这两个概念就已经无关紧要了。在这个平台上,用户可以通过使用不同类型的服务来获得相应的收益,例如,我们提供了一个针对于消费者的信息推荐系统,而这个系统的核心就是将用户划分成多个用户群。大葱表示「我们不太会刻意地去区分这一点。其实主要的还是我们能够覆盖多大的用户群体,给他们带来多大的效率提升、或者其它价值」。
可想而知,2021年MiniMax刚刚创立的时候,刚开始创业的时候,逻辑就可以使他们找到投资人、合作伙伴乃至员工的时候,一再碰壁。「没有办法说服投资人,因为没有人能听懂,我们说非常多次,也没有几个人信。」一位创始成员说。
一头为核心技术,另一头为特定使用者,两头中间,做到真正顺畅地反馈与联动。这个过程中,如何让双方都能够充分参与其中?在当前MiniMax中心思考逻辑中,团队将其总结为「User-in-the-Loop」。
Allen说,这一点的启发还是来自2021年的特斯拉AI Day。AI Day中所演示的许多科技的初版学术原型,来自于他与几位昔日合作者之间,但特斯拉却在无数辆汽车上装上了这些科技,与真实世界中用户互动,反馈迭代。
「我觉得它教会了我一件事情,当你有一个非常前沿的技术时,怎样以一个商业公司的角度,放在真实世界中,make real impact for everyone.」
当有人问我下一步有何计划,团队成员最喜欢的说法是「按自己的节奏来」。团队中很多人都认为今年应该不会做大规模的研发工作了。他们说今年将公开该模式的API,下一步还将依据该型号的容量进行新产品开发。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.