网易科技讯 9月21日消息,由网易新闻和网易科技主办的“2018网易未来科技峰会”之“ALL IN时代”今天在北京举办。拼多多联合创始人兼首席技术官陈磊以“分布式AI:数据和决策链路的新思考”为主题发表演讲,探讨了未来分布式AI的发展前景。
陈磊说目前拼多多正在通过分布式AI优化消费者体验。场景、用户、算法、大数据和计算力是一个大数据流量平台的核心要素。“我们需要一个场景服务用户,需要用户产生数据,需要算法计算数据,通过算法去总结出模型,这模型能够为消费者的进一步决策提供帮助。”
目前传统的互联网平台多为集中式AI,但陈磊认为这种方式也产生了一些问题:一个是智能设备可收集更多数据,同时也暴露用户更多隐私;第二是云计算对于计算资源的深度抽象,从2B转向2C,这些数据对消费者也有意义;另外目前用户对数据缺乏自主权,被排斥在决策之外。
陈磊认为分布式AI有机会沉淀更多场景数据,能够深度优化决策;未来云计算成为像水电煤一样的公共事业部门,这就使得用户重新获得了对决策的主导权,同时共有数据和私有数据产权更加明晰。最终开源的、被公众审核的算法,对用户来说也是更加安全、公平。通过分布式AI可以实现公有数据对所有用户的开放,算法变得开源变得可选择,在社会上可以供所有的用户去监督。整个数据的决策控制逻辑将会重新构建。
“未来,每人将拥有一个专属的智能代理AI”,陈磊这样预测。他说AI的算法并不能通过把数据收集起来就能够满足所有人的需求,但是智能代理能够帮我们决策。“未来的互联网更加强大的领域就是赋能于个体,分布式AI归根到底还是让每一个人做决策更快,更有效率,更精准。当每一个人的能力都增强的时候,整体效率就能提高。”
陈磊认为在变化特别快的环境里谈核心竞争力很难,更重要的是要有思维去思考消费者需要什么,基于此不断进行调整和改变。在谈到拼多多未来的发展时,陈磊说一方面在比较细致的层面,我们找到了适合自己的模式,未来发展就要靠执行,花极大的精力把每一个细节优化好;更大的层面则是依靠分布式AI这样的策略,服务大众,赋能个人。
陈磊还表示,做一个模型也好、开创的商业模式也好,“最重要的一点你要从消费者的角度出发,你要不断的去思考消费者需要什么东西”。(孟倩)
以下是陈磊演讲全文:
陈磊:大家下午好,很荣幸来到北京跟大家一起进行交流。今天我要讲一个话题其实在公司上市的之后我们对外公开信也提到,我们拼多多的平台,希望未来分布式的AI来优化消费者的消费体验,以及优化整个中国的产业链。很多投资的朋友们就来问我什么叫分布式的AI,今天正好借助这一个机会——网易未来科技峰会,我想和大家一起分享一下我们自己的一些想法。
我们知道投资人讲过一句话“要投一个好的赛道”,中国什么叫好的赛道,我觉得两点,第一点离钱要近,第二点是数字化大平台。我们的理解,什么叫数字化大平台,就是说你能够控制流量的走向、然后你能去优化消费者,能帮消费者做决策。作为数字化大平体有五个重要的元素、场景、数据、算法等。你需要有一个场景去服务用户,然后你从用户那边获取数据你要有算法,你需要有一个地方计算这结果,听取消费者的反馈。
传统意义上来说我们去看,大家都会讲一个概念,集中式的AI是什么意思呢?就是说我们通过场景能够给消费者搜集到数据,这数据汇集在一起,通过算法去总结出模型,这模型相当于是能够为消费者的进一步决策提供帮助。这里我们会看到一个正向的反馈,越多的数据你的算法越精准,你的结果个性化越强,给消费者更多的帮助。消费者满意度越高,越精准的结果,如此往复相当于存在一个正向的正循环,比如说电商做好服务你可以扩展到其他的场景,场景越来越多收集的数据越来越多,能够提供的决策越来越多,最后希望的结果就是财源滚滚。
这个模式好像特别好,我们也很荣幸能够让我们自己的公司沾这样的光。但是每天早上当我们醒来的时候,也有一点慌张,就是太好了。其实这一种中央式的AI会有什么问题呢?当我们静下心来好好想想的时候其实问题还是不少的。首先我们来看最重要的一个问题我们觉得就是在经济学理论来说,所有权的问题是一个非常重要的问题,当然一个资源的所有权不明晰的时候就会带来各种各样的问题。如果我们去看中国现在的互联网服务大数据平台,很大的一个问题就是所有权是不清晰的,比如说我们去电商平台,理论上来说你的所有商品信息应该是公开的,但是其实中国没有任何一个消费者能够是说把一个电商平台所有的数据下载到自己的系统里去分析,就是一方面公开的数据并不多。另外一方面大家很关心就是所谓隐私数据并不隐私,我自己的数据我的地理位置、我的设备、我的性别、我的年龄,很多的信息逻辑上来说不应该被平台所看到,但是因为历史的原因大家都在收集,这一种所谓的公开数据不公开,隐私数据不隐私,应该说互联网发展20年我觉得早期来说灰色地带都存在,但是纵观整个世界的发展,我们看到欧洲的GDPR包括中国这边对个人消费者隐私保护越来越健全,我们预测到未来这一种情况会有极大的改变,公开的东西必须是完全的公开隐私的东西只有消费者看到。
另外一个考虑到算法,我们十年前所有互联网这一种流量平台的算法,很强调的一点叫可解释性。就是说我制定的各种策略,我希望至少策略自定人自己是知道怎么回事,他知道自己在做什么。我希望是我的策略维持一种公平,让所有的消费者在同一个起跑线上没有歧视。到了2018年今天我们大家知道所谓的深度学习,这一种很复杂的模型可能有上百层的归纳结构的模型,被应用在这一种机器学习的场景上。当你把数据扔进去的时候,很有可能出来的算法是不对的,但是设计人本身并没有办法完全的意识到这一点。
其次就是消费者,那消费者其实是很矛盾的,一方面他觉得就是说我的数据交给了平台,我觉得我不信任你去保存这一个数据,他会认为平台本身的能力是不够的,但是他要同时对这平台算法寄予很高的希望希望这算法解决所有的问题,如果我们最近看互联网发生的事情就会明显的感觉到消费者对平台输出的结果、提供的决策要求是越来越高的,他会觉得是说你必须帮我做好这一切。
最后还有两点一个是场景,场景发生了什么事情,我看现在的手机也好,或者前一段时间苹果发布的Iphone,收集到越来越多的数据,包括地理位置、以后你的体温等等各种的因素,你的脸部等等。场景收集了大量的数据,这一些数据本身希望能够被利用,但是你又不能输出给平台,因为又担心会有更多隐私的暴露这又是一个矛盾。最后一个矛盾就是所谓的计算框架,我们去看整个云计算的发展是在朝着什么样的方向发展,最早以前是主机然后是服务器,到了现在最新提出来更加抽象的计算方式。一层一层的抽象使得计算能力本身慢慢的由一个2B的服务转向2C服务,也就是说云计算所具备的能力并不希望团队去研究怎么用,我预计到未来普通的消费者也能知道我怎么利用云计算的功能为自己服务。
所以我们认真分析这五个元素就会发现,这五个元素产生了一种凝心力,也就是把原有的框架框在一起会发现越来越困难。我们预期的未来会是什么样呢?这个图可以来解释一下,我们预期在未来公开数据和私有数据是严密分开,所谓的公开数据就是所有人都可以引用、都可以访问而且是全量的访问,而不是片面的。而隐私数据存在消费者本地,这消费者的本地作为决策的中心,来决定这消费者现在做什么,需要什么样的数据什么样的结果,他会把这数据上传到云端,就我们今天讲的云不仅能够做数据的处理,它还试图去理解数据,当这数据为企业做一点什么事情,但是我们的未来我们预期就是说这云计算本身它只是一个提供计算和存储的公众的工具,就像今天的水电煤我需要计算数据做处理每一个消费者都可以把数据提交到云端,处理完了就交给我。同样我们看算法,AI算法也会有现在的大部分B语言慢慢开源的AI,也就是说每一个算法本身它有什么作用,需要什么样的输入数据有什么样负面的作用和正面效果都会呈现给消费者,消费者本地代理就会做出智能选择,作出的选择最后产生的结果就回传到场景,由于场景里面全权的控制自己的逻辑,所以说场景里收集到的数据可以全量毫无保留的给消费者做决策。
在这一种情况下我们看到更多的数据,可以深度去优化决策,云计算下水电煤一样所有的消费者都可以直接去用,用户重新获取了决策的主导权而不是仅仅依赖于平台告诉我做什么。数据本身有了公有和私有的界限,公有相当于对所有的开放,算法变的开源变的可选择,可以供所有的社会去监督。整个数据的决策控制逻辑将会重新构建。这就是我们的未来觉得在所有的分布式AI实现的功能,但是这里有一个很大的问题我们意识到就是说我们今天做的很多所谓大数据决策,它其实利用到了人类作为整体的一种整体行为模式,也就是说单单有你自己的数据不够,你还要对比你的数据和别人的数据,你的行为和别人行为的差异性。就好像一个小孩子他要不断观察的父母去观察他的父母在什么场合做什么事情才能学习提高,你光认识你自己这数据是有局限,一旦我们能够构建这一种基于消费者的智能代理之后,这一些智能代理之间就可以构建一个新一层网络,也就是智能代理之间可以共享自己的决策、共享自己场景中判断。就好像你和你的朋友要谈心你们可以聊着人生的看法可以聊对未来的计划,但是你不可能说两个人把自己的隐私互补,你们并不需要把自己的隐私交换,你们只需要对事情判断的结论,而且你每一个人都有这能力去控制我针对其他人我想暴露什么数据给他,如果我觉得不合适我可以全部去控制。
通过这一种智能代理的网络,我们相信能够解决的问题是说,我们让每一个人在保护自己数据的同时,也能够享受到人类一种社会化行为所带来的好处。这一种智能的网络,不仅可以用来优化,个体的决策,而且我们预计到它还能做更多的事情。就想象一下,今天的股票市场有买有卖,有人买多有人看空,正是因为不同人作出的决策反应了整个经济的行为,主导了对经济资源分配。这一种智能代理的网络,将来我们预计也这有一种能力,就是我们现在之前有朋友说计划经济后来我们转向了市场经济,通过市场来主导供需的关系,当然随着AI的兴起就是有一种理论是说我们为什么是要市场经济,我们如果把所有数据归集到一起很牛的模型可以解决这一切,这不是我们预见的情况,我们觉得是说AI的算法并不是能通过把数据归纳的方法主导所有社会上的行为,更多的情况每一个个体作出独立的判断,这一些判断之间通过网络模拟的方式来做决策。
假设是说你有一个商品你不知道什么好卖,我们预计未来你可以把这一些设计,一起输入到这网络里。智能代理之间的沟通能够帮我们决策,什么样的东西是爆款。由于这一些程序来做的事情而不是每一个单个的消费者自己去做,所以效率会高千倍、万倍,所以我们做各种各样的商品都可以利用这方法来做。
本质上我们去思考是说分布式的AI到底是什么。就是我们觉得前面的一代互联网大家很强调一点就是服务大众,我们希望为消费者提供一些服务,能满足他们的一些需求,但是我们觉得未来的互联网应该更加强大的领域就是赋能于个体,让每一个人做决策更快更有效率,更精准。当每一个人的能力都增强的时候,整体效率就能提高。
因为我们谈论资本这里面就要有一个很重要的问题,就是说是不是所有的模式变更就是都能带来资本上的丰厚的回报,如果我们去看开源软件,我们今天知道开源软件是200万美元,跟整个互联网比起来是非常小,可以理解开源软件本身非常大的限制软件的生长,但是正是由于开源软件激发了另外一个领域的蓬勃增长也就是互联网,我们看今天的谷歌、Facebook也好,都极大程度增加自己的生产力。我们今天讨论还有分布式AI,资本应该怎么样去助力分布式AI,是怎么着到这个点,相当于大家有利可图,同时又能够促成消费者的价值这是值得大家思考的。
好,我就说到这里。
主持人:您刚才对人工智能+数字产业做了很多预测,应该说在内心深处我能够感觉到您觉得开源、开放、分布式这一种是大势所趋,在未来的公司中核心竞争是在哪?是像拼多多优先找到优先掌握数据、优先掌握更好的算法?还是什么是竞争?
陈磊:我觉得变化非常快,谈核心竞争力很难,但是思维方式比如说我们做一个生意我们做一个模型也好、开创的商业模式也好,最重要的一点你要从消费者的角度出发,你要不断的去思考消费者需要什么东西,现在这一种商业模式,有哪一些地方使得最终消费者不公平,对他不方便的,他有什么东西需要。就是说你一定要改变,你不断的去调整自己去理解消费者现在最需要,并在这一方面有所突破。
主持人:我听上去反而技术不是最重要的门槛,数据也不是先觉先知的意识。
陈磊:我觉得很多时候是一种勇气吧,如果很多时候消费者导向是你核心的文化,即使你发现这历史的走向、消费者的价值导向可能跟你现在的模式有所冲突,你仍然投入大量的资源往正确的方向走,首先就是要走对的事实
主持人:拼多多上市非常恭喜,在往后的竞争中拼多多的模式不能复制吗?
陈磊:我不明白您说的不能复制。
主持人:拼多多的模式也是可以复制,如果说先知先觉的创新意识,服务市场的意识优先,拼多多2年3个月走了很多人五年十年的路,未来拼多多要靠什么?
陈磊:我觉得最基本要执行,你要花极大的精力,把执行的每一个细节优化好,这是细的层面。更大的层面我刚才说的分布式,我不知道在座各位能够相信这一个故事,我们自己是相信这一个故事,这里就是一个决策上不一样的地方,我们自己是在这一方面是有投资,我们在这一方面是愿意付出。