主持人:下面请上下一个时段的主持人郑毅。
郑毅:今天大家听了一天的会,到现在还都能留在这儿,说明大家对大数据这个问题是很感兴趣。我这里面也是借助周涛教授最新的一本书序言里面的一句话,里面说某些观念有时会以惊人的力量给你知识,带来巨大的机会。这些知识能解决很大的问题,它们似乎有希望解决许多基本问题,澄清许多不明了的一点。每个人都迅速抓住它们,作为进入某种新时政科学的法宝。李丰先生主要做的投资方面比较多一些,我也想问一下,是不是在大数据领域是的出现了一些和大数据相关的公司?
苏萌:百分点做的是依据大数据,为终端消费者提供个性化的信息服务。我们的几个主打的产品包括百分点推荐引擎,百分点分析引擎。推荐引擎主要应用在电子商务网站上,同时应用在很多的媒体上。
郑毅:我们是在为企业提供大数据的解决方案,这种应用模式是不是已经成为了产业的应用模式,在推广的过程中会不会遇到其他的问题?
苏萌:推荐引擎是比较新兴的行业,在美国和欧洲有几家公司,早期在模仿亚马逊在做,国内其实也有一些企业在做。像腾讯、百度这样的终端企业都在做,我们做了模式可能跟某些家不太一样的地方是,百分点希望做的是打通用户全网的行为,构建用户的全轮廓偏好的分析。基于全网的数据,就像我们在做一个拼图一样,每个企业都有自己的一块,在拼自己的一块,我们希望能够在一个个信息孤岛之间建立一座桥梁,这个桥梁能够帮助我们更好的拼出属于自己的拼图。
糜万军:亿赞普在国内跟移动、电信、联通合作,在国外像西班牙。我们一方面是帮助运营商转型,另外一方面也是帮助解决媒体跟用户的利益。
郑毅:王总是腾讯的,大家都知道腾讯是什么样的公司,您也介绍一下我们在大数据方面的工作。
王益:我在腾讯负责的业务是广告,腾讯是中国互联网公司中拥有的用户群最大的一家公司,所以腾讯的广告业务和其他的公司有很分明的特点。腾讯的广告更着重于个性化的广告,更着重于广告及内容。
李丰:正好我们在一个礼拜之前,内部为主也召开了闭门的大数据论坛,基本上你们就知道我们对这个行业是非常看好的。过去一年当中,新投的跟数据有关的企业大概有4个。当然我们也非常高兴百分点是其中一个,而且是大数据系列投资当中的第一个。我们在投项目的时候,当时去看的时候,看见周涛的时候,也对大数据第一次产生了印象。他给我一张名片,很年轻,周教授,我也不知道他是什么背景,拿到名片一看,博士生导师,教授。因为这件事才接触到百分点的大数据,最终我们也非常高兴投了百分点,虽然前途未卜,至少是良好的开始。
郑毅:在大数据时代数据是关键,不管是百分点公司,还是亿赞普公司,还是腾讯公司,都是在用不同的业务模式来获取数据。数据的获取,还是数据隐私方面以及数据安全方面会有什么难点和痛点,请苏总分析一下,百分点公司是在为电商做技术服务,我们有没有具体实践方面的经验和思考跟大家分享一下。
苏萌:百分点做的事情非常简单,通过对电商企业提供技术服务,这个技术服务是帮助他们做个性化。我们会分析用户在这个场景下的意图,根据我们积攒下来的用户历史的行为,以及利用群体的智慧,跟他很相似的用户他们的偏好,实时的为用户他的每一个购物流程的环节实时的推荐他要购买的商品,以及在媒体上实时的推荐他最可能感兴趣的文章。这是我们在做的一件事情。在提供技术服务的过程中,我们也积攒了大量的心得和在推荐领域的知识,我们希望能够帮助我们服务的企业能够迅速的提升用户在网站上,无论是电商网站还是媒体网站他的用户体验。在过程中我们觉得能够规模效应,那一定是能够给社会带来利益最大化的。每个企业它都花很大的人力、物理来做一个推荐引擎技术的研究,那会耗费很多的资源,我们在提供推荐技术服务的过程中,确实是非常清楚的了解到了用户跨网站的偏好。一个用户对我们来说就是一个ID,这个ID我不知道他是谁,没办法拼出来,比如具体的姓名、电话、邮件我都不需要,只需要某一个ID。这个ID比如他的品牌偏好,他喜欢阿迪,另外一个人喜欢耐克,我就能比较有效的拼凑出来他在全网的兴趣图谱。这个兴趣图谱帮助我们给一个新的用户,包括冷启动的问题,非常有效的提供更精准的推荐服务。
郑毅:是不是可以这么理解,我们其实是在为第三方的电商网站提供推荐引擎的服务,我们是在用我们的服务让他做部分的数据的开放和交换。
苏萌:我们在给他提供技术服务的时候,就像所有的服务公司,他是SaaS的模式。我们看到大数据兴起的一个基础就是软件行业的泛互联网化,如果没有泛互联网化的话,传统的软件是没法形成大数据产业的。在这个过程中,用户我们的客户会主动提交他认为有必要让我们了解的用户行为,根据我们的场景引擎、算法引擎、规则引擎等等实时的做推荐。
郑毅:百分点其实是在为第三方的电商网站提供推荐引擎的时候,我们去和大家做数据的交换。在一些数据的获取和数据具体的一些隐私保护方面以及其他具体的实践方面,运营商为什么愿意跟我们做这些工作,跟大家分享一下。
糜万军:隐私是特别敏感的问题,昨天在亦庄的论坛上说价值100亿美元的问题,明显把这个价值低估了,应该远远超过100亿美元。其实业界更关注的不是欧洲的运营商去谈判,欧洲应该说是对隐私特别注重的,大家现在关注更多的是怎么提升利益的问题。比如运营商为什么能够跟我们分享数据?从运营商角度来讲,他有海量的数据和用户,但确实没有见到什么钱。所以,从他的利益角度来讲他有这种强大的愿望。从用户的角度来讲,我们能够形成一个比较健康的产业链,让大家都获益,这是业界更加注重的问题,包括简单的数据隐私的问题,包括数据的流动,数据形成的利益分配问题。
郑毅:利益分配和利益交换,整个业务过程中会涉及到几方。比如做电信数据,电信数据有普遍的用户,有电信运营商,还有第三方广告商。如果是在不同的环节,一个利益交换会不会有不同的考虑?
糜万军:会。本身数据隐私安全是个相对的概念,很难说有完美的解决方案。像美国做的试验,仅仅是把人的各种隐私信息引进去,就能把数据挖掘出来,只是用了部分的搜索日志,已经把人完全的定位出来。所以隐私安全我觉得是个相对的概念,而且法律远远落后于业界的实践和广大用户的需求,这是一个不断摸索的过程。
我们做了一个预测人的医疗费用的公司,从美国国家层面公开的数据和每个企业关于单个职工的一些数据,当时开发了一个算法,可以比较动态的来预测这个人的医药费用。包括刚才祝老师讲的用了很多的变量跟数据源,可以比较靠谱的预测医疗机构在这个人身上是不是赚钱。欧美是特别注重隐私的国家,但实践层面还是远远超过了法律层面。
郑毅:您讲的也是在和全球的运营商都会有一些合作,不同的国家,不管是欧洲、南美,还是中国,会有实践方面的差别吗?
糜万军:我们不是为了数据而数据,因为各个国家的业务需求不一样,所以会衍生出不同的产品。产品不一样,后面采集的数据也会不一样的。
郑毅:您是用腾讯的数据为腾讯自己做精准的搜索和更精准推荐的工作,对于腾讯来讲,是不是所有的部门都能访问到您的部门的数据。腾讯和外界有没有数据开放或者沟通的远景和设计。
王益:腾讯内部有一个部门叫设计平台部,这个部门的职责是搜集腾讯这么多部门产生的数据,所以说腾讯是应该有一个集中的数据管理机制的。在这个机制上,腾讯公司有机会建立数据隐私严格保护的机制,只有数据统一管理监控下才有可能做到。我也听说过微博上会流传一些故事,实际上腾讯内部也经历过,我很能体会到腾讯内部对隐私保护是非常严格的。所有被收集起来的数据是被按安全级别管理的,要经过好几层的审批。
郑毅:这会不会对您的内部工作造成什么影响,这种分成的安全机制。从内部工作来讲,会不会有一些其他的考虑。
王益:我理解隐私保护的重要性是大家都能够理解和接受的,管理的过程其实也是督促工程师我们到底是怎么使用数据的过程。不同的产品需要用不同的数据来分析。腾讯注册的QQ号有十多亿,基本上覆盖了中国绝大部分的互联网人群,这个数据很重要,能不能用?当然是可以用的。腾讯有一个搜索引擎叫搜搜,市场份额不是很高,但不管怎么样,作为一个搜索引擎留下的数据是用户当时很强烈的意图的。这样的数据是可以用的,我们知道用户最近想要什么,推介和广告就会依据这个信息出现结果,实现非常精准的广告定向。这对业界是正向帮助的,并不会导致隐私的泄露。
我个人的工作了解到腾讯有一个开放平台,也提供一些API用户通过平台开发的各种插件是可以了解一部分用户信息的。当然这个API也是在腾讯的数据保护监管下开放合适的资源。
郑毅:李丰您看公司的时候更看重什么,是更看重它在数据方面的能力,还是算法方面的能力。有没有一个整体的布局,我投资这些公司,这些公司之间可能数据会有一定的互补性。
李丰:我们原则上大家都说投人,如果是数据驱动模式的话,人应该是相对难找点。我们先开始看的确实是技术驱动的事,我们花了很多时间把这个行业中有这个能力的人尽量的找到。最难找的是第二件事,在这个前提基础上有明确的商业性的想法。我们找到的技术非常好的国内和国外,因为我们在美国也投一些公司,我自己在美国也有三个早期的创业公司。技术人才我们找的非常多,但找商业的想法更难一些。
中国数据公司面临一个非常大的挑战是怎么去启动的问题,要不然就是趴一些大的公司的身上,或者像运营商,先获得大量的数据来启动。我们大家都了解在互联网上,在中国这么做,最大的风险是人靠谱不靠谱。为消费者提供服务,我们肯定是行业中的外行,大道理上来看应该是这样的,对消费者级的应用,大家想到的比较多的是推荐类的应用。对消费者比较合适的方式还是所谓你在心里头知道什么东西好,但你很难描述这种类型的分类是我们认为比较好的应用领域。
打个比方,音乐应该讲是每个人在心里头知道你大概喜欢听什么样的歌曲,但客观上来讲,你很难把这个东西用语言描述出来。我想这是一个类别,你有更多的诉求或者情感类的诉求,你心里知道什么好什么不好,你想要什么,但很难用精准的语言刻画出来,在这种消费者中比较适合做推荐。这里面又分另外一个挑战,我自己看过非常多的推荐类应用,有一个小的误区,我觉得阅读是比较难做的。难做的原因是理论上阅读也符合这个条件,所谓条件的概念是你知道什么好什么不好,但很难拿语言精确的描述出来。
我自己没准确的结论,阅读难做的原因是我问过很多典型消费者,发现典型消费者在阅读问题上最大的困惑在于很多人对于判断哪篇文章好还是不好是被其他人左右的,而不是自己有非常明确的主观的判断方法。
另外一部分是企业服务,像百分点、亿赞普做的都是面向企业提供的服务。数据驱动应用最主要的功能是提高效率,在特定的行业当中如果它的供需关系没有到必须提升效率的阶段,或者最终不好到这个阶段的话,我们觉得数据驱动的应用是比较难普及的。比如说百分点,前途虽然未卜,但电商作为零售行业非常典型的特点是业态复杂,并且分布比较广,同时毛利率比较差。换句话说,对于零售行业在线下那么长时间证明一件事情,效率提高1%或者2%,决定了这个企业在将来到底能活还是不能活。我们的意思是从中期来看,这个行业的竞争力将主要集中在小范围或者中等范围的效率提升这件事情上。在这个前提下,我们觉得数据可能是一个办法,因为对于提高效率,不可能从10%到100%,可能从10%变成15%、20%,但这对行业非常的重要。
比如你做的是广告,广告我们也投过很多公司。广告之前在中国互联网主要的问题,2008年、2009年之前应该讲是非常典型的买方市场,广告主说了算。因为媒体的供给量,媒体的库存远远超过了购买需求,换句话说大量媒体的广告卖不出去。至少在之前的阶段中,如果互联网广告看作是企业服务市场的话,最大的挑战是它不是非常的效率驱动,或者是完全由买方驱动的。慢慢的中国行业的互联网广告市场跟美国有一点点像了,开始进入把效率提高的比较好,不管是从媒体端还是从广告主端。刚才我的意思是在我们投企业服务的时候,一个行业将会或者正在进入效益变得比较重要的应用阶段的时候,我们觉得数据驱动就会在里面显得是一个可能比较好的模式,至于结果我们也不好判断。
郑毅:刚才李丰对两位的商业模式都有比较大的挑战,你们有没有什么话说?
王益:我想补充说明一些情况,确实像李丰刚才说的,中国的互联网广告很大程度上是取决于广告主开始愿意投多少钱。随着中国的互联网广告业发展了十年,今天大家看广告的需求和当年确实已经发生变化了。刚才李丰说的美国的情况,我在我自己的工作中都已经开始感觉到,首先用户越来越讨厌没有道理的广告,这是为什么我们要特别重视技术,需要从海量数据中挖掘足够的人工智能技术,挖掘足够的知识来支持广告的投放的原因。除了用户对我们驱动之外,还有一种新的业务形式是有所驱动的,就是手机广告。要在手机上出广告,那一定要出得很精准,这也是对我们工作的一个驱动。
再顺便说一点,大家可能已经注意到国外的有些公司已经在做类似的事情,就是广告及内容。今天看Facebook和Twitter手机版,Facebook除了看朋友有什么动态会夹杂一些广告,夹杂的广告也是要做的内容相当的精准。Twitter形式看起来跟Facebook手机版很像,看有哪些推文,广告也是夹杂在推文当中,要跟上下文相关或者跟用户近期的兴趣非常的相关。这是腾讯目前正在努力的方向。
郑毅:刚才李丰总回避了我的一个问题,您在数据方面有没有一定的布局?您给我的回答是更关注应用和人才方面。其实咱们可以借助李丰刚才提的话题聊一聊,您在投资公司的时候,什么样的人才是比较合适的人才。现在大家做的很多事情偏向于理想主义,业务模式也是一些精准广告。大家都相信大数据未来能够带来一定的价值,带来价值关键是需要通过人带来价值。我想先问一下李丰,我们在投公司的时候,更看重人的哪方面?
李丰:基础前提要懂技术,因为大数据很多情况下容易被弄成概念。
郑毅:很难兼得的。
李丰:没有办法,必须兼得,如果靠两个人来驱动,那要看其中主要的人是谁。因为很难一个团队说这两个人是同样起作用的,基本上总得有一个人起主要的作用。属于一把手不是搞技术的,可以,但是挑战会比较大。相对来讲以非常技术驱动的模式来看。
郑毅:我的理解是技术大牛,再有一个商业搭档相对是比较好的。
李丰:如果这样是最好的。如果你商业上不错,但最起码得懂一点技术。
郑毅:从企业内部的应用来讲,我们是比较希望能够抓到一些什么样的人才?企业内部对人才有什么样的培养机制?
王益:我自己的经验跟自己的经历很像,首先技术做的好。作为互联网产品,广告是商业气息最浓厚的,我们的团队是广告中负责广告策略和广告质量的,一般有很多人工智能的要求,利用大数据做精准的广告投放。另外一方面我们对商业模式要求也很广,我们的广告系统应该调成什么样子,如何追踪广告主和用户的反馈意见。我的具体工作中还有一个需要让我权衡的一点,中国的大学培养出来的研究生有两类。一类是擅长写程序,一类是擅长做研究。很多同学并没有两方面的能力兼得,即便是技术这方面也不能兼得。其实我们的需要是程序写的不好研究员是不合格的研究员,从业界的需求来讲是这样的,和学校的需求并不一样。
郑毅:在腾讯做广告的时候,怎么去用我们的东西真正支撑一线业务人员的工作?刚才您说一定要会写程序的人,其实很多在用大数据的人来讲是不会写程序的。
王益:我今天来咱们这个论坛,确实有一个感觉,我猜台上的人分了三类,台下坐的人也包括这三类。第一类是研究人员,比如祝老师。研究人员眼里的大数据,在业界人员眼里就是小数据。第二类是做互联网应用的人。我们看到的数据是什么样子的?比如我的工作,现在广告系统首先它要利用大数据。刚刚我说过要利用搜索引擎上留下的海量数据来了解用户喜欢什么,然后才能出精准的广告。作为广告系统我们也是自己产生大数据的源泉,每天我们的广告系统要展示多少广告?大概是120亿。其中有一部分会被用户点击,每次展示和每次点击量的操作都会留下日志,每天留下的日志有多少?是以10G百G来计算的,甚至每天可以形成1T。这真是大数据,反过来这些日志在帮我们更精准的抓住用户的兴趣,让广告更精准。
今天中国的互联网行业已经日渐的成熟,很多大公司都是这样的。随着人工智能技术的演进,今天机器能做的事情很精准,在这点上我不太认同刚才祝老师的一个观点,机器技术不够精确或者不够精准。大家知道,广告的点击率是很低的,我猜在座的很多人可能从来都没点过广告,但想想我们今天坐在这儿说大数据,这些钱是哪儿来的,我们每天用了搜索引擎,能产生大数据是要大硬盘去存,到底谁在买单?都是广告主。为什么这么低的点击率,背后能赚这么多钱,使得大家能安心的坐在这儿开这个会,因为基数特别大。大的基数里要把广告定位出来,这个概率很低。
郑毅:可以理解为一个点击它的收入很低,如果用人工去做这些广告投放效率上是很差的,所以我们完全用机器的经验取代人的经验。
王益:需求这么多,每天120亿次请求,每次应该展示哪一个,人做不了。第二,就算非常专业训练过的人,他也不能精准的判断广告点击率,点击率是万分之一或者千分之一的时候,我们怎么样从一万个广告里定位一个能带来点击的机会,定位不准赚的钱就少了,大家就不能开心的坐在这里开会了。
郑毅:在我们的公司里首先对人员的要求,是要求技术很牛,还是业务更重要。
糜万军:百分点是一家技术公司,所以我们非常重视员工技术的深度。无论是处理大数据,分析大数据,包括对于行为预测的水平,我是毋庸置疑的。我们80%的人全都是技术背景出身。讲到选拔人才用什么样的方式,我觉得大数据领域将来一定会变成交叉学科。不仅是计算机、统计学,同时包括营销学,包括心理学。举个例子,比如早年在美国读书的时候,我们拿到了美国用户超市的购买数据,从80年代开始,一个用户在超市所有的购买记录都有。早期会根据用户的购买历史、购买行为来构建一个数据模型,之后会用越来越复杂的数据来模拟用户的购买行为。我们在搭建模型的时候,确实是需要计算机统计数学背景的人才。因为我们做的是电商,所以需要很多消费心理和消费行为的分析。
数据本身是跨学科的,从技术层面涵盖了多门学科的知识。上个月在清华开的一次会议,来的人本身就非常的多样化,技术本身又非常的复杂。现在很多模式是数据驱动,尤其是跨领域的多种数据源的结合会产生很多新的模式。对人,对企业管理的人要求确实是非常复杂。
郑毅:总结一下大家的观点,大家要玩大数据必须先学好技术,管理学和营销学作为辅助。请各位用一句话展望一下对大数据未来的期待。
苏萌:我觉得互联网时代,开放和共享是互联网时代最耀眼的一个特点。我们现在有了这样足够的对用户信息的了解,我们如果能让手里面的数据交叉复用,能够让数据流转起来。我们之前看到了美国IT产业的发展趋势,从软件开源到数据开放。我相信在中国一定会同样经历数据它的流动性、可流转性、可复用性,一定会成为大数据行业整个生态链和发挥数据价值的一个最基本的前提。
糜万军:我自己感觉非常的幸运,能够从事这个行业,也非常激动和期待在这个领域能够做一些实实在在的事情。
王益:我自己的兴趣确实在于大数据,利用它提供更多精准的知识,利用这些知识把互联网的产品做的更好用。
李丰:我支持他们三位说的。
