主持人:谢谢田晓萌。百度应用开放平台是一个宏大且意义深刻的产品,它是框计算里在网页搜索端的具体体现。作为其中的重要组成部分,作为其中的重要组成部分,百度数据开放平台在过去的一年里都取得了哪些进步呢?下面为大家演讲的是百度网页产品经理金海燕女士,金海燕作为百度数据开放平台的负责人,对这个产品有深刻的理解,今天她演讲的题目是百度数据开放平台,有请。
金海燕:大家下午好,欢迎大家出席这个论坛,接下来我会跟大家分享我们数据开放平台在这一年里的进展,我们遇到的问题。先跟大家分享一些数据。我们的开放平台已经有四百多家的合作站点,这张图在上午的PPT中也有展示,这些合作伙伴给我们带来了大量优质和官方的资源,给我们带来各式各样的,给网民的生活、出行学习工作商务等等各方面带来便利的框计算结果。
这是通过数据开放平台进来的框计算结果的流量覆盖,每天我们的四百多家的合作伙伴得到的展现的次数。根据我们最新的统计,在上一周流量的数量已经过亿了,从这张图上我们可以看到这个流量增长是非常迅猛的,现在我们已经是我们推出第一周的六百多倍了。从平台开放到今天,平均每天新加入的流量是20万左右,并且我们可以预计到接下来还会有更加快速的增长。
1+1+1+1+1,一共五个1,这是我们开放平台可对接的数据对象类型,第一个1是单一的数值,客服电话,用户想要的就是一个数值。第二个1是交互操作,用户在我们界面上有一个交互的动作。第三个是单一的数据库,我们的查询结果来自于一个封闭的数据库,第四个是一个多元数据库,多元数据库是指在这个行业内存在多家优质的资源,资源方按照我们的数据规范给我们推送数据,我们实现实时的结构化的检索,使我们的用户体验变得更好。这边举的例子是招聘,招聘这类需求在搜索引擎的需求中是一类比较典型的,满足复杂化的一类需求。
为什么这么说呢?用户的表达词是软件工程师招聘,他把职位需求明明确确的表达出来,是否我们给他一个表达软件工程师招聘的结果就能满足他的需求了呢?并不是。用户的需求还包括比如时间,他想要的是今天的,近期的,有效的招聘信息,而不是过去的,去年的甚至前年的互联网上发布的招聘信息,用户隐含的信息有我要在哪个城市找这份工作,也隐含着对薪水的需求,甚至包括我希望找到的信息是多条的,可以让我挑挑拣拣,选择最满意的那一条信息。按照我们搜索引擎的经典模式是很难满足这种需求的,甚至单个数据库也是很难满足这种需求的,所以,我们数据开放平台可以引入多元的数据库,更好的满足用户实时的结构化的查询需求。
第五个1是外部垂直检索系统,这边这个案例是我们即将上线的案例,我们的系统能够识别出用户,在查找用户需求的时候,我们可以从外部的数据库里实时的寻找结果。在过去的这一年时间里,我们通过对底层技术架构的改造,以及非常复杂的一个数据流对接完善,现在已经可以对这五种类型的数据对象都可以支持,能够将这五种数据类型对象通过我们的开放平台跟我们框计算结合,做一个无缝的对接。
1—N,这是什么意思呢?我们既然将优质资源和关键词通过这个平台提交过来以后,我们系统会自动的在我们的日常用户表达词里匹配,将表达同一种需求的多种表达方式找回来。金华天气,根据最新的统计,现在我们系统找回来的表达方式有94种,我老家就是金华的,我的老乡现在在百度这边用各种表述词检索的时候都能看到金华天气提交过来的资源,不管是用金华天气还是金华未来一周天气状况是怎么样的,这样复杂的词都能看到这样的结果。并且是在本地的时候,即使不加金华这个地点的限定,也一样能看到这个结果。
第二个例子是美元和人民币的汇率,根据昨天的统计,我们系统找回148种表达方式,用任何一种表达方式都能搜到这个结果,就在第一个。
以上两个案例反映出来是在过去这一年我们的系统在需求分析和解析方面取得了一个长足的进步,这使得用户形形色色的表达他常规需求的需求表达都能得到反馈,也能使得我们的优质资源方提交过来的资源得到最充分的利用和展现。我们继续来看数据。
又是一个1亿次,在世界杯期间我们用户总共查询次数,我们合作伙伴跟我们基于数据开放平台的合作,可浏览化的方式来展现,实时的报道比赛的比分跟比赛相关的信息,大大改善了楼索引擎用户的搜索体验,同时这种独特的展现方式也为我们的合作伙伴带来了可观的流量,可观的用户,大大增强了网站的品牌。
上升50%,这个是多玩网给我们发来的感谢信反馈的。通过副本,通过任务查询到达多玩网的用户正是他们的目标用户群。
在过去平台开放的这一年多时间里,我们陆续受到站长给我们很多的反馈,其中不乏中肯的建议和批评,更多的是对我们平台的感谢,良好的祝愿,以及对开放这个模式的赞美。开放是搜索引擎迈出的巨大一步。在王梦秋女士刚才的致辞中说,开放使得搜索引擎全面进化到了和谐时代,简单的说,对于网站来说,它由一个被动等待搜索引擎来抓取,来更新,来排序,来展现这么一个状态,进入到了可以主动的影响搜索引擎,可以指定的内容,指定的关键词,指定的位置,指定的样式甚至周期。总结起来,开放平台能给站长带来的最主要价值体现在四个方面,首先,最权威的展现使得用户对官网有更加直截了当的认知,使那些作弊的虚假的信息收益不能获得,使其在同质资源竞争中非常容易的脱颖而出。网站跟我们平台免费合作的模式最直接的收益当然是大量的用户及流量。对于电子商务这类型的网站来说,稳定的流量和用户源源不断的高价值的流量和人气能够直接转换为网站的商业利益。
以上是开放对于网站的收益,实际上我们更希望打造的是一个互利共盈的搜索引擎生态圈,搜索引擎以网站的优质资源为基础,给我们的用户提供更好的服务,精准的,直接的,快捷的,直接满足用户的需求,最终形成一个搜索引擎、站长、用户共赢的生态圈。
在过去一年多的时间里,我们也遇到过种种的问题,接下来我跟大家分享一下我们对这些问题的看法,以及接下来我们应对的机制。
第一个问题,这是我们在试运行阶段遇到的问题,站长提交的资源很多是没有被审核通过的,根据我们统计这个比例还不低,这些数据不被通过的最主要的原因是什么呢?最主要的是三个方面。第一,提交的资源跟关键词不匹配。第二它指定的展现是不合理的,第三网站提交过来的资源不真实,不完整,不准确。
我举几个例子给大家,比方说我们收到有站长给我们提供虚假的客服电话,比方半年以前的招聘信息仍然混杂在其中。比方提供给我们的信息里商品的价格跟网站上实际的报价是不符的,这样的信息如果进来,对我们的用户不但是没有帮助的,而且会造成很大的伤害。站在我们的立场,相信诸位也会以相同的理由来拒绝这样的数据通过的,从站长的角度来说,我相信也并非所有的站点都是故意要提交虚假的,不真实,不准确的信息给我们,站长这边也遇到了诸多的困难。
总结起来是这么四个方面:第一点,不同行业的站长对优质数据标准在理解上出现了一些偏差。在指点资源所对应的关键词,对应的展现,以及组织结构化的数据的时候遇到了一些问题。
针对试运行阶段遇到的问题,我们对我们的运营思路做出了比较重大的调整。现在底层的这些技术支持改造已经完成,我们的运营机制也已经到位,接下来我们就正式进入到一个垂直运营阶段。什么是垂直运营,简单的就是将搜索引擎需求进行预先的细分,按照领域对站长进行开放。垂直运营具备三个显著的特征:特征1,划分到一个具体的行业领域以后,资源收入和审核的标准就可以非常的清晰,这是软件官方下载的收入标准。特征2,划分到一个具体的内容以后,我们都有一个很全的站长帮助指南,这是招聘的一个判断。特征3,针对每一个内容,我们提供最适合它的一个资源提交方式,比方说是一个数值,提供的是一种所见即所得的资源提交方式。是一个数据库,是一个格式化的制状的数据提交方式,我们希望最终用户是能够非常简单快捷的满足他的需求的,我们的站长也是能够非常简单容易的将他的数据能直接对接到我们的框计算结果上。中间这个复杂的计算的匹配的过程就留给百度吧。
这个大屏幕上是我们现阶段重点开放的一些运营类目,六大运营类目,有的站长就会问,是否除了这些类目以外的其他类目现在关闭不开放了呢?当然不是的。对于不在以上几个类目里其他的类目所对应的资源,我们现在仍然提供两种提交的方式。第一种,当您对您的资源所对应的用户关键词以及他合适的展现形式比较有信心的时候,我们仍然提供全量支持这样的提交机制。另外,您不太有信心您的资源应该长成什么样,以及它的数据格式应该如何组织,这时候您可以提交一个对您的资源的简单的描述给我们,我们会对您的资源的sample,对站点的资质进行审核,审核通过以后,就会进入优质资源储备池,在优质资源储备池里,我们接下来对类目进行规划和设定的时候,我们就会跟您一起对您的资源设定一个最适合它的展现形式跟适合它的展现结果。
多家同质优质资源如何处理,这是大家都非常关心的问题,我们的一个独特的展现方式,以及最优的位置,意味着绝对的竞争优势,这是否会破坏这个行业里一个正常的良性的竞争,以及在运行中也有站长给我们提这样的问题,线上已经有这么一个天气资源存在了,我们也有这样的一个资源,我们要如何去提升我们这样的资源,打造我们的资源,让它更优质,什么样的情况下才能符合,能够把线上的这家资源替换下来。这就涉及到多家同质资源如何处理的问题,这也是我们一直在思考的问题。之前我们是从用户角度进行考虑,只要有一个结果就能完全满足我的用户需求了。所以,我们只接收一家优质资源,现在我们从站长收益、搜索引擎用户体验,以及互联网的良性竞争环境等诸多方面综合考虑,接下来我们会推出一种新的解决方案。这种解决方案中会引入多家资源的一个竞争机制,这是接下来的一个简单的演示。
我们会审定一个基本的审核标准,符合这个资质标准的多家资源都可以进入到我们的优质资源储备池里来,这些资源我们会在这个结果里同时得到展现,其中有一个结果是默认展开的,其他的会以Top的方式进行展现。这里就涉及到哪一家资源可以默认的展开展现的问题。我们会采用基本的三个判断原则,第一个是先到先得,在资源的优质程度没有太大差异的前提下,首先通过审核的资源就可以默认的展现。所以,已经在线上展现的这些资源仍然会默认的展现。原则二是优质为王,当几个资源在质量跟优质程度上出现明显差异的时候,我们会选择最优质的结果展开展现。这里面又涉及到判断的标准和原则是什么,经过我们在开放这一年多时间里积累的经验,以及我们基于百度后台大量的用户行为数据统计,我们已经积累了这么一套判断原则和标准,接下来会结合一个具体的行业会颁布这样的一个判断的原则和标准。
第三个原则是退场机制,也就是进入我们优质资源,默认展现,以Top形式展现的资源都会被我们定质地,审核他的资源的质量情况。当质量出现问题的时候,就有可能被退场。现在我们的优质资源储备池的一个审核已经正式的对外开放了,感谢以前已经给我们提交资源的优质站长,也欢迎非常加入我们的站长踊跃的给我们提交资源。以上跟大家分享了我们这个数据平台的进展,问题,以及我们的运营新模式。会加入我们,以及有兴趣了解更多的朋友,可以直接访问我们的首页,谢谢大家。
