“爬虫”这个词源于搜索引擎,刚开始,人们很形象地将搜索引擎的收录机制形容成一个“蜘蛛”在蛛网上爬,而互联网就像一张大网,这个“蜘蛛”爬到哪,就把爬到的网站数据给收录起来。因此,慢慢地在网上以类似技术获取数据的方式,就叫“爬数据”,而“爬数据”的程序就叫爬虫程序。但现在了解爬虫程序开发的程序员往往都会觉得爬虫程序“很刑”,这是为什么呢?这个得从各种方面了讲解一下爬虫程序为什么“很刑”!
爬虫这个东西我以前写过相关科普文章,但是我觉得写得不太深刻,希望这次从“行不刑”的角度多方面重新说一下爬虫程序。
数据成本低
为什么会有爬虫程序呢?我仔细想了下,可能有两个原因,第一个原因一些公司的客户数据量不大,买数据又不合法,所以只能通过去别的平台爬取数据,第二个原因是有些平台数据即使有,但是又不对外开放这些数据,所以只能通过别的方式去获取数据,比如“爬数据”。
不管是哪种原因,其实都是基于成本来考虑的,如果是自建平台,首先就得有巨大的访问量,软件得有巨大的下载量和注册量,这样的话一般公司很难做到。
比如说像淘宝、拼多多、京东这样的电商巨头,人家本来用户量就是以亿作为单位的,用户获取有早期的自然用户,也有猛砸广告获取的用户。从某种角度说,他们光靠着目前的用户体量,在用户不增的情况下,用户数据量也超过了99%的公司了。而一些小公司,用户数据量可能还不到他们的零头。
小公司获客的方式肯定不如大公司那么直接,可能一些大公司一天光用来获客的广告费就是一些小公司一辈子也赚不到的利润。因此,通过爬虫程序来“白嫖”这些数据,显然是最划算得了。
当然了,目前很多大型的互联网公司的数据不可能就这么轻易地让你爬去了,一般都会有数据开放平台,但是想要入驻这些开放平台不光需要一定的资质审核,还需要缴纳一定的费用。
但是一些规模比较小的公司,因为前端数据防爬策略做得不好,因此很容易被人爬取到。换句话说,如果大家防爬虫的策略都做得那么好,现在爬虫程序就不会这么如日中天了,是不是?
另外,虽然这些小公司的数据也不多,但是公司数量庞大呀,一个公司爬到了一百条数据,一万个公司的数据可就有一百万条数据啦!而通过爬虫程序,获取这些数据的时间成本,可能也就个把小时而已!
所以,相比一些巨头通过砸钱打广告获客,使用爬虫程序爬取客户数据的成本几乎等于0!
当然,爬虫程序爬取的不仅仅是客户数据,也有会有其他的有用数据,比如说一些店铺的名称、店铺的经营范围、店铺的位置等等。拿到这些数据,对于一些“地推销售”帮助也是很大的。
而像一些政府部门的数据,一般是不对外开放的,所以想要这些数据,只能通过爬虫程序了!
数据垂直
其实爬取数据最大的好处就是数据比较垂直。
假设我是一家卖母婴产品的电商公司老板,如果我直接打广告,广告的虽然有垂直度,但是垂直度也是有限的,并且广告也是有成本的。但是,如果我有能力直接爬取淘宝、拼多多、京东的后台数据,把这三大电商的近期购买过母婴产品的客户数据呢,会产生什么效果?
这里需要着重说明,这是我的假设,目前上述三大电商的用户购买数据肯定是爬不出来的,有这方面想法的人别做梦!
大公司有做数据防护,这些数据是肯定爬不出来的,但是一些小公司可不一定了!
比如一些电商ERP公司的数据有时候就很危险,因为很多商家在使用一些电商ERP软件的时候,他们的订单交易数据都是存储在电商ERP软件的开发商手里的,如果电商ERP软件的开发商没有做爬虫防护呢?或者防护做得弱呢?亦或者系统有漏洞,可以被爬到数据呢?
为了防止这样的情况发生,目前几乎所有电商网站在数据出站的时候都会将重要数据进行加密,比如用户名、电话、地址等,想要获取脱密的数据,还得走指定的入口(接口),并且频率还不能高,高了入口就被封掉了,需要人工解封,这是我在做电商ERP软件时的真实经历。
但既然有人爬取这些数据,无利不起早,肯定就是因为能爬到数据,具体怎么爬到的,每个做爬虫程序的公司可能方式都不一样,这里不做具体阐述。
回到上面假设的场景,如果我是做母婴产品的电商公司,我获得了这些数据,我就可以使用短信营销或者其他引流的方式去利用这些垂直度非常高的用户数据来实现广告的高转化率。母婴产品的复购率是很高的,因此获客效率也就非常高了!
这里只是引用母婴产品作为例子,现实中的例子还有很多,并且很多你认为没用的数据,在一些需要垂直数据的人的眼里,那就是金子!
“不问自取便是偷”
所谓“不问自取便是偷”,没有经过别人允许,就擅自爬取别人的数据,这听起来怎么也会感觉不太正当!
经常听到一些写爬虫程序的人解释,说:“数据之所以能被我爬到,那是因为你把数据给开放啦,我只是将本来人工浏览才能看到的数据使用爬虫程序替代啦,这有什么不妥呢?”。
他们的核心理由就是:数据本身就没有访问限制,任何人都可以看,他们只是写了个程序去爬取数据,除了效率高一些,其他和人工浏览并无区别。
但是,这个理由站得住脚吗?这里不作评判,但是我可以举个例子,您自己做判断!
假设我正在洗澡的时候,窗户忘了关了,整个小区的人都看到了我洗澡的样子,当然了,看到我洗澡的人并不违法,但是,如果此时有人拍了我正在洗澡的照片,这是不是已经涉嫌侵犯隐私了?另外,如果拍了我照片的人,他拿着我正在洗澡的照片给朋友看,甚至是发到了网上,这就更加罪加一等了吧?
当然,举的例子虽然可能不合适,但是却能很形象的描述清楚爬虫程序的性质。那就是,虽然一些平台的数据是开放的、或者不小心开放的、或者平台自身并未觉察到数据有泄露渠道的,但是并不代表这些数据平台就是允许一些公司去使用爬虫程序来爬取的,没有经过允许就擅自爬取这些平台的数据,可能就已经涉嫌到违法了!更别说拿这些数据来用,甚至是转售的!
方式和用途决定“行不刑”
抛开爬虫程序本身是否违法不谈,从目前已知的使用爬虫程序获刑的案例来看,使用爬虫程序爬取数据的方式和数据用途,也决定了它“行不刑”。
爬取数据的方式如果是不影响被爬取平台的正常营运,这个“行不刑”还有待商榷,但如果影响到了被爬取平台的正常营运,那“行不刑”就很显然了。
比如说现实中就有这样的例子,说有个公司程序员写的爬虫程序没有考虑到被爬平台的服务器承受能力,因为访问数据时的并发访问量太大,直接把对方公司的网站给爬瘫痪了,最后这个公司报了警,这个用爬虫爬取数据的公司老板连同写爬虫程序的程序员都被抓进去踩缝纫机了!
另外,即使网站没有瘫痪,一些公司的网站服务器如果是云服务器,一般云服务器的进出流量都是按量收费的,当爬虫爬取这些数据的时候肯定得消耗掉服务器的流量,那么网站的运营方就得付出额外的流量成本,这很显然,也是侵犯了别人的利益。
网上以“爬虫被抓”作为词条搜索,相关新闻案例更是一搜一大把。
关于用途,首先就是自用,大多数使用爬虫获取数据的公司基本上数据都是自用。但是,自用不代表就可以随心所欲!
有些公司通过爬虫获取数据,可能就是做市场调查,数据本身的隐私属性可能这些公司并不看重。因此,这种公司的行为可能处于灰色地带,因为我上面说了一个概念,叫作“不问自取便是偷”嘛,凭什么别人花了很大代价获取到的数据,你没有经过别人同意,就使用一个爬虫程序轻而易举地就去获取呢?
又比如一些公司在获取到用户数据以后,频繁对用户进行短信、电话轰炸推销,这种行为可能不光已经侵犯了用户隐私,可能还涉及到骚扰。
更加恶劣的情况,可能就是倒卖用户数据的行为了,我虽然不是法律相关从业者,但是个人都知道,倒卖用户数据的行为百分百违法!
怎么判断自己数据被利用了?
很多人可能都有这样的经历,那就是莫名其妙的就收到了一些营销短信或者电话,一般这种营销短信和电话都会告诉您他们来自于什么公司,如果您发现您跟这些公司并没有什么交集的话,那么大概率他们手上的您的数据多半就是爬取得,或者是买来的。
因为,一般情况下,我们自己注册了哪些网站我们自己其实大多都清楚,即使是当时不清楚,搞清楚给您发送营销短信或者打给您营销电话的公司,您也能判断出来。
当然了,一些线下的信息也很有可能会出现多方转让出售的情况。
这时候,您只要深究,拿着电话号码去查电话号码所属公司,并找到对应的客服电话,讲明来意,问他们是如何获取到你的联系方式和个人信息的,如果他们解释不出来,或者解释的结果您不认可,我们完全可以拿起法律武器保护自己的权益。具体操作流程可以请教相关律师,因为我不是法律从业者!
总结
爬虫程序其实不管从任何角度,合理性都站不住脚,但是从单一方面讲,有它的必然性,比如说搜索引擎,搜索引擎需要收录网站,很多公司巴不得自己的网站能被收录,最好是搜索靠前。而想要告知搜索引擎您的网站不需要被收录,也是可以在代码层面做到的。另外,搜索引擎也不会大规模、高并发去检索一个网站的数据,因此,搜索引擎的爬虫机制是良性的。
但不代表爬虫程序从其他方面讲它就是合理的,使用爬虫爬取数据的公司,应该受到监管,否则个人权益和被爬取数据的公司权益将得不到保证。
另外,爬虫有风险,从业需谨慎,作为程序员,我也劝目前正在做爬虫程序的相关从业者,要学会辨别公司爬取其他平台数据的真实用途,要有“行不刑”的判断力,否则别到最后被“一窝端”了,后悔晚矣!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.