网易首页 > 网易号 > 正文 申请入驻

开发者如何通过AI,合法抓取数据?

0
分享至


本文来自微信公众号:星夜律途,作者:王帅宾lawyer,原文标题:《技术无罪,但“姿势”得对:开发者如何通过AI合法抓取数据?》,头图来自:AI生成

最近在圈子里流传着一句话:“爬虫写得好,牢饭吃到饱。”虽然是玩笑,但也反映了当下数据采集面临的严峻法律环境。AI的出现让数据抓取变得前所未有的简单——利用LLM解析复杂网页、自动绕过反爬、甚至模拟人类行为。

但技术手段的升级,并不代表法律底线的后退。今天,我们从刑事律师的角度,聊聊AI时代抓取数据的“安全准则”。

一、悬在头顶的三把“法律之剑”

在动代码之前,你得先知道哪几个地方是“雷区”:

1.《刑法》第285条(非法获取计算机信息系统数据罪):简单说,如果你突破了对方的技术防护措施(比如暴力破解、强行绕过验证码),不管你抓什么,都可能涉嫌此罪。

在司法实践中,司法机关聚焦于技术手段的非法性、数据性质及数量认定。

(1)技术手段的非法性是定罪关键:法院在裁判中明确指出,采用SQL注入漏洞、编写特定爬虫脚本入侵系统、进行“撞库”攻击等方式获取数据,均属于“采用其他技术手段”的非法获取行为。例如,在(2019)鲁0213刑初144号中,被告人辩称其使用SQL注入漏洞及爬虫脚本获取的是网站页面公开信息,但法院认为其行为是侵入计算机信息系统获取内部存储的大量数据,其中包含约1500万余条个人信息,故构成非法获取计算机信息系统数据罪,且情节特别严重。二审法院在(2020)鲁02刑终108号中进一步强调,即使数据本身可能部分公开,但通过入侵特定网站漏洞的方式批量获取,该技术手段本身具有非法性,不影响犯罪的成立。

(2)数据性质与数量认定的司法立场:对于获取的数据是否属于“身份认证信息”或其他计算机信息系统数据,以及数量的计算,法院有明确的认定规则。在(2014)昌刑初字第844号中,法院认定非法获取企业用户通讯录16000余组构成“情节特别严重”,驳回了辩护人关于该信息不属于身份认证信息、应认定为“情节严重”的辩护意见。这表明,司法实践中对“计算机信息系统数据”作广义理解,不限于严格意义上的身份认证信息。同时,对于数量的认定,除非有证据证明信息不真实或重复,否则一般根据查获的数量直接认定。

2.《刑法》第二百五十三条之一第三款(侵犯公民个人信息罪):抓取的数据里如果包含身份证号、手机号、家庭住址等,且你没有合法授权,这就是在悬崖边跳舞。

相关司法解释详细规定了该罪的入罪标准,例如,非法获取行踪轨迹信息、通信内容、征信信息、财产信息五十条以上;非法获取住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上;非法获取上述两类以外的公民个人信息五千条以上;或者违法所得五千元以上,均构成“情节严重”。达到上述数量标准十倍以上的,构成“情节特别严重”。

在司法实践中该类案件严格适用数量标准,并关注信息的敏感性与用途。

相关司法判决普遍严格适用司法解释的数量标准来认定是否构成犯罪及情节严重程度。例如,在(2018)冀0425刑初283号中,被告人非法获取公民个人信息94506条,被法院认定为“情节特别严重”。在(2021)鄂0105刑初22号中,被告人购买公民个人信息492,582条,同样被认定为“情节特别严重”。这显示,一旦通过技术手段批量抓取个人信息并达到法定数量,刑事风险极高。

3.《反不正当竞争法》:如果你抓取的数据是对方的核心商业资源(比如大众点评的评论、携程的酒店价格),且你的产品和对方存在竞争关系,对方分分钟能告到你倾家荡产。

在此我们用几个经典案例来辨析不正当竞争的法律边界。

(1)平台对数据集合享有竞争法上的合法权益。

平台经营者对其投入资源形成的数据集合享有受法律保护的竞争利益。在《(2017)京0108民初24512号》中,法院认为,微梦公司为运营新浪微博、维护数据安全付出了成本,涉案数据(明星动态)是新浪微博产品的重要基础,微梦公司可基于其对涉案数据享有的经营利益,依据反不正当竞争法提出主张。

法院指出,数据已成为经营者竞争的基础性资源,当经营者为收集、整理、维护数据付出成本,且数据整体可为其带来经营利益时,其他经营者未经许可擅自抓取且使用平台数据的行为,可受反不正当竞争法调整。类似地,在《(2021)浙0110民初2914号》中,法院认定微播公司作为抖音运营者,就直播数据整体投入了运营成本,该数据整体能够为其带来竞争优势,享有竞争法上的合法权益。

(2)构成不正当竞争的关键考量因素:实质性替代与损害。

司法实践强调,判断抓取行为是否构成不正当竞争,需综合评估是否对原平台造成实质性替代或损害。在《(2017)京0108民初24512号》中,法院从多个方面论证了云智联公司行为的损害性,包括:破坏微梦公司设定的访问和展示规则;部分版本直接、完整展示数据,使得用户无需回到新浪微博,构成实质性替代;分流潜在用户流量,影响广告等商业收益;增加微梦公司服务器压力和运营维护成本;可能导致用户个人信息泄露,破坏数据安全。这些因素共同构成了对微梦公司合法权益的损害。

相反,在《(2019)京0108民初33822号》中,法院认为江苏斑马公司虽然抓取了文章,但文章存在于网站前端,原告未采取反爬虫机制,被告也未破坏技术措施,且被告未对抓取的文章进行同质化利用,未攫取原告竞争优势或造成损害,故不构成不正当竞争。该案表明,单纯的抓取行为若未造成损害后果,可能不被认定为不正当竞争,但前提是手段正当且未进行竞争性使用。

(3)对公开数据抓取的合理容忍与限制。

平台对公开数据的抓取负有一定容忍义务,但该容忍并非无限制。在《(2017)京0108民初24512号》中,法院指出,基于互联网互联互通精神,平台经营者应当在一定程度上容忍他人合法收集或利用其平台中已公开的数据。但是,如果抓取公开数据的手段不正当(如破坏展示规则、伪装用户、违反Robots协议),或抓取规模大、后续使用造成实质性替代,则该抓取行为仍可能被认定为不正当。法院强调,对于公开数据,需结合数据数量、规模、价值以及是否造成实质性替代等因素综合判断。

二、AI抓取的“合规操作指南”

利用AI抓取数据时,请务必遵守以下“不翻车”原则:

1.尊重robots.txt:这是“君子协定”的底线

虽然robots.txt在法律上不具备强制性,但在司法实践中,它常被视为判断“主观恶意”的重要依据。如果对方明确禁止抓取,而你利用AI伪装成正常用户强行进入,这在法官眼里就是明显的“非法侵入”。

2.严禁“暴力抓取”,控制AI的频率

AI脚本可以做到极高的并发量,但请记住:如果你的抓取行为导致对方服务器宕机或响应缓慢,这可能构成“破坏计算机信息系统罪”。

建议:在AI爬虫逻辑中加入随机延时,模拟人类浏览频率。

3. “去标识化”处理:数据的二次清洗

AI在解析抓取到的非结构化数据时,应自动过滤掉敏感个人隐私。

律师提醒:抓取公开信息(如微博公开言论)相对安全,但如果涉及大量用户画像、私密社交关系,必须立即停止。

4.避开“实质性替代”原则

这是最容易被忽视的一点。你可以抓取数据做研究、做训练,但如果你的AI产品直接展示了对方的数据,导致用户不再去原网站,这就构成了“不正当竞争”。

三、面对“违约”风险:ToS真的有效吗?

很多网站的《用户协议》(ToS)里写着“严禁任何形式的爬虫”。

  • 民事层面:如果你注册了账号并勾选了协议,那么抓取行为就属于违约。

  • 规避方案:AI抓取时应尽量在未登录状态下访问公开页面。一旦登录,你就在法律上承认了对方的“家法”。

四、避坑CheckList(建议收藏)

在你的AI抓取项目上线前,请对照以下列表自测:


结语

作为律师,我常说:技术是为了解决问题,而不是制造问题。AI让数据获取变得轻而易举,但法律对“边界”的定义从未改变。

抓取数据前,先问自己三个问题:

  1. 我拿了谁的东西?

  2. 我是怎么拿的?

  3. 我拿来做了什么?

如果这三个问题的答案都能经得起法庭的推敲,那么你的AI之路才会走得更远。

本文来自微信公众号:星夜律途,作者:王帅宾lawyer

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4838943.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
科威特飞行员真牛!4名阵亡美军身份曝光,特朗普不满英国西班牙

科威特飞行员真牛!4名阵亡美军身份曝光,特朗普不满英国西班牙

鹰眼Defence
2026-03-04 18:38:18
为何印度总想霸占西藏?一旦西藏丢了,中国人连喝水都要看人脸色

为何印度总想霸占西藏?一旦西藏丢了,中国人连喝水都要看人脸色

鹏飞展翅
2024-07-10 15:35:01
俄罗斯开始行动,中国要不要帮伊朗?中方表了态,3句话直戳美国

俄罗斯开始行动,中国要不要帮伊朗?中方表了态,3句话直戳美国

华人星光
2026-03-04 12:55:09
郭威过年不去探许敏姚爸,除夕初一初七都在岳父家过,乐不思蜀了

郭威过年不去探许敏姚爸,除夕初一初七都在岳父家过,乐不思蜀了

仙味少女心
2026-03-04 15:56:33
军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

唠叨说历史
2026-03-03 11:55:40
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

陈穟侃故事
2026-01-24 17:15:11
15投10铁,正负值最低!怪不得6届全明星无人接手,球迷:负资产

15投10铁,正负值最低!怪不得6届全明星无人接手,球迷:负资产

弄月公子
2026-03-04 21:16:12
权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

衍月
2026-03-03 09:30:44
辽宁省2026年退休养老金计算公式,工龄43.5年,能领到6000元吗?

辽宁省2026年退休养老金计算公式,工龄43.5年,能领到6000元吗?

暖心人社
2026-03-04 09:03:39
癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

健康之光
2026-02-11 14:15:20
“同归于尽”?伊朗发出“核弹级”警告:普通人如何保住钱袋子?

“同归于尽”?伊朗发出“核弹级”警告:普通人如何保住钱袋子?

知法而形
2026-03-04 15:08:16
惊悚!爱泼斯坦案再爆猛料,小李子被指曾吃过70磅 “儿童肉”?

惊悚!爱泼斯坦案再爆猛料,小李子被指曾吃过70磅 “儿童肉”?

今朝牛马
2026-03-02 22:28:10
遭鞭打、被迫在尿骚味地道取暖?迪丽热巴再爆猛料 滞留仅冰山一角

遭鞭打、被迫在尿骚味地道取暖?迪丽热巴再爆猛料 滞留仅冰山一角

情感大头说说
2026-03-04 17:19:48
威廉王子高调表达爱意,亲自发布凯特新照,全家祝她生日快乐!

威廉王子高调表达爱意,亲自发布凯特新照,全家祝她生日快乐!

趣味萌宠的日常
2026-03-04 20:25:11
曼联客战纽卡:谢什科、约罗、马兹拉维首发,托纳利出战

曼联客战纽卡:谢什科、约罗、马兹拉维首发,托纳利出战

懂球帝
2026-03-05 03:12:08
伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

环球网资讯
2026-03-03 07:00:20
父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

健康之光
2026-03-03 17:35:03
定了!C919总装厂上海!西安军工大佬为何失手?解密300万零件的生死时速

定了!C919总装厂上海!西安军工大佬为何失手?解密300万零件的生死时速

Thurman在昆明
2026-03-04 20:34:03
NBA新秀榜:克努佩尔继续榜首,弗拉格第二,哈珀升至第四

NBA新秀榜:克努佩尔继续榜首,弗拉格第二,哈珀升至第四

懂球帝
2026-03-05 00:33:09
2026-03-05 05:20:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25820文章数 687533关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

房产
亲子
手机
家居
公开课

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

亲子要闻

罕见七胞胎超市排队看海鲜

手机要闻

一加15T 全面升级,官方剧透来了

家居要闻

极简无界 静居自安然

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版