网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

还在用正则表达式爬网页？你的数据早该崩了

2026-05-15 01:06:32　来源: Ping值焦虑

北京举报

0

分享至

上周三凌晨两点，我的Slack又响了。客户问为什么导出的CSV文件里，价格列全是空的。我打开日志，没有报错，没有异常，程序"正常运行"了72小时——只是什么都没抓到。

问题出在一行写了三年的代码：re.findall(r'

', html)。前端团队把class="price"改成了class="listing-price"，没有通知任何人。我的"爬虫"其实是个布局传感器，只对特定的HTML结构有反应。结构一变，它就成了哑巴。

这个季度我重写了Idealista的爬虫，第一件事就是删掉所有正则表达式。不是因为我讨厌正则，而是因为用正则解析HTML本质上是在赌：赌前端工程师不会重构，赌产品经理不会A/B测试，赌那个div永远不会被包进另一个span里。这三件事没有一件值得赌。

在写下一行re.findall之前，先过一遍这个三问清单：

第一，有没有稳定的无障碍属性？getByRole('heading', { name: /price/i })比任何class选择器都活得久。class名是给人看的，无障碍标签是给机器读的，改前者的成本远低于后者。

第二，数据真的在渲染后的HTML里吗？很多时候你要的东西其实藏在

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

不是幻觉！Claude自下指令甩锅人类，百万上下文沦为降智重灾区

新智元 2026-05-14 13:08:29
26 跟贴 26
人手一个数据库，Kimi背后这套AI基建到底有多能扛？

量子位 2026-05-14 22:54:30
0 跟贴 0

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0

国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

机器之心Pro 2026-05-14 16:03:08
0 跟贴 0
16岁给150人搭系统，我学到了什么

宅家小欢喜 2026-05-15 02:16:45
0 跟贴 0

这机器太狠了！芒果树上挂满金灿灿的果实，一键收割机直接搞定！

拳击格斗大放送 2026-05-11 10:00:04
14 跟贴 14

表面数据很漂亮，实际充电却吃力，“大鲸”级的真实短板在哪？

陈虎点兵 2026-05-13 19:31:20
1 跟贴 1
舔毛代码和挠痒代码冲突，猫咪瞬间宕机了

河南都市频道 2026-05-14 18:17:54
0 跟贴 0

当舔毛代码和挠痒代码发生冲突，猫咪在一阵抽搐后当场“死机”

重庆视点 2026-05-14 18:30:22
0 跟贴 0
GPT-5.6曝光了！OpenAI砸钱宣战：换掉Claude Code

新智元 2026-05-14 10:18:54
27 跟贴 27
正式取消！知名985高校：公众进校不用预约了

南方都市报 2026-05-14 13:02:01
10093 跟贴 10093
小猫舔毛代码和挠痒代码起了冲突，身体都僵住了，但还是想去舔毛

重庆城市TV 2026-05-14 16:42:49
0 跟贴 0
客户交付Agent设计：别把草稿层当真相库

野生运营 2026-05-14 07:28:55
0 跟贴 0
同一PDF里藏着三种文档，你的提取策略还在一刀切？

Ping值焦虑 2026-05-14 07:29:39
0 跟贴 0
袋鼠为啥能从2克小不点逆袭成自然界的肌肉大块头？有啥科学解释

向航说 2026-05-10 22:50:03
1 跟贴 1
1104女间谍乔装混入我军内部，还偷走了重要的文件！我的特一营78

长河电影 2026-05-11 16:14:59
1 跟贴 1
5月8日，美国防部公布首批161份UFO相关解密文件

别跟我提回忆 2026-05-14 04:04:58
0 跟贴 0
那个反复尝试的人，后来怎样了

风里藏温柔啊 2026-05-15 00:41:14
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
那个网址背后，藏着谁没说完的话

晚风寄温柔 2026-05-15 01:21:02
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
CE标志新规五年实战：这些坑团队还在踩

我是一个粉刷匠2 2026-05-15 00:48:50
0 跟贴 0
AI导演赢麻了两行代码“缝补”一生遗憾人类真要集体失业？

网易科技态度见闻 2026-05-11 18:11:04
0 跟贴 0
日本IT市场1300亿美元的五个空白：Excel写代码、知识随人退休

硬核玩家2哈 2026-05-15 01:30:18
0 跟贴 0
这些绝密 UFO 文件，普通人第一次能看到

富贵春天 2026-05-14 07:58:05
79 跟贴 79
张雪机车820RR暂停交付，更换油泵解决供油不畅问题

嘴角上翘的弧度 2026-05-14 22:10:48
4 跟贴 4
广东73-88北京！谁是输球罪魁祸首赛后数据一目了然，不是胡明轩

肆无忌惮的哭 2026-05-14 02:34:26
0 跟贴 0
金属扩孔操作，变化真是肉眼可见，机器配合效率真高！

爆笑趣世界 2026-05-12 08:46:38
1 跟贴 1
送文件撞破老板秘密，场面瞬间尴尬，我该怎么自救！

松鼠的搞笑日记 2026-05-11 10:58:54
1 跟贴 1
越南劳保市场揭秘：数据案例 + 高端缺口，采购商信息欢迎交流

越中商务 2026-05-14 08:54:36
1 跟贴 1
古巴宣布燃油储备耗尽全国电网进入"危急状态"

澎湃新闻 2026-05-14 19:20:31
2183 跟贴 2183
形势有多严峻？坐标上海：80末90初程序员都开始失业，评论区炸了

慧翔百科 2026-05-14 09:00:11
41 跟贴 41
“小马云”范小勤成年后直播首秀，在线人数突破7万，礼物刷屏

星视频 2026-05-14 15:29:30
293 跟贴 293
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
3112 跟贴 3112
工人用水切割瓷砖，没想到比机器还好用，水的力量不容小觑

农村小辰 2026-05-11 19:49:40
1 跟贴 1
法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

新京报动新闻 2026-05-11 01:46:32
1131 跟贴 1131
《黑袍纠察队》S5E7：临别前的抉择与代价

影视情报室 2026-05-13 15:06:58
2 跟贴 2
意外！两架F-35A阿曼湾失联，美军收到求救代码紧急应对

奥利奥变薄了的 2026-05-14 09:23:42
0 跟贴 0
印度一名男子作业时把布缠到脖子上，结果被机器吊起来变成上吊

三瓜两枣子 2026-05-12 10:26:10
11 跟贴 11
女生到底有多深，记住这几个数据，在家也可以做测试

蓝精灵搞笑 2026-05-10 09:25:15
0 跟贴 0

为什么北洋当兵吃饷能养一家人，到老蒋时从军就连饭都吃不饱了？

为什么北洋当兵吃饷能养一家人，到老蒋时从军就连饭都吃不饱了？

微野谈写作

2026-05-13 12:20:08

41岁白百何首晒二胎，二婚丈夫身份终于曝光：兜兜转转还是你！

41岁白百何首晒二胎，二婚丈夫身份终于曝光：兜兜转转还是你！

In风尚

2026-05-12 06:04:59

广东一女用虎鞭炖汤，拿给丈夫当补品喝，当晚就后悔莫及

广东一女用虎鞭炖汤，拿给丈夫当补品喝，当晚就后悔莫及

叮当当科技

2026-05-15 01:29:03

八部门突然发文！余额宝被“移出”收银台，发生啥了

八部门突然发文！余额宝被“移出”收银台，发生啥了

呼呼历史论

2026-05-14 00:54:13

干纪检22年说实话：留置从来不由金额定，8千可留20万可不留

干纪检22年说实话：留置从来不由金额定，8千可留20万可不留

林子说事

2026-05-11 16:38:58

“流氓有文化更可怕”，退休老干部频繁联系女幼师，聊天记录曝光

“流氓有文化更可怕”，退休老干部频繁联系女幼师，聊天记录曝光

妍妍教育日记

2026-01-27 19:58:28

人民日报国纪平：中美关系回不到过去，但能够有一个更好的未来

人民日报国纪平：中美关系回不到过去，但能够有一个更好的未来

每日经济新闻

2026-05-13 18:23:39

黄仁勋夫妇捐赠算力，价值1.08亿美元，英伟达盘前涨超2%！华尔街大佬：算力将成为一种新资产

黄仁勋夫妇捐赠算力，价值1.08亿美元，英伟达盘前涨超2%！华尔街大佬：算力将成为一种新资产

每日经济新闻

2026-05-14 17:05:16

小心！欧洲被打服了，中东也不闹了，美国的目标只剩下东亚

小心！欧洲被打服了，中东也不闹了，美国的目标只剩下东亚

西府赵王爷

2025-03-22 15:47:18

广西首府之争：韦国清建议定柳州，毛主席：那按逻辑首都应定兰州

广西首府之争：韦国清建议定柳州，毛主席：那按逻辑首都应定兰州

野蛮不失女人心

2024-10-07 10:51:55

12岁男孩确诊癌症晚期！研究证实：这5种添加剂正在升高癌症风险……

12岁男孩确诊癌症晚期！研究证实：这5种添加剂正在升高癌症风险……

环球网资讯

2026-05-11 14:21:45

天津高校最新排名有变：南开下滑！天大稳固第2名，天农大涨

天津高校最新排名有变：南开下滑！天大稳固第2名，天农大涨

Delete丨CC

2026-05-14 17:42:20

“最美婴儿”走红，像是在娘胎里整了容，网友：看一眼就想抱走

“最美婴儿”走红，像是在娘胎里整了容，网友：看一眼就想抱走

大果小果妈妈

2026-04-23 13:35:47

林诗栋夺冠回海南，妈妈做了一个决定，网友：这母爱永远拿得出手

林诗栋夺冠回海南，妈妈做了一个决定，网友：这母爱永远拿得出手

乐悠悠娱乐

2026-05-14 13:13:09

不是玄学！家里若现这4大怪象，恭喜住进聚宝盆，有一条就偷着乐

不是玄学！家里若现这4大怪象，恭喜住进聚宝盆，有一条就偷着乐

手工制作阿爱

2026-05-09 01:32:24

为期5年！全国医院大检查启动

医疗器械经销商联盟

2026-05-14 18:09:28

两性关系：女人最爱这2种肢体触摸，99%女人都会动情

两性关系：女人最爱这2种肢体触摸，99%女人都会动情

皓皓情感说

2026-05-05 10:06:10

女保安下班后离奇消失！监控拍下凶手抛尸细节：凌晨多次拖箱出入大厦！香港警方披露

女保安下班后离奇消失！监控拍下凶手抛尸细节：凌晨多次拖箱出入大厦！香港警方披露

南方都市报

2026-05-14 22:04:08

支付宝更新，终于互通了！

果粉俱乐部

2026-05-14 13:10:04

警察绝对不能插手的5件事，真不能管，否则违法！

警察绝对不能插手的5件事，真不能管，否则违法！

细说职场

2026-04-20 15:52:21

有态度网友ytd

2653文章数 39关注度

往期回顾全部

科技要闻

马斯克说会谈很顺利黄仁勋点赞库克比耶

头条要闻

马斯克幼子装扮“火”了衣服包包都是中国造

头条要闻

马斯克幼子装扮“火”了衣服包包都是中国造

体育要闻

争议抽象天王山，和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸！全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

本地

教育

军事航空

家居要闻

精神奢享对话塔尖需求

亲子要闻

孤独症特教老师的工作，远不止“教说话”!（下）

本地新闻

用苏绣的方式，打开江西婺源

教育要闻

老师的绩效也随工资发了，领导好像不太能拿捏老师们了！

军事要闻

美以伊战争期间以总理密访阿联酋

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版