网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

爬了半年Medium，才发现一行代码就能提取纯净正文

2026-05-31 02:22:42　来源: 爬虫饲养员

北京举报

0

分享至

去年秋天，我接了个内部知识库的项目。目标很清晰：把团队过去三年在Medium上写的所有技术博客，全部接进一个支持自然语言问答的检索系统。我第一个念头就是——写爬虫。BeautifulSoup解析HTML，绕开导航栏、拍手栏、评论区，再把正文捞出来。结果第一篇文章就花了我一个下午，抓到的正文开头还夹着“推荐阅读”的横幅。我看着调试窗口里那一串混乱的div标签，心想这事不该这么麻烦。

后来朋友扔给我一个API地址，说“试试这个，专门干这件事的”。我将信将疑地发了一个GET请求，传了个文章ID过去。返回的不是HTML，而是干干净净的纯文本，连一个

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

消耗1830亿token，Meta用AI把数学教材翻译成了一个超大Lean库

机器之心Pro 2026-05-29 13:43:30
3 跟贴 3
全球首次单机降服万亿巨模DeepSeek-V4！RL后训练框架Orbit开源！

机器之心Pro 2026-05-28 11:48:03
2 跟贴 2

DiffusionOPD：复旦联合通义万相提出扩散模型在线策略蒸馏新范式

机器之心Pro 2026-05-29 16:23:04
1 跟贴 1

Opus 4.8来了，Anthropic估值即将突破万亿美元

虎嗅APP 2026-05-29 18:55:15
4 跟贴 4
有人花了2.5亿美元，买断了你的AI搜索结果

钛媒体APP 2026-05-18 14:21:27
3 跟贴 3

狗子：不好触发底层代码了

娱圈小宇宙 2026-05-29 20:29:47
10 跟贴 10

我造了一个会进化的本地面试教练

像素与芯片 2026-05-27 01:31:53
0 跟贴 0
女子吃了隔夜见手青连撞两辆车，回家后还对着空气辅导作业

南阳日报 2026-05-30 17:19:03
267 跟贴 267

没人想要你的软件，他们只想搞定一件事

赛博兰博 2026-05-28 03:02:26
0 跟贴 0
扎哈罗娃：俄将对罗马尼亚迅速采取报复措施

参考消息 2026-05-30 11:58:56
25311 跟贴 25311
社交媒体走私1700只爬虫，他被判5年多

知识碎碎念 2026-05-30 04:28:13
0 跟贴 0
AI自己写代码，训出1B端侧「小钢炮」-1

机器之心Pro 2026-05-26 14:32:09
0 跟贴 0
请客吃饭也是一门技术活

小叮当剪辑 2026-05-29 14:51:42
0 跟贴 0
《恶名昭彰2》发售16年，竟有玩家从代码里挖出从未曝光的隐藏超能力

队友祭天法力无边 2026-05-30 22:07:31
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
把对象当代码测，感情迟早崩

晚风也遗憾 2026-05-31 00:47:37
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
20美元内两个被忽视的必备工具

报错免疫体 2026-05-31 01:06:09
0 跟贴 0
藏在《星际航行者》代码里的秘密：第六次重启，神秘条件触发

字节漫游指南 2026-05-31 03:38:30
0 跟贴 0
集采百元一盒药，药店竟卖3960元，为何卖出如此高价？记者调查

新京报 2026-05-30 11:58:09
4007 跟贴 4007
罗翔与易中天探讨人性，这段对话我看了很多遍：原来这就是人性

灼凉 2026-05-28 20:12:49
3 跟贴 3
赛场现恶意横幅，两队默契倒脚抵制恶意与仇恨

太正经搞笑 2026-05-29 13:56:39
1 跟贴 1
大哥玩水上项目，这也太丝滑了，果真是深藏不露！

奇葩逗趣展览馆 2026-05-26 16:17:01
1 跟贴 1
湖北省召开全省领导干部会议

新京报 2026-05-30 13:13:05
6 跟贴 6
大部分公司的报表问题，根本不是数据的问题

薛定谔的BUG 2026-05-30 01:47:27
0 跟贴 0
这才叫绿化，小区里不该搞太多灌木，草皮加乔木最好！

老沾看生活 2026-05-27 15:41:00
0 跟贴 0
野球场篮球对抗升级球员无技术全靠身体碰撞冲突场面频发引热议

我很乖 2026-05-30 03:47:24
0 跟贴 0
再被曝光“圈路收费”的泸沽湖景区：已开通过境车辆专用通道

南方都市报 2026-05-29 17:10:06
1428 跟贴 1428
搭载华为全系技术，启境GT7发布，预售价21.99万起，也是卷啊！

猫meme团子 2026-05-30 02:49:41
0 跟贴 0
德云社处罚杨鹤通引热议！他说的这三句话，确实不该说

品茶悟浮沉 2026-05-31 00:32:35
0 跟贴 0
外国网友热评：汉服是为数不多可以和少数民族比拼的项目

每日娱音乐 2026-05-30 16:36:12
1 跟贴 1
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1866 跟贴 1866
6.4万的“特斯拉FSD”，你会买吗？

中国新闻周刊 2026-05-30 22:05:16
147 跟贴 147
韩军要向美方收回战时指挥权驻韩美军司令表达担忧

上观新闻 2026-05-30 18:34:24
354 跟贴 354
国泰航班降落滑行时有幼童哭闹，男乘客高声怒斥！航司回应

南方都市报 2026-05-30 20:52:09
533 跟贴 533
广州洛溪大桥被指热得像烤炉，时隔近一年仍未解决

新快报新闻 2026-05-30 13:35:57
484 跟贴 484
女子玩景区的滑梯，速度快到起飞，不该看的全看见了！

搞笑便利店 2026-05-29 16:54:59
2 跟贴 2
比亚迪技术实力铸就底气，承诺车主智驾双兜底

数码小甜 2026-05-30 15:11:58
3 跟贴 3
AI“带火”语音办公：打工人开始对着电脑嘀嘀咕咕

经济观察报 2026-05-29 18:46:01
0 跟贴 0
把我看哭了，所以不要给外卖小哥差评，多理解多包容，

爱笑无厘头 2026-05-29 11:46:33
139 跟贴 139

日媒：日本技术超越中国20年，日本固态电池获得重磅突破

日媒：日本技术超越中国20年，日本固态电池获得重磅突破

杜家科技

2026-05-29 18:26:33

好消息！中场球员同意与利物浦签订四年合同

好消息！中场球员同意与利物浦签订四年合同

体育硬核说

2026-05-31 02:12:57

美国担心的来了！沙特41%石油用人民币结算，并找中国换一样东西

美国担心的来了！沙特41%石油用人民币结算，并找中国换一样东西

叮当当科技

2026-05-31 07:51:45

留队实锤！詹姆斯让步摊牌，湖人终极冲冠阵容正式敲定

留队实锤！詹姆斯让步摊牌，湖人终极冲冠阵容正式敲定

林子说事

2026-05-30 20:49:55

现在的学术造假已经侮辱了造假行业

现在的学术造假已经侮辱了造假行业

新浪财经

2026-05-30 10:24:11

兰州相亲现场：35+女士站成排，男士都绕着走，评论区全是大实话

兰州相亲现场：35+女士站成排，男士都绕着走，评论区全是大实话

谭谈社会

2026-05-24 23:20:37

姆总独自叹息！巴黎卫冕本赛季欧冠，最伤心的不只是阿森纳

姆总独自叹息！巴黎卫冕本赛季欧冠，最伤心的不只是阿森纳

里芃芃体育

2026-05-31 07:38:55

阿尔维斯：在监狱里打扫卫生赚113欧元，比踢球赚数百万欧更重要

阿尔维斯：在监狱里打扫卫生赚113欧元，比踢球赚数百万欧更重要

画夕

2026-05-30 07:14:08

大型船只如果要沉没，为何人们宁愿等着沉下去，也不愿跳海逃生？

大型船只如果要沉没，为何人们宁愿等着沉下去，也不愿跳海逃生？

收藏大视界

2026-05-02 21:43:05

励志！方媛原来是个安徽农家女，曾在上海做过导购，母亲还曾失业

励志！方媛原来是个安徽农家女，曾在上海做过导购，母亲还曾失业

魔都姐姐杂谈

2026-05-19 08:58:40

京东P8进厂“打螺丝”一个月了。月薪8000多元，饭卡里的钱吃不完

京东P8进厂“打螺丝”一个月了。月薪8000多元，饭卡里的钱吃不完

蚂蚁大喇叭

2026-05-30 17:04:02

古代犯人发配需要衙役押送，往返几千里路，衙役是不是也很遭罪？

古代犯人发配需要衙役押送，往返几千里路，衙役是不是也很遭罪？

小豫讲故事

2026-05-29 06:00:15

上海大鲨鱼将迎来最严峻考验？CBA总决赛第三战今晚举行

上海大鲨鱼将迎来最严峻考验？CBA总决赛第三战今晚举行

上观新闻

2026-05-31 04:14:15

防长没来也照样怼你！中国代表在香会“驱逐”日本:没资格谈防务

防长没来也照样怼你！中国代表在香会“驱逐”日本:没资格谈防务

阿龙聊军事

2026-05-31 01:03:58

女性绝经后，还能进行夫妻生活吗？下面干巴巴的，究竟该怎么办？

女性绝经后，还能进行夫妻生活吗？下面干巴巴的，究竟该怎么办？

医者荣耀

2025-12-11 12:05:05

黄仁勋时隔7个月再赴首尔：韩国财阀排着队请吃饭

黄仁勋时隔7个月再赴首尔：韩国财阀排着队请吃饭

世界王室那些事

2026-05-30 17:35:55

古特雷斯将下台，美国想全盘安排新秘书长人选，王毅外长及时发声

古特雷斯将下台，美国想全盘安排新秘书长人选，王毅外长及时发声

战旗红

2026-05-31 08:30:14

陪玩陪睡根本不够！认干爹、舔手指，背地里的阴暗面完全藏不住了

陪玩陪睡根本不够！认干爹、舔手指，背地里的阴暗面完全藏不住了

杰丝聊古今

2026-05-03 13:35:27

“说着说着，他的手就趁你不注意，他手就捞过来，就很熟练。”武汉女子称报案维权反遭猥亵，多次向相关部门举报、报警

“说着说着，他的手就趁你不注意，他手就捞过来，就很熟练。”武汉女子称报案维权反遭猥亵，多次向相关部门举报、报警

都市快报橙柿互动

2026-05-30 08:18:51

袁立病中公开与辛柏青真实关系，守护他丧妻体面

袁立病中公开与辛柏青真实关系，守护他丧妻体面

TVB的四小花

2026-05-30 00:42:11

爬虫饲养员

业余养了只叫“龙虾”的AI爬虫，主业是给互联网打工。

4234文章数 37关注度

往期回顾全部

科技要闻

车圈大佬发声：价格战远去，但竞争仍残酷

头条要闻

房主将住宅变"网约房"挂到网上接受预订邻居不满起诉

头条要闻

房主将住宅变"网约房"挂到网上接受预订邻居不满起诉

体育要闻

巴黎再度捧起欧冠奖杯枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

字节跳动的 "一盘大棋"

汽车要闻

900V+3.2秒破百领克10+&领克10上市16.99万元起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

教育

亲子

房产

数码

伊姐周六热推：电视剧《樊笼》；电视剧《翘楚》......

教育要闻

学好初中数学跟智商没有1毛钱关系！

亲子要闻

嗨，小朋友们，彩虹糖糖讲绘本啦，今天要讲的故事是《有你真..

房产要闻

红动五月！全国抢入核心资产，广州盯紧凯旋新世界！

数码要闻

vivo S60系列发布：2899元起推出4K原生感Live

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版