去年秋天,我接了个内部知识库的项目。目标很清晰:把团队过去三年在Medium上写的所有技术博客,全部接进一个支持自然语言问答的检索系统。我第一个念头就是——写爬虫。BeautifulSoup解析HTML,绕开导航栏、拍手栏、评论区,再把正文捞出来。结果第一篇文章就花了我一个下午,抓到的正文开头还夹着“推荐阅读”的横幅。我看着调试窗口里那一串混乱的div标签,心想这事不该这么麻烦。
后来朋友扔给我一个API地址,说“试试这个,专门干这件事的”。我将信将疑地发了一个GET请求,传了个文章ID过去。返回的不是HTML,而是干干净净的纯文本,连一个
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.