网易首页 > 网易号 > 正文 申请入驻

AI 爬虫核武器!Crawl4AI 横空出世,数据采集只需一行代码

0
分享至

大家好,我是 Ai 学习的老章

推荐一个大模型周边项目

一、项目简介

Crawl4AI 是一款专为大语言模型(LLM)和 AI 应用设计的开源网页爬虫与数据抓取工具。它不仅能高效采集网页数据,还能直接输出结构化、干净的 Markdown 内容,非常适合用于 RAG(检索增强生成)、AI 微调、知识库建设等场景。

二、核心亮点

  • 为 LLM 优化:输出智能、精炼的 Markdown,极大方便 AI 下游处理。

  • 极速高效:实时爬取,速度提升 6 倍,性能与成本兼顾。

  • 灵活浏览器控制:支持会话管理、代理、定制化 hook,轻松应对反爬与复杂页面。

  • 启发式智能抽取:集成先进算法,减少对大模型的依赖,提升信息提取效率。

  • 开源易部署:无需 API Key,支持 Docker 与云端部署。

三、安装与快速上手
  1. 安装

pip install crawl4ai crawl4ai-setup  # 一键配置浏览器环境

如遇浏览器相关问题,可手动安装 Playwright:

python -m playwright install --with-deps chromium
  1. Python 快速示例

import asyncio from crawl4ai import * async def main():     async with AsyncWebCrawler() as crawler:         result = await crawler.arun(             url="[https://www.nbcnews.com/business",](https://www.nbcnews.com/business",)         )         print(result.markdown) if __name__ == "__main__":     asyncio.run(main())
  1. 命令行用法

# 基础爬取并输出 Markdown crwl [https://www.nbcnews.com/business](https://www.nbcnews.com/business) -o markdown # 深度爬取,BFS 策略,最多 10 页 crwl [https://docs.crawl4ai.com](https://docs.crawl4ai.com) --deep-crawl bfs --max-pages 10 # 调用 LLM 按问题抽取 crwl [https://www.example.com/products](https://www.example.com/products) -q "提取所有商品价格"
四、典型应用场景

构建 AI 知识库、FAQ、企业内网检索 自动化采集新闻、论坛、商品信息 支持自定义抽取策略,适配各类结构化/半结构化数据 结合 LLM 做智能问答、信息抽取

五、进阶用法示例

自定义内容过滤与 Markdown 生成

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode from crawl4ai.content_filter_strategy import PruningContentFilter from crawl4ai.markdown_generation_strategy import DefaultMarkdownGenerator asyncdef main():     browser_config = BrowserConfig(headless=True, verbose=True)     run_config = CrawlerRunConfig(         cache_mode=CacheMode.ENABLED,         markdown_generator=DefaultMarkdownGenerator(             content_filter=PruningContentFilter(threshold=0.48, threshold_type="fixed", min_word_threshold=0)         )     )     asyncwith AsyncWebCrawler(config=browser_config) as crawler:         result = await crawler.arun(             url="[https://docs.micronaut.io/4.7.6/guide/",](https://docs.micronaut.io/4.7.6/guide/",)             config=run_config         )         print(result.markdown.raw_markdown)

自定义 Schema 结构化抽取

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode from crawl4ai.extraction_strategy import JsonCssExtractionStrategy import json asyncdef main():     schema = {         "name": "课程信息",         "baseSelector": "section.charge-methodology .w-tab-content > div",         "fields": [             {"name": "section_title", "selector": "h3.heading-50", "type": "text"},             {"name": "course_name", "selector": ".text-block-93", "type": "text"},             {"name": "course_icon", "selector": ".image-92", "type": "attribute", "attribute": "src"}         ]     }     extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)     browser_config = BrowserConfig(headless=False, verbose=True)     run_config = CrawlerRunConfig(extraction_strategy=extraction_strategy, cache_mode=CacheMode.BYPASS)     asyncwith AsyncWebCrawler(config=browser_config) as crawler:         result = await crawler.arun(             url="[https://www.kidocode.com/degrees/technology",](https://www.kidocode.com/degrees/technology",)             config=run_config         )         companies = json.loads(result.extracted_content)         print(json.dumps(companies, indent=2))

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姚明:非常高兴听到王治郅入选FIBA名人堂 从小到大都是追着他成长

姚明:非常高兴听到王治郅入选FIBA名人堂 从小到大都是追着他成长

狼叔评论
2026-04-22 22:24:11
健身房骂人后续:大妈追到大厅继续骂,正面曝光已社死,老底被扒

健身房骂人后续:大妈追到大厅继续骂,正面曝光已社死,老底被扒

荷兰豆爱健康
2026-04-21 15:48:45
周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

鹤羽说个事
2026-04-02 23:00:01
苹果憋了20年的大招,终于要在iPhone 20上放出来了!

苹果憋了20年的大招,终于要在iPhone 20上放出来了!

明美无限
2026-04-22 17:42:22
辽篮休赛期面临大换血!四外援或一个不留,刘子庆要大刀阔斧改革

辽篮休赛期面临大换血!四外援或一个不留,刘子庆要大刀阔斧改革

老叶评球
2026-04-22 22:38:17
怒其不争!火箭名宿麦迪怒喷:申京一个全明星打成这样?

怒其不争!火箭名宿麦迪怒喷:申京一个全明星打成这样?

爱体育
2026-04-22 23:06:06
国家其实已经暗示得很明白了,只是很多人一直没真正听明白!

国家其实已经暗示得很明白了,只是很多人一直没真正听明白!

Ck的蜜糖
2026-04-10 17:45:46
生涯最佳一战!4年前你可是和文班争状元的天之骄子啊!

生涯最佳一战!4年前你可是和文班争状元的天之骄子啊!

篮球大图
2026-04-22 12:21:49
别等心梗才慌!美国心脏协会2026 最新指南,照着吃就能预防80%的心脏问题

别等心梗才慌!美国心脏协会2026 最新指南,照着吃就能预防80%的心脏问题

临床营养师刘遂谦
2026-04-20 07:02:47
2026教师改革:1800万人的教师的身份都变了

2026教师改革:1800万人的教师的身份都变了

猫叔东山再起
2026-04-20 09:05:09
郑钦文承认技术性退赛!伤病没有大碍,却等来地狱难度签表

郑钦文承认技术性退赛!伤病没有大碍,却等来地狱难度签表

一枚野球君
2026-04-22 20:25:21
“蒹葭”不读jiān jiá ,也不读jiān xiá ,正确读音是什么?又是什么意思呢?

“蒹葭”不读jiān jiá ,也不读jiān xiá ,正确读音是什么?又是什么意思呢?

每日一首古诗词
2026-04-22 20:55:53
遭同行排挤打压?张雪:所有品牌都不做我们的售后 只能自己直播

遭同行排挤打压?张雪:所有品牌都不做我们的售后 只能自己直播

念洲
2026-04-21 08:52:33
发现诺亚方舟?疑似诺亚方舟真身曝光,内部结构被雷达扫出

发现诺亚方舟?疑似诺亚方舟真身曝光,内部结构被雷达扫出

Science科学说
2026-04-21 20:40:34
降压药饭前吃还是饭后吃?再三提醒:牢记3个原则,否则等于白吃

降压药饭前吃还是饭后吃?再三提醒:牢记3个原则,否则等于白吃

DrX说
2026-04-22 14:55:06
豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

科学认识论
2026-04-20 14:45:02
2-1险胜却似“葬礼”:皇马赢了球,伯纳乌为何提前离场?

2-1险胜却似“葬礼”:皇马赢了球,伯纳乌为何提前离场?

落夜足球
2026-04-22 14:34:48
人类灭绝大局已定?科学家算出人类灭绝日期,我们能侥幸存活吗?

人类灭绝大局已定?科学家算出人类灭绝日期,我们能侥幸存活吗?

混沌录
2026-04-22 19:51:05
对越反击战牺牲最高级别将领:开战首日牺牲一个,撤军时牺牲一个

对越反击战牺牲最高级别将领:开战首日牺牲一个,撤军时牺牲一个

芳芳历史烩
2026-03-25 23:16:23
这两天,武大中南医院泌尿科的一位护士长被推上了风口浪尖。

这两天,武大中南医院泌尿科的一位护士长被推上了风口浪尖。

鬼菜生活
2026-04-22 20:28:07
2026-04-22 23:51:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3345文章数 11139关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

医院主任"巨额财产来源不明" 被指向女儿转账超800万

头条要闻

医院主任"巨额财产来源不明" 被指向女儿转账超800万

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

房产
健康
亲子
教育
军事航空

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

干细胞抗衰4大误区,90%的人都中招

亲子要闻

妈妈看不到的时候,孩子能拒绝才真的放心!

教育要闻

初中物理怎么学?树德名师提到学生要有三种思维

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版