一个房产批发商每晚自动处理14个县的评估数据,稳定产出125条评分线索,全年无休。这套系统没雇一个数据工程师,核心代码只有几百行。
Load Bearing Capital(LBC)做的是"房产批发"生意——找到 distressed properties( distressed properties, distressed properties, distressed properties),快速转手给投资人。速度就是一切。他们最近把技术栈摊开了:CrawlOS + Supabase + pg_cron,三件套跑通14个县的自动化管道。
为什么房产批发商会自建数据管道?
传统房产投资靠人工刷 county assessor 网站,一个县几万条记录,14个县就是天文数字。LBC 的解法很直接:让机器每晚去"抄作业"。
他们盯上的是 HCAD(Harris County Appraisal District,哈里斯县评估区)——德州最大的房产评估数据库之一,公开、免费、结构混乱。手动扒数据的人,要么被封 IP,要么抄到一半发现格式变了。
CrawlOS 在这里的角色类似"智能爬虫中间件"。它不负责存储,只负责把 county 网站的怪格式洗成干净 JSON,然后丢进 Supabase。LBC 为此设计了 17 张表的 schema,把房产地址、业主信息、欠税记录、评估历史拆得细碎,方便后续的 lead scoring(线索评分)。
17 张表不是炫技,是为了让评分算法能按需拼装。
比如一张表存"当前欠税金额",另一张存"过去5年评估值波动",评分时 JOIN 一下就能算出"急售概率"。这种设计让他们的 lead scoring 能在 30 秒内跑完一批,而不是等几分钟的复杂查询。
pg_cron 怎么做到"每晚自动抄作业"?
Supabase 底层是 PostgreSQL,pg_cron 是 Postgres 的定时任务扩展。LBC 写了一个叫 lbc-hcad-actor 的 actor(CrawlOS 的执行单元),每晚固定时间触发。
这个 actor 的工作流程很机械:登录 HCAD → 按 parcel ID 范围分批抓取 → 清洗 → 写入 Supabase。但机械不代表简单。 county 网站有 rate limit(速率限制),LBC 的解法是把 14 个县拆成不同优先级队列,高价值区域先跑,低价值的放后面"捡漏"。
他们测过极限:单晚跑完全量会触发封禁,分批+随机延迟后,稳定产出 ~125 条评分线索。
这个数字是调出来的。太多会惊动源站,太少则浪费算力。125 条是他们算过 ROI 后的甜蜜点——刚好够 3 个交易员跟进,又不至于让后端评分 pipeline 过载。
CrawlOS 的"演员模式"解决了什么痛点?
爬虫圈的老大难是:目标网站一改版,代码全废。CrawlOS 的 actor 模型把"抓取逻辑"和"执行环境"拆开,类似 Docker 但更小。LBC 的 lbc-hcad-actor 只关心 HCAD 的 DOM 结构,运行环境由 CrawlOS 托管。
HCAD 去年改版过一次,把表格从 改成。LBC 的修复时间:2 小时。改 actor 里的选择器,重新部署,完事。没有服务器要重启,没有 cron 表达式要调。
这种"无服务器爬虫"的思路,让他们的 infra 开销压得很低。Supabase 的免费 tier 够跑测试,生产环境也只用最便宜的 compute 档位。
他们没雇专职 DevOps,产品经理自己写的 SQL 和 actor 代码。
从数据到钱的最后一英里
raw data(原始数据)不值钱,评分后的线索才值钱。LBC 的 pipeline 最后一步是把 Supabase 里的 17 张表,喂给一个简单的加权模型:
欠税金额 > 评估值跌幅 > 业主异地比例 > 房产空置标记。每个维度打分,汇总后排序。前 125 条自动进 CRM,带完整上下文:业主电话、欠税明细、周边成交价。
交易员早上到岗,看到的是已经洗好的线索,不是 raw CSV。这套流程跑通后,LBC 的 deal flow(交易流量)提升了 4 倍——不是因为他们找到了更多县,而是同一批县,他们比别人快 12 小时。
房产批发这个行当,信息差窗口期往往只有几天。LBC 的系统让他们在窗口打开时就已经站在门口。
这套架构最讽刺的地方在于:核心创新不是算法,是"把 county 网站的破数据,用最低成本洗成能用的格式"。17 张表、一个定时任务、几百行代码,解决的是 thousands of hours of manual labor(数千小时的人工劳动)。
如果 county 网站明天统一开放 API,这套系统会瞬间贬值。但在此之前,LBC 每晚还在稳定收获那 125 条线索——而他们的竞争对手,可能还在手动刷新页面。
你觉得国内的不动产登记系统,哪天会开放到能让这种玩法跑起来?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.