网易首页 > 网易号 > 正文 申请入驻

99.3%压缩率:一个程序员如何用算法"骗过"15个大模型

0
分享至

一位开发者测试了15个主流大语言模型后,发现了一个反直觉的结论:让AI直接处理原始网页,是最贵的错误。

他的解决方案不是换更好的模型,而是把输入数据砍掉99.3%。最终架构比纯AI方案快10倍以上,成本降到可忽略。


第一堵墙:15个模型集体翻车

故事开始于一个典型场景。开发者想做一个网页数据提取工具,第一反应很"标准"——把页面扔给大模型,让它自己找数据。

然后现实给了他一巴掌。

一个普通商品列表页,原始DOM体积500-700KB。这意味着什么?按token计费的话,单页就要烧掉约15万token。等15-30秒才能拿到结果。遇到复杂页面直接撞上下文长度上限。

他在第一页就撞墙了。

测试名单很长:GPT-4、GPT-4o、Gemini 1.5 Pro、Gemini Ultra、Claude 3 Opus、Claude 3.5 Sonnet、Mistral Large、Llama 3 70B、Cohere Command R+,外加一批微调小模型。

结果出奇一致:没有模型能解决延迟问题。不是因为模型不够强,是因为他让模型解决了错误的问题。

核心发现:输入尺寸才是元凶

真正的问题不在模型能力,而在输入尺寸。

开发者做了一个DOM预处理器。效果:580KB → 4.2KB。压缩率99.3%。

输入变成4KB之后,每个模型都变快了。但更有趣的事情发生了——在这个尺寸下,重复模式变得肉眼可见。同样的结构重复20次、50次、100次:商品卡片、目录行、搜索结果。

他意识到一个关键问题:如果结构本身已经足够明显,为什么要花钱让模型去"发现"它?

于是写了一个启发式检测器。规则很简单:找重复的标签结构、识别列表容器、定位数据行。

AI的角色被重新定位——不是在600KB垃圾里找 needle,而是在已经定位好的4KB片段里做标注和格式化。这是200 token的工作量,不是15万。

速度对比很直观:纯LLM方案25-35秒,启发式+AI混合架构2-3秒。10倍以上的差距。

产品化:Clura的架构逻辑

这套方法变成了Clura,一个浏览器扩展形态的网页抓取工具。

工作流程被拆成两层:启发式引擎负责检测,AI负责标注。打开任意页面,Clura自动用启发式规则找出所有列表结构。用户选一个列表,选要的字段,秒级提取全部记录。

没有"描述你想要什么"的提示词工程。没有机器人训练环节。没有30秒等待。

关键洞察被总结成一句话:大语言模型(LLM)极其擅长理解"某物是什么意思",但极其不擅长在600KB HTML里扫描"某物在哪里"。

后者是结构模式问题——而结构模式问题,正是算法擅长的领域。

可复用的方法论

开发者提炼出一个通用架构原则:不是"用最好的模型",而是"用启发式方法把问题压缩到模型真正擅长的尺度"。

他特别指出,DOM预处理这一步 alone 就值得任何做LLM应用的团队借鉴。无论底层任务是什么,它能让每个模型更快、更便宜、更准确。

Clura的运行方式也做了针对性设计:检测完全在浏览器本地完成,没有服务器往返。这解释了为什么能做到"秒级"——网络延迟被剔除了。

产品形态是Chrome扩展,免费试用。模板功能支持快速回复FAQ或存储可复用片段。

为什么这件事值得关注

这个案例提供了一个清晰的成本锚点。15万token vs 200 token,差距是750倍。即使按最便宜的模型定价,这也是从"不可商用"到"忽略不计"的跨越。

更深层的信号是:AI应用层的竞争,正在从"模型能力"转向"问题拆解能力"。同样的GPT-4,喂600KB和喂4KB,产出质量和响应速度完全不同。

开发者社区里有个隐形成本很少被讨论——token浪费。很多团队把原始数据直接塞给模型,因为"这样最简单"。Clura的案例证明,前置做一层轻量处理,ROI可能高得惊人。

另一个值得注意的点是浏览器端计算。Clura把检测环节完全本地化,这不仅省了服务器成本,也省了网络延迟。对于需要实时交互的场景,这种架构选择可能是必选项而非可选项。

最后回到那个核心判断:LLM的理解能力+算法的扫描能力,这种分层架构可能是" messy real-world inputs "(混乱真实世界输入)的标准解法。不是用AI取代算法,而是用算法给AI减负。

99.3%的压缩率,750倍的token效率提升,10倍以上的速度差距——这三个数字定义了当前AI应用层的一个关键优化空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王海称胖东来套取国家补贴资金,情节严重负责人可承担刑事责任

王海称胖东来套取国家补贴资金,情节严重负责人可承担刑事责任

映射生活的身影
2026-05-06 23:38:17
四会市委书记翁卓辉被查

四会市委书记翁卓辉被查

南方都市报
2026-05-06 17:54:08
台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

共工之锚
2026-05-07 00:04:56
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
自己废物老公是大神是什么体验?网友:这种梦会害死好多女生的

自己废物老公是大神是什么体验?网友:这种梦会害死好多女生的

解读热点事件
2026-05-06 00:45:30
一只青蛙如何被井外势力蛊惑

一只青蛙如何被井外势力蛊惑

黔有虎
2026-05-05 22:54:29
丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

闪电新闻
2026-05-06 12:58:59
世界杯转播给中国开3亿美元天价、是印度的17倍,央视拒绝

世界杯转播给中国开3亿美元天价、是印度的17倍,央视拒绝

大风新闻
2026-05-07 07:47:03
一批年轻女性靠 “崩老头” 赚快钱,而80、90后成为被崩的“老头”!

一批年轻女性靠 “崩老头” 赚快钱,而80、90后成为被崩的“老头”!

品牌新
2026-05-06 16:28:30
伊朗称各港口已准备好提供一般海事服务、技术支持以及卫生和医疗服务;伊朗官员:美军动用所有军事手段也无法开通霍尔木兹海峡

伊朗称各港口已准备好提供一般海事服务、技术支持以及卫生和医疗服务;伊朗官员:美军动用所有军事手段也无法开通霍尔木兹海峡

鲁中晨报
2026-05-07 07:02:18
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

小莜读史
2026-05-04 20:33:26
中国财政究竟养了多少人?

中国财政究竟养了多少人?

自由评论
2026-05-06 09:05:05
芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

曼谷陈大叔
2026-05-06 15:05:34
48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

近史博览
2026-05-06 14:42:13
曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

项鹏飞
2026-05-06 16:51:22
0-1北京!广东输在哪?数据一目了然,2人在拖后腿,板凳对比辣眼

0-1北京!广东输在哪?数据一目了然,2人在拖后腿,板凳对比辣眼

后仰大风车
2026-05-06 21:37:47
47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

嘴角上翘的弧度
2026-05-06 19:51:52
欧冠决赛对阵出炉:巴黎力争卫冕!阿森纳盼复仇+冲首冠 31日打响

欧冠决赛对阵出炉:巴黎力争卫冕!阿森纳盼复仇+冲首冠 31日打响

我爱英超
2026-05-07 05:06:13
44岁前国脚9年前突发脑溢血,透露近况,每天学走路努力康复

44岁前国脚9年前突发脑溢血,透露近况,每天学走路努力康复

米修体育
2026-05-06 23:59:56
2026-05-07 08:08:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2235文章数 26关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:美伊"很可能"达成协议

头条要闻

特朗普:美伊"很可能"达成协议

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

本地
健康
时尚
家居
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

有些路,不必每一步都走得那么用力

家居要闻

大胆前卫 时尚大宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版