网易首页 > 网易号 > 正文 申请入驻

90%的token都在为广告买单:3个网页实测

0
分享至


你每天喂给ChatGPT的网页,可能有90%的内容是垃圾。不是观点垃圾,是格式垃圾——导航栏、广告脚本、布局代码,这些你根本看不见的东西,正在吃掉你的API额度。

一个1500字的博客文章,原始HTML体积50-80KB。真正有用的文字?6-8KB。换句话说,你每发一次链接,都在为商家的广告位付费。

3个真实网页的拆解测试

开发者Danny Postma做了组对照实验。他选了三个典型场景:一篇技术博客、一个GitHub仓库、一段YouTube字幕。结果很直观。

技术博客那页,HTML 47KB,Markdown 4.2KB。GitHub README更夸张,原始代码91KB,提取后只剩2.8KB。YouTube字幕相对干净,但也从18KB压到了1.1KB。

平均压缩率87%。这意味着什么?按GPT-4o的定价(输入token每百万2.5美元),如果你每天处理30个网页,一年能省下的钱够买两部iPhone。

Postma的原话:「你在为token付费,但80-90%的context window被导航栏、广告、脚本和布局噪音浪费了。」


为什么复制粘贴总是翻车

很多人试过直接把网页内容丢给Claude或ChatGPT。结果时好时坏,有时候AI能精准总结,有时候突然开始分析页脚的版权声明。

问题出在HTML的结构性噪音。现代网页不是为阅读设计的,是为广告变现设计的。侧边栏推荐、弹窗订阅、追踪脚本——这些元素对 human 是视觉干扰,对 LLM 是语义污染。

更隐蔽的是嵌套标签。一个段落可能被拆成十几个span包裹,中间穿插着class名和style属性。AI解析时,这些噪声会扭曲注意力权重,让模型在无关细节上消耗算力。

Postma的解决方案很直接:用130多个CSS选择器做前置过滤,再针对14个平台做专用提取器。Reddit线程、arXiv论文、GitHub README——每种格式都有对应的清洗规则。

本地处理是底线,不是卖点

Web2MD的核心设计是「所有处理在浏览器本地完成」。这个选择在今天反而成了差异化。


市面上不少类似工具会把网页内容传到云端解析。对普通用户无所谓,但对处理敏感文档的人——律师、记者、研究员——这是红线。Postma的架构绕过了这个问题,代价是扩展包体积大了点,但隐私风险归零。

定价策略也刻意做了分层。免费版每天3次转换,够轻度用户偶尔用。Pro版9美元/月不限量,瞄准的是每天需要批量处理的研究者或内容团队。

有个细节值得玩味:模板功能。用户可以把常用问答或代码片段存成模板,下次直接调用。这其实是把「网页转Markdown」这个单点工具,往「个人知识库入口」的方向推了一步。

省下的钱,够买什么

按Postma的测算,重度用户(每天30页)一年能省下的token费用约1800美元。这个数字建立在两个假设上:你原本在用API直接处理原始HTML,且你的内容来源足够杂。

但现实的账更复杂。很多人其实用的是ChatGPT Plus或Claude Pro的订阅版,不直接按token计费。对他们来说,Web2MD的价值不是省钱,是提升输出质量——更干净的输入意味着更少的幻觉和跑偏。

Postma自己也在用这套工作流。他在产品页埋了个开放问题:「你现在的网页→LLM流程是什么?」

这个问题背后有个观察:大多数人其实没有「流程」,只有「习惯」。复制,粘贴,祈祷。工具的机会往往藏在这些未被命名的 friction 里。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这俩人虽说是不违反法律吧,但是纯膈应人啊

这俩人虽说是不违反法律吧,但是纯膈应人啊

岁月有情1314
2026-03-30 14:37:46
齐达内早看穿了一切!从被狂嘘到皇马非卖品,琼阿梅尼打脸全场

齐达内早看穿了一切!从被狂嘘到皇马非卖品,琼阿梅尼打脸全场

仰卧撑FTUer
2026-03-31 09:45:06
两岸统一为什么迫在眉睫?

两岸统一为什么迫在眉睫?

心中的麦田
2026-03-04 20:12:08
突变!原油直线大跳水!特朗普最新发声,事关美伊冲突、霍尔木兹海峡!

突变!原油直线大跳水!特朗普最新发声,事关美伊冲突、霍尔木兹海峡!

证券时报e公司
2026-03-31 10:11:05
我月薪8万妻子却总和岳父岳母骂我没本事,说我月薪才2800

我月薪8万妻子却总和岳父岳母骂我没本事,说我月薪才2800

小秋情感说
2026-03-31 09:07:32
法尔胜股价创新高

法尔胜股价创新高

每日经济新闻
2026-03-31 09:54:04
张雪回应禁止新手买820RR摩托车:我希望少死几个人

张雪回应禁止新手买820RR摩托车:我希望少死几个人

IT之家
2026-03-31 11:28:08
华北地区高校2026年预算:北京工业大学66.47亿居首、太原理工第3

华北地区高校2026年预算:北京工业大学66.47亿居首、太原理工第3

手工制作阿爱
2026-03-31 13:57:28
广州机场大面积延误,深圳机场 多航班备降

广州机场大面积延误,深圳机场 多航班备降

每日经济新闻
2026-03-30 14:42:30
伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

青途历史
2026-03-30 10:26:03
明天农历二月十二,别忘“吃二样,做一事,忌一事”,添喜添福气

明天农历二月十二,别忘“吃二样,做一事,忌一事”,添喜添福气

雪峰儿
2026-03-29 05:33:19
没有三两三,哪敢这么穿

没有三两三,哪敢这么穿

独角showing
2026-03-15 21:32:11
30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

苏格拉高
2026-03-30 07:40:12
拟10股派38元,25万股民嗨了 美的440亿元利润,回购加分红全还给股东!

拟10股派38元,25万股民嗨了 美的440亿元利润,回购加分红全还给股东!

红星新闻
2026-03-31 13:27:12
香江马拉松,48岁黄晓明秒了45岁黄宗泽,才知清爽和油腻的区别

香江马拉松,48岁黄晓明秒了45岁黄宗泽,才知清爽和油腻的区别

大铁猫娱乐
2026-03-30 12:30:03
75年奶奶收留了一对落难姐弟,多年后一位年轻军官找上了门

75年奶奶收留了一对落难姐弟,多年后一位年轻军官找上了门

人间百态大全
2026-03-29 06:35:03
根据历史规律,中国极有可能成为地球上最后一个超级大国

根据历史规律,中国极有可能成为地球上最后一个超级大国

阅微札记
2026-03-31 10:02:28
CCTV5直播!3支国足出战:邵佳一率队冲2连胜,U23战越南剑指冠军

CCTV5直播!3支国足出战:邵佳一率队冲2连胜,U23战越南剑指冠军

球场没跑道
2026-03-30 15:39:58
RAC1:巴萨将向莱万提供一份低薪合同,头号目标是阿尔瓦雷斯

RAC1:巴萨将向莱万提供一份低薪合同,头号目标是阿尔瓦雷斯

懂球帝
2026-03-31 05:50:27
德国外长当着全世界的面,一句话把桌子掀了:

德国外长当着全世界的面,一句话把桌子掀了:

果妈聊娱乐
2026-03-31 14:32:14
2026-03-31 15:15:00
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
506文章数 3关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

房产
教育
亲子
数码
游戏

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

教育要闻

别让生病拖垮成绩!春季流感+超短学期,聪明家长都在这样追进度

亲子要闻

辛苦考上幼师,幼儿园没了

数码要闻

炬芯端侧AI ATS3231单芯片高端游戏耳机方案西伯利亚重磅首发!

在武林风云中成为一代宗师——《宗门起源》现已登陆 Steam!

无障碍浏览 进入关怀版