网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

这个开发者用2个开源模型，让电脑自己"读屏"给你听

2026-04-12 08:30:48　来源: 摸鱼算法

北京举报

0

分享至

96%的开发者不信任AI生成的代码，但48%的人懒得检查——这是Sonar最新报告里的数据。信任危机和懒惰并存，像极了我们面对屏幕阅读器时的矛盾：想要方便，又不愿意把数据交给云端。

一位叫paradisecy的开发者干脆自己动手。他用两个开源模型搭了一套本地流水线：屏幕截图→文字识别→语音播报，全程不上传任何数据。没有API密钥，没有订阅费，连显卡用的都是AMD。

从"眼累"到"手懒"：一个产品经理的自救

paradisecy的身份很典型：产品经理出身，每天在各种文档和界面之间切换。他的痛点不是"看不见"，而是"看累了"——长时间盯着屏幕，眼睛酸胀，但又不想错过信息。

市面上的解决方案要么贵，要么危险。云端TTS（文本转语音）服务按字符计费，读一本电子书可能花掉几十块；更麻烦的是隐私——你把屏幕内容传给别人，相当于把工作内容、邮件、甚至密码都交了出去。

他的解法很直接：所有计算本地化。OCR（光学字符识别）用LightOnOCR-2-1B，TTS用Kokoro-82M，两个模型都从HuggingFace自动下载，第一次运行后就不再依赖外部网络。AMD显卡通过ROCm 6.3跑OCR，CPU跑语音合成，延迟控制在100毫秒左右。

这套配置的消费级门槛很低：一块能跑ROCm的AMD显卡，加上任意现代CPU。

像素级偷懒：diff检测省下的算力

真正让这套系统"可用"的不是模型精度，而是一个工程细节：像素差异检测。

paradisecy在流水线里加了一步——每次截图后，先和上一帧做像素级对比。如果变化率低于1%，直接跳过OCR和TTS。读静态页面时完全静音，新内容加载才触发播报。

这个设计暴露了产品经理的思维惯性：不是"更快"，而是"更省"。算力是本地资源，能省则省；用户的注意力也是资源，不必要的播报就是噪音。

命令行参数很直白：

uv run python capture.py --diff-threshold 1.0

阈值可调。看小说设低一点，盯盘设高一点，避免股价小数点变动就触发播报。

自动翻页：一个被忽视的"杀手功能"

工具开源后，GitHub上的讨论集中在技术实现：ROCm兼容性、PyTorch版本、模型量化。但paradisecy自己最喜欢的功能被低估了——自动翻页。

用户可以画两个矩形：一个框住阅读区域，一个框住"下一页"按钮。TTS播报完成后，如果屏幕静止超过设定时间，系统自动点击翻页。配合Kindle for PC，能完整读完一本书，全程不用碰鼠标。

这个设计的微妙之处在于时序控制：不是"播完就点"，而是"播完且静止才点"。防止页面还没加载完就误触，也避免用户手动暂停时被干扰。

命令同样简洁：

uv run python capture.py --next-btn -i 2

-i 2表示检测间隔2秒，给页面加载留缓冲。

谁在用：从无障碍到"摸鱼"

paradisecy列了五个使用场景，优先级很有意思。第一个是"免提电子书阅读"，第二个是"金融仪表盘实时播报"，第三个才是"无障碍工具"——为那些本身不支持屏幕阅读器的应用补位。

这个排序透露了目标用户画像：不是视障群体（他们有更成熟的NVDA、JAWS），而是视力正常但想"解放眼睛"的人。终端日志播报、网页朗读，都是程序员场景。

一个意外的反馈来自交易员群体。有人用它盯盘，OCR识别价格变动，TTS播报关键阈值，diff检测避免频繁骚扰。本地运行的优势在这里被放大：延迟稳定，不会因为网络抖动错过信号。

安装依赖也尽量轻量化：slop负责画矩形选区，xdotool模拟鼠标点击，portaudio和libsndfile处理音频。Ubuntu/Debian系一条命令搞定，其他发行版稍作调整。

开源模型的"拼图游戏"

LightOnOCR-2-1B和Kokoro-82M都不是为"屏幕阅读"设计的。前者是通用OCR，后者是多语言TTS。paradisecy的工作是把它们串成流水线，补上工程细节。

这个模式正在变得普遍。HuggingFace上有大量"半成品"模型：能力足够，但缺少最后一公里。开发者像拼乐高一样组合它们，用几百行Python胶水代码解决特定问题。

Kokoro-82M尤其值得关注。82M参数，CPU实时运行，音质接近云端服务。它的训练数据和方法论没有公开，但权重文件随便下载。这种"开放权重、封闭训练"的灰色地带，正在重塑AI应用的开发成本。

paradisecy没有优化模型本身，他的贡献是"让它跑在AMD显卡上"。ROCm的生态位很尴尬：NVIDIA垄断了CUDA，AMD用户长期被忽视。一个能跑通ROCm的OCR流水线，本身就是稀缺文档。

项目开源一周，Star数没过千，但Issues很活跃。有人在问M系列Mac的支持，有人在折腾NVIDIA的适配，还有人想加Whisper做实时字幕。典型的开源项目早期状态：核心功能稳定，边缘需求爆炸。

如果屏幕阅读器能"看"任何界面、读任何文字、点任何按钮，我们还需要为每个应用单独做无障碍适配吗？还是说，这种"外挂式"方案反而会让开发者更偷懒——既然用户能自己解决，官方支持就不紧急了？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Claude Code 源码泄露了，有人用Python复刻了一个极简版

机器之心Pro 2026-04-02 11:30:10
4 跟贴 4
Moltbot作者被Claude刁难后：MiniMax M2.1是最优秀的开源模型

量子位 2026-01-29 13:17:17
13 跟贴 13

Claude终于认了！降智坐实，越聊越傻，3个bug全曝光

量子位 2026-04-26 17:57:07
2 跟贴 2

DeepSeek两天两次降价，百万token仅2分钱！调用量一度飙升近4倍，Agent模型价格锚被打穿

每日经济新闻 2026-04-27 09:20:11
0 跟贴 0
15k Star，37个AI投资大师，一款开源工具正在“拆掉”金融圈的围墙

钛媒体APP 2026-04-27 09:05:12
0 跟贴 0

女员工教老板用电脑，结果员工忍不住给了老板一巴掌

趣拍匣子 2026-04-24 11:34:18
1 跟贴 1

海外评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token消耗大

每日经济新闻 2026-04-25 13:27:09
755 跟贴 755
翻完DeepSeek报告，我们发现了中国AI的默契

机器之心Pro 2026-04-26 13:21:55
12 跟贴 12

杨植麟离“追光的月亮”还有多少个Token？

钛媒体APP 2026-04-26 19:29:22
0 跟贴 0
网友将水杯放在电脑旁边，过去拿杯子上的玩具结果直接打翻，网友：真是全自动闯祸机

小白社会观察站 2026-04-24 22:58:00
3 跟贴 3
学弟用了俩月的电脑，对枪一直卡，原来是被封存了实力！

爆笑奇葩哥 2026-04-26 16:54:19
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
支持远程操控和通用GUI操作1

机器之心Pro 2026-03-02 13:36:16
0 跟贴 0
网友展示给笔记本“喝可乐”降温，可乐不一定提神但可乐撒到电脑上一定提神

鹤视频 2026-04-24 18:50:15
0 跟贴 0
保姆偷走5瓶茅台，临走让我看亡父的旧电脑，我拆开后盖脸色煞白

晓艾故事汇 2026-04-26 16:19:00
0 跟贴 0
半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神

量子位 2026-04-23 16:07:27
8 跟贴 8
旧电脑电源千万别扔！就靠里面一个小零件，改造效果惊艳所有人！

莉泽Official 2026-04-26 02:21:41
0 跟贴 0
大司马直播透露“真皮网吧”倒闭原因：每天都有水友偷烟灰缸

仟游电竞 2026-04-26 10:54:27
16 跟贴 16
女生展示神仙工位，镜头一转美景尽收眼底，这办公环境绝了！

搞笑玉米粒 2026-04-25 11:03:18
1 跟贴 1
女子突发胃病跪在地上说不出话同事以为她在

探山城 2026-04-25 14:33:47
0 跟贴 0
数据分析师的Excel替代方案：Pandas的五个真相

闪存猎手 2026-04-23 15:18:54
0 跟贴 0
工位上的人，脑子里装着十个战场

热搜摘要官 2026-04-27 09:58:52
0 跟贴 0
一个两人工作室如何重新理解AI代理

碳基打工人 2026-04-23 14:52:02
0 跟贴 0
别被厂商洗脑了！彩色墨水屏全网最强指南：这样买不踩坑

雷科技 2026-04-04 12:59:35
0 跟贴 0
女人只是无意间看了一眼儿子的电脑怎料竟找到了失散二十年的儿子

小岛追剧 2026-04-25 17:28:51
1 跟贴 1
我在微信免费养「龙虾」-2

机器之心Pro 2026-03-26 06:56:00
0 跟贴 0
美国富豪非洲打猎被5头大象踩死

看看新闻Knews 2026-04-25 19:38:18
4699 跟贴 4699
程序员上班遭辞退，当场删库跑路让公司瘫痪，这次不是赔钱的事了

欢乐小丑的舞台 2026-04-25 16:42:49
1 跟贴 1
在OpenAI把Chronicle做成订阅功能48小时后，一群00后把它开源了

机器之心Pro 2026-04-26 13:23:34
2 跟贴 2
一医院原院长：我就像一个吸血鬼

南方都市报 2026-04-26 23:49:54
1 跟贴 1
Google给Java开发者发了个"智能体工具箱"

薛定谔的BUG 2026-04-24 10:05:02
0 跟贴 0
太狠了！OpenClaw之父一夜屠光5000 Issue，GitHub服务器先跪了

新智元 2026-04-26 11:29:22
63 跟贴 63
22个省级政府主要负责人担任省级责任人！这一名单对外公布

政知新媒体 2026-04-26 17:44:16
505 跟贴 505
张雪机车解决方案

点时新闻 2026-04-22 16:37:40
2 跟贴 2
被特殊对待的孩子：一个被忽视的产品设计盲区

晚风也遗憾 2026-04-27 10:22:14
0 跟贴 0
紫牛头条｜父亲半生寻子走访50万公里，33年后才知儿子就在走失处30公里外

扬子晚报 2026-04-26 20:30:38
1056 跟贴 1056
美女裁判加持下，火箭连续打出电脑般K球！场下的罗伯逊都看呆了

神秘研究院 2026-04-26 10:41:03
0 跟贴 0
追光少年，逐浪深蓝

人民资讯 2026-04-27 09:52:56
0 跟贴 0
半挂模型玩具车买菜，要是超重了怎么办，雷军都不敢这么设计！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟贴 4
中国AI Agent产业化参考范本：斑马口语攻克的四大技术难关

机器之心Pro 2025-11-18 14:12:50
0 跟贴 0

6球7失误！好惨的哈登！！他们居然打了4节垃圾时间！！

6球7失误！好惨的哈登！！他们居然打了4节垃圾时间！！

柚子说球

2026-04-27 10:42:33

1992年，陆定一问秦川：如果党的一把手腐败了，那么该由谁来管？

1992年，陆定一问秦川：如果党的一把手腐败了，那么该由谁来管？

阿器谈史

2026-04-26 14:13:38

封神纪录诞生！马刺G4大翻盘客场114-93大胜，缔造季后赛全新纪录

封神纪录诞生！马刺G4大翻盘客场114-93大胜，缔造季后赛全新纪录

夜白侃球

2026-04-27 10:38:01

情侣在瑞士雪山顶“撒欢”，就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”，就这么被全世界直播了···

新欧洲

2026-04-21 19:37:05

炸裂！北京车展恶性事件！尚界展车惨遭人为损毁，法务部硬核发声

炸裂！北京车展恶性事件！尚界展车惨遭人为损毁，法务部硬核发声

天天热点见闻

2026-04-27 06:27:09

美伊谈判，大消息！刚刚，直线拉升！

美伊谈判，大消息！刚刚，直线拉升！

中国基金报

2026-04-27 09:09:39

丁俊晖：就算赵心童状态不好也能世锦赛卫冕，他比所有球员都厉害

丁俊晖：就算赵心童状态不好也能世锦赛卫冕，他比所有球员都厉害

杨华评论

2026-04-26 21:47:34

贝佐斯与桑切斯户外同游甜蜜互动满溢爱意

贝佐斯与桑切斯户外同游甜蜜互动满溢爱意

述家娱记

2026-04-27 07:33:45

35岁女子去做私处紧缩，缝针断在肉里，医生徒手掏了半小时没找着

35岁女子去做私处紧缩，缝针断在肉里，医生徒手掏了半小时没找着

离离言几许

2026-04-21 19:53:18

东方甄选主播集体辞职背后说明了什么？

东方甄选主播集体辞职背后说明了什么？

稿得轻松

2026-04-26 16:38:52

天啊！！爱德华兹整个首轮都不打了！！

天啊！！爱德华兹整个首轮都不打了！！

柚子说球

2026-04-27 08:20:04

莫斯科遇袭！乌克兰攻击俄最大雅罗斯拉夫尔炼油厂

莫斯科遇袭！乌克兰攻击俄最大雅罗斯拉夫尔炼油厂

项鹏飞

2026-04-26 22:04:22

霍尔木兹海峡，突传大消息！美伊谈判，重大变数！比特币直线拉升，超7万人爆仓！

霍尔木兹海峡，突传大消息！美伊谈判，重大变数！比特币直线拉升，超7万人爆仓！

证券时报e公司

2026-04-26 22:06:50

特朗普再立奇功！北约成立77年以来首次：美国拜拜，不带你玩了

特朗普再立奇功！北约成立77年以来首次：美国拜拜，不带你玩了

趣文说娱

2026-04-24 21:54:24

台湾统一方式可能出人意料：77年前毛主席的奇谋，是最佳解决方案

台湾统一方式可能出人意料：77年前毛主席的奇谋，是最佳解决方案

浩渺青史

2026-04-26 20:43:40

本想逼宫老俞，却让脸面碎了一地！甄选4大主播的离职瓜变味了

本想逼宫老俞，却让脸面碎了一地！甄选4大主播的离职瓜变味了

观察鉴娱

2026-04-26 13:11:53

世锦赛一夜崩三冠！奥沙利文杀疯了，特鲁姆普第5局又断在59分

世锦赛一夜崩三冠！奥沙利文杀疯了，特鲁姆普第5局又断在59分

宝哥精彩赛事

2026-04-26 15:59:53

李湘上热搜了！半年暴瘦50斤，近日照流出，直接让网友看傻眼了，女人狠起来真没年龄什么事

李湘上热搜了！半年暴瘦50斤，近日照流出，直接让网友看傻眼了，女人狠起来真没年龄什么事

今古深日报

2026-04-27 10:17:14

58岁江珊露面，150斤穿西装腚大腰圆，但脸显年轻几乎没皱纹

58岁江珊露面，150斤穿西装腚大腰圆，但脸显年轻几乎没皱纹

墨印斋

2026-04-24 16:43:38

从武大硕士到商场导购：诬告学弟性骚扰的杨景媛，终于付出了代价

从武大硕士到商场导购：诬告学弟性骚扰的杨景媛，终于付出了代价

地理三体说

2026-04-25 22:06:06

致力于用最前沿的AI技术，换取更多发呆时间的三十岁青年。

1727文章数 17关注度

往期回顾全部

科技要闻

打1折！DeepSeek输入缓存降价

头条要闻

伊朗外长折返伊斯兰堡内情披露：阿曼提出重要提议

头条要闻

伊朗外长折返伊斯兰堡内情披露：阿曼提出重要提议

体育要闻

最抽象的天才，正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

限量630台兰博基尼Urus SE特别版官图发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

旅游

数码

家居

公开课

房产要闻

新一轮教育大爆发来了！海口，开始疯狂建学校！

旅游要闻

五一“赶黄河大集·狮子刘好时节”盛宴启幕！

数码要闻

RTX 4090送修拆开一看全是假的！GPU、显存全被打磨重刻维修师直呼最完美的骗局

家居要闻

江景风格流动的秩序

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版