Paperless-ngx 是一个非常实用的工具,如果你想要将所有文档、发票和收据数字化并自我托管在一个集中存储中。我使用它是因为每年我会积累数百个购买记录、文档、文件、联系人、报价等。虽然保留纸质副本是个好习惯,但这些资源大多数以图像或 PDF 格式存在。 Paperless-ngx 自动标记文档的功能,这使得缩小搜索范围变得非常简单。我不久前将其与 Paperless AI 集成,后者利用本地 LLM 来分析我的整个收藏。
我决定引入 AI,这样就省去了很多麻烦,查找文档时也能节省时间,无论是按名称还是标签。即使是分析和提取数十页的上下文,对于 Ollama 的 LLM 来说也是相对较小的任务,我不需要订阅 AI 服务来为我上传和分析文档。接下来,我想和大家聊聊我为什么做出这个决定,以及它是如何影响我的日常工作流程的。
没有 LLM 的 Paperless-ngx 让人不知所措
AI 得到良好利用
如果你已经使用 Paperless-ngx 一段时间,你可能遇到过我遇到的同样问题。标记文档无疑是这个 自我托管应用 最棒的功能,它增强了其排序能力。你不再需要仅仅依靠文件名来查找文件,也不必再猜测了。类别和标签为你完成了一半的工作。但是当你的 Paperless-ngx 数据库增长时,即使是子类别和标签也只能在一定程度上提供帮助。
如果你想在整个收藏中搜索与某个项目相关的文件,但你只记得某个客户或材料的名称,该怎么办?以这种方式找到文件可能需要几分钟,前提是你正确命名了它们。否则,你可能会经历漫长的打开和关闭同一类别文件的过程。
第二个问题是,即使你找到了正确的文件,理解和提取必要的信息也可能耗费大量时间。例如,如果我想找到与我的假天花板工作相关的文件,并提取每平方英尺的正确费率或理解合同条款,我得好好读一遍。
通过本地 LLM,Paperless AI 可以自动处理整个文件库,让我可以在不知道文件名的情况下进行搜索。我还可以选一个文档,然后进入完整的 AI 模式来总结,或者做其他相关操作。
多种交互模式
轻松搜索和总结
Paperless AI 提供两种聊天模式。我更喜欢 RAG 聊天模式,因为它能从一个搜索字符串中找到相关文档。因为 Paperless AI 支持自然语言输入,所以即使是像‘给我看看假天花板的费率’这样的简单搜索,也能得到相当准确的结果。
它显示了包含文件的文档的简短说明。您还可以使用普通聊天模式,该模式是针对每个文件的。只需从下拉列表中选择文件,然后您可以向AI助手询问有关该文件的问题。这对于那些不容易一次性快速浏览的大型文档非常有帮助。
单个聊天文档对于您想要详细分析和理解一个文档是非常有益的。还有一个手动模式,让您选择一个文档,使用AI处理它,然后启动聊天会话。
详细仪表板和分析
文档历史及更多
当您首次设置Paperless AI实例时,它会提示您进行默认配置的选择。我选择将所有处理过的文档标记为AI标签,我从未在我的系统上启动过Paperless-ngx网页界面。我改为使用Paperless AI的仪表板来查看我处理过的文档的完整概览。
仪表板会识别您何时将新文件上传到 Paperless-ngx 服务器。然后,它会在后台对每个上传的文件进行自动 AI 处理。您可以在仪表板上查看处理状态,并检查哪些文档处理失败。任务运行器状态部分显示系统状态,并提供所有文件的详细信息。
您可以查看总标签,图形界面看起来很舒服,文字信息也比较少。我还使用历史标签来查看每个处理过的文档,并在需要时搜索任何文件。在历史窗口中还有一个选项可以开始聊天,这很方便,因为单一聊天模式下没有搜索选项。
本地 LLM 可以充分发挥您系统的能力
无需支付 API 集成费用
长期来看,集成付费 API 可能会变得非常昂贵。如果您有一块性能不错的 GPU,能够以足够的速度运行像 Ollama 这样的大型语言模型,那就不需要支付任何集成费用。我已经讨论过如何在 Ubuntu 系统上设置 Paperless-ngx 和 Paperless AI,并且我在运行 WSL 2 的 Ubuntu 系统上成功实现了这个过程。
我的系统配备了移动版 RTX 3060 Nvidia 显卡,Ollama 在其上运行得很好。响应速度足够快,Paperless AI 对我的任何查询的回复也不会花费太多时间。自动文档处理在我的系统上同样迅速。
另一个优势是所有操作都是在本地机器上进行的。Paperless-ngx 和 Paperless AI 都在您的系统上运行和处理数据,使用 Ollama 时不会将数据上传到其他地方。因此,您不需要担心未经授权的数据共享。即使您的文档库在未来几年内增长,您的硬件也能存储和处理这些数据。
相比通过网络服务器查询并等待响应的时间,使用本地 LLM的延迟也更少。您不需要等几分钟才能得到助手的回答。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.