网易首页 > 网易号 > 正文 申请入驻

Doc2X: 高精度高性价比文档解析神器

0
分享至


引言

在构建高质量的企业级的智能问答系统的过程中,如何高效精准地处理企业已有的海量文档是大部分开发者亟待解决的核心痛点。有了高效精准的文档解析能力,才能够构建高质量的知识库和高效的信息检索系统,这样 LLM 才能给用户更准确更全面的回答。

Doc2X 简介

Doc2X 是一款专为开发者设计的强大文档解析产品。

Doc2X 提供 RESTful API 与 SDK 工具包,支持多种开发语言与框架,让您轻松将文档处理功能嵌入现有系统,方便快捷地实现将 PDF、扫描件、图片等多种格式的文档精准转换为 Markdown、LaTeX、HTML、Word 等结构化或半结构化格式的能力。

官网:https://noedgeai.com/

• 市面上类似的文档解析产品,绝大部分公式识别做的不好(尤其是行内和复杂公式),而 Doc2X 则处于领先水平;

  • • Doc2X 对表格识别适配优秀,甚至支持识别表格里面的图片和合并跨页表格等;

  • • Doc2X 对于多栏识别的阅读顺序还原效果优异;

  • • Doc2X 适配范围广相当通用,涵盖财研报、论文、教辅、专利等等;

  • • 更具体的效果对比可以参考: Doc2x-v1 竞品分析(mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析)[2]

  • 友好的操作界面

    当然,除了提供了快速集成的 API 之外,Doc2X 还提供了友好的操作界面,可以让你在页面上快速完成文档解析,解析完成之后可以对照着原文档进行编辑,确保准确性。

    Doc2X 已成功接入 FastGPT、CherryStudio、扣子(国内版)等知名知识库和 AI 应用构建平台。开发者可以直接在这些平台中利用 Doc2X 的强大解析能力,快速搭建和优化自己的知识库应用。

    从 Doc2X 的解析结果来看,Doc2X PDF 转 Markdown 的整体效果是比较出色的,大家可以根据自己的文档情况去试用看看效果。

    我还是拿《2024少儿编程教育行业发展趋势报告.pdf》这个文档进行解析,相比于 MinerU ,在以下几方面 Doc2X 做的更出色:

    1. 1. 支持多级标题的解析(MinerU 只支持一级标题解析);

    1. 2. 表格识别能力比较强,图片中的表格基本准确识别出来,而且基本没有错位(MinerU 存在无法识别或表格错位问题);

    1. 3. 对于多栏识别的阅读顺序还原效果优异(MinerU 对于多栏识别出现了混乱)。

    Doc2X API 集成

    Doc2X RESTful API 的 Base URL 是 https://v2.doc2x.noedgeai.com,API 调用流程如下:

    Doc2X API 文档[3]
    https://noedgeai.feishu.cn/wiki/Q8QIw3PT7i4QghkhPoecsmSCnG1

    接口鉴权

    首先需要获取到 API Key(类似于sk-xxx),API Key 获取网址:https://open.noedgeai.com/

    获取之后,在 HTTP 请求头加入:

    Authorization: Bearer sk-xxx
    文件预上传

    推荐使用该接口, 有更快的上传速度,大文件上传接口,文件大小<=1GB。

    请求示例:

    import json import time import requests as rq base_url = "https://v2.doc2x.noedgeai.com" secret = "sk-xxx" def preupload():     url = f"{base_url}/api/v2/parse/preupload"     headers = {         "Authorization": f"Bearer {secret}"     }     res = rq.post(url, headers=headers)     if res.status_code == 200:          data = res.json()         if data["code"] == "success":             return data["data"]         else:             raise Exception(f"get preupload url failed: {data}")     else:         raise Exception(f"get preupload url failed: {res.text}") upload_data = preupload() print(upload_data)

    返回示例:

    {     "code":"success",     "data":{         "uid":"0192d745-5776-7261-abbd-814df3af3449",         "url":"https://doc2x-pdf.oss-cn-beijing.aliyuncs.com/tmp/0192d745-5776-7261-abbd-814df3af3449.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=LTAI5tS7hV6uXXVzcpk3EGfX%2F20241029%2Fcn-beijing%2Fs3%2Faws4_request&X-Amz-Date=20241029T075458Z&X-Amz-Expires=600&X-Amz-SignedHeaders=host&X-Amz-Signature=f731ea8fe4efdd7c727c210034bdcf1a63436c74b295db68f9648efdce576a91"     } }

    获取到 url 之后,使用 HTTP PUT 方法上传文件到返回结果中的 url 字段,然后使用/api/v2/parse/status 接口轮询结果,使用的是阿里云的oss,具体速度取决于您的网速(海外用户速度可能上传失败)。

    import json import time import requests as rq base_url = "https://v2.doc2x.noedgeai.com" secret = "sk-xxx" def put_file(path: str, url: str):     withopen(path, "rb") as f:         res = rq.put(url, data=f) # body为文件二进制流         if res.status_code != 200:             raise Exception(f"put file failed: {res.text}") defget_status(uid: str):     url = f"{base_url}/api/v2/parse/status?uid={uid}"     headers = {         "Authorization": f"Bearer {secret}"     }     res = rq.get(url, headers=headers)     if res.status_code == 200:         data = res.json()         if data["code"] == "success":             return data["data"]         else:             raise Exception(f"get status failed: {data}")     else:         raise Exception(f"get status failed: {res.text}") url = upload_data["url"] uid = upload_data["uid"] put_file("test.pdf", url) whileTrue:     status_data = get_status(uid)     print(status_data)     if status_data["status"] == "success":         result = status_data["result"]         withopen("result.json", "w") as f:             json.dump(result, f)         break     elif status_data["status"] == "failed":         detail = status_data["detail"]         raise Exception(f"parse failed: {detail}")     elif status_data["status"] == "processing":         # processing         progress = status_data["progress"]         print(f"progress: {progress}")         time.sleep(3)

    文件预上传流程图如下:

    通过/api/v2/parse/status 接口轮询结果完成之后,需要通过 /api/v2/convert/parse接口触发导出文件任务。

    请求示例:

    import requests import json url = "https://v2.doc2x.noedgeai.com/api/v2/convert/parse" headers = {     "Authorization": "Bearer sk-xxx",     "Content-Type": "application/json", } data = {     "uid": "01920000-0000-0000-0000-000000000000",     "to": "md",     "formula_mode": "normal",     "filename": "my_markdown.md", } response = requests.post(url, headers=headers, data=json.dumps(data)) print(response.text)

    返回示例:

    // 进行中 {     "code":"success",     "data":{         "status":"processing",         "url":""     } }
    导出获取结果

    通过/api/v2/convert/parse接口触发导出文件任务后,需要通过/api/v2/convert/parse/result接口轮询导出文件任务状态,成功之后会返回文件 URL。

    请求示例:

    import requests url = 'https://v2.doc2x.noedgeai.com/api/v2/convert/parse/result?uid=01920000-0000-0000-0000-000000000000' headers = {'Authorization': 'Bearer sk-xxx'} response = requests.get(url, headers=headers) print(response.text)

    返回示例:

    {     "code":"success",     "data":{         "status":"success",         "url":"https://doc2x-backend.s3.cn-north-1.amazonaws.com.cn/objects/01927a3a-eeb0-74f6-a539-ca35916b772e5/convert_tex_none.zip?X-Amz-Algorithm=AWS4-HMACSHA256&X-Amz-Credential=AKIATKXFISLI52PK3HTP%2F20241011%2Fcn-north-1%2Fs3%2Faws4request&X-Amz-Date=20241011075617Z&X-Amz-Expires=300&X-Amz-SignedHeaders=host&&x-id=GetobjectX-Amz-Signature=05bdd04a668e9924c5fd361999728cee35aaefb2087334a403f6ebf5ba93f786f"     } }
    下载文件

    /api/v2/convert/parse/result接口获得文件 URL 后就可以通过 HTTP GET 方法请求 URL 来下载文件。

    请求示例:

    import requests response = requests.get("https://doc2x-backend.s3.cn-north-1.amazonaws.com.cn/objects/01927a3a-eeb0-74f6-a539-ca35916b772e5/convert_tex_none.zip?X-Amz-Algorithm=AWS4-HMACSHA256&X-Amz-Credential=AKIATKXFISLI52PK3HTP%2F20241011%2Fcn-north-1%2Fs3%2Faws4request&X-Amz-Date=20241011075617Z&X-Amz-Expires=300&X-Amz-SignedHeaders=host&&x-id=GetobjectX-Amz-Signature=05bdd04a668e9924c5fd361999728cee35aaefb2087334a403f6ebf5ba93f786f") withopen('downloaded_file.zip', 'wb') as f:     f.write(response.content)
    结语

    本文给大家再介绍了一款优秀强大的文档解析产品 - Doc2X,通过实践表明 Doc2X 确实具有优秀的表现,可以作为大家在建设文档解析系统的候选工具,也期望通过我的介绍能给大家提供更多的选择和思路。

    引用链接

    [1] Doc2X: https://noedgeai.com/
    [2] Doc2x-v1 竞品分析(mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析): https://noedgeai.feishu.cn/wiki/K1NGwjuuqiI9nukgapEcUAALnLh?from=from_copylink
    [3] Doc2X API 文档: https://noedgeai.feishu.cn/wiki/Q8QIw3PT7i4QghkhPoecsmSCnG1

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    李奇微回忆朝鲜战争:中国投入整整290万兵力,联军根本不可能赢

    李奇微回忆朝鲜战争:中国投入整整290万兵力,联军根本不可能赢

    唠叨说历史
    2026-01-13 17:42:35
    隐形山东首富,玩转3700亿资本游戏

    隐形山东首富,玩转3700亿资本游戏

    大猫财经Pro
    2026-01-13 18:28:19
    同曦官宣:黄荣奇左肘骨折伤停6-8周 姜贺伤停3周 签新外援汉兹

    同曦官宣:黄荣奇左肘骨折伤停6-8周 姜贺伤停3周 签新外援汉兹

    醉卧浮生
    2026-01-13 18:46:32
    微软研报称DeepSeek在中国AI市场份额达89%

    微软研报称DeepSeek在中国AI市场份额达89%

    IT之家
    2026-01-13 15:27:05
    女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

    女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

    卡西莫多的故事
    2025-10-30 11:33:46
    广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

    广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

    唐小糖说情感
    2026-01-07 16:37:28
    小学阶段,有这些表现的孩子,就证明不是读书的料了

    小学阶段,有这些表现的孩子,就证明不是读书的料了

    好爸育儿
    2026-01-13 16:17:52
    大陆已发26道通牒,赖清德儿子躲在美国,洪秀柱:统一指日可待

    大陆已发26道通牒,赖清德儿子躲在美国,洪秀柱:统一指日可待

    阿柒的讯
    2026-01-12 16:54:03
    深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

    深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

    一分为三看人生
    2026-01-12 00:09:36
    说实话,Ella放娱乐圈新生代里绝对顶尖,天生丽质谁看谁心动

    说实话,Ella放娱乐圈新生代里绝对顶尖,天生丽质谁看谁心动

    情感大头说说
    2026-01-13 10:18:53
    卡里克周三前将出任曼联临时主帅,带队打曼城!逆转索帅细节曝光

    卡里克周三前将出任曼联临时主帅,带队打曼城!逆转索帅细节曝光

    罗米的曼联博客
    2026-01-13 07:49:05
    日本领土危机出现!不光是琉球,原来连北海道也“不是”日本的

    日本领土危机出现!不光是琉球,原来连北海道也“不是”日本的

    通文知史
    2026-01-12 21:50:03
    马卡:随着阿韦洛亚上任,5名皇马青训小将将迎上位良机

    马卡:随着阿韦洛亚上任,5名皇马青训小将将迎上位良机

    懂球帝
    2026-01-13 21:57:25
    湖南女子模仿呆呆喊网友杀猪:帮杀10头猪,网友反响非常热烈,建了16个群都满了,可能会弄一个流水席

    湖南女子模仿呆呆喊网友杀猪:帮杀10头猪,网友反响非常热烈,建了16个群都满了,可能会弄一个流水席

    大风新闻
    2026-01-13 11:10:02
    人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

    人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

    法老不说教
    2026-01-13 18:36:27
    为啥唐氏儿“千人一面”?好像都长得一模一样?是什么原因引起的

    为啥唐氏儿“千人一面”?好像都长得一模一样?是什么原因引起的

    向航说
    2026-01-02 00:20:03
    网坛第五大满贯来了?这一决定可能改变整个网球史

    网坛第五大满贯来了?这一决定可能改变整个网球史

    网球之家
    2026-01-12 23:02:47
    蒋介石在日记中透露:重庆谈判放走毛主席,只因有两点,却全错了

    蒋介石在日记中透露:重庆谈判放走毛主席,只因有两点,却全错了

    雍亲王府
    2026-01-13 09:30:03
    Meta启动Reality Labs部门裁员计划,千余岗位将被裁减

    Meta启动Reality Labs部门裁员计划,千余岗位将被裁减

    界面新闻
    2026-01-13 21:25:16
    女子上班不化妆,领导让化一次妆上班觉得不是本人,评论区炸锅!

    女子上班不化妆,领导让化一次妆上班觉得不是本人,评论区炸锅!

    观察鉴娱
    2026-01-12 09:06:07
    2026-01-13 22:27:00
    人工智能研究 incentive-icons
    人工智能研究
    分享深度学习、CV、NLP
    294文章数 134关注度
    往期回顾 全部

    科技要闻

    每年10亿美元!谷歌大模型注入Siri

    头条要闻

    李在明访日与高市早苗会谈 提到中国

    头条要闻

    李在明访日与高市早苗会谈 提到中国

    体育要闻

    他带出国乒世界冠军,退休后为爱徒返场

    娱乐要闻

    蔡卓妍承认新恋情,与男友林俊贤感情稳定

    财经要闻

    "天量存款"将到期 资金会否搬入股市?

    汽车要闻

    限时9.99万元起 2026款启辰大V DD-i虎鲸上市

    态度原创

    健康
    时尚
    手机
    本地
    旅游

    血常规3项异常,是身体警报!

    比大衣更高级,比羽绒服更时髦?它才是今年冬天最火的外套!

    手机要闻

    荣耀、OPPO、vivo、华为四强争霸,谁才是真正的“线下之王”?

    本地新闻

    云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

    旅游要闻

    已达42000万只!昆明进入最佳观鸥期,持续至……

    无障碍浏览 进入关怀版