司马阅自研文档模型DocMind是如何解决大语言模型幻觉的？

分享至

01 大语言模型的幻觉有时是致命的

随着大语言模型在各类严谨场景中的广泛应用，其“幻觉”问题愈发凸显，这已成为其在严肃商业场景大规模落地的重大阻碍。

大语言模型（LLM）通过预训练吸收了互联网中的巨量公开文本（如网页、书籍、论文、对话等），构建了一个覆盖广泛领域的基础知识库。这些数据中的事实性内容、语言规则和逻辑关联被模型编码为参数化的“记忆”，使其能够对常见问题提供参考性回答。

但是，大语言模型在通用任务中表现强大，但其生成内容的局限性同样明显：

大语言模型依赖训练数据的“静态记忆”，数据具有时效性，它所具备的知识，停留在了它训练完成的那一刻，无法主动获取实时信息。
大语言模型通过深度学习技术（如Transformer架构）捕捉文本中的统计规律和语义关联，而这本质上是根据概率来预测下一个token，也就是它会基于统计规律生成看似合理但完全虚构的内容。
大语言模型无法用垂直领域的私有数据进行预训练，导致在某些专业领域存在空白，如对医学、法律、工程等垂直领域的私有知识库、内部标准或非公开案例缺乏覆盖，导致回答专业性不足甚至错误。

甚至DeepSeek-R1幻觉率高达14.3%。

因此，大模型的幻觉问题使其真正在企业严肃商业场景落地面临诸多困难。在特定专业场景中，通用大语言模型的幻觉问题可能是致命的，如医疗、金融、财会等领域，这些行业对信息和数据的准确度非常敏感，如将错误信息引入可能引发较大的风险。

02DocMind如何解决大语言模型幻觉问题

为此，司马阅的文档智能模型DocMind结合大语言模型处理，为大语言模型引入专业和私有知识，从非结构化数据源中提取领域知识，增强模型的专业性和结果的准确性。DocMind采用了一套完整的文档处理流程，从文档解析、切块、重排到语义理解、再到结果融合，形成了一个高效、精准的文档智能处理系统，使得通用领域准确率超过95%，特定行业专项处理可逼近100%。

以阅读行业报告分析为例，如下图所示，针对表格中的数据提出了一道问题，常见大语言模型的回答结果都不准确，DocMind输出的结果则完全符合原文。

为什么在处理复杂数据时，DocMind更准确？本文将深入剖析DocMind的文档处理流程和技术原理，特别是在非结构化数据处理和语义处理方面的创新。

首先，来看DocMind处理文档的流程：

其中，数据提取环节尤为复杂：

多模态文档智能解析

传统文档解析和DocMind智能文档解析的区别：

文档格式识别与转换

DocMind能够处理多种格式的文档，包括但不限于PDF、Word、PPT等。系统首先识别文档类型，然后采用针对性的解析策略：

PDF文档：采用混合解析技术，同时提取文本层和图像层信息。
Office文档：直接解析文档结构，保留原始格式和布局信息。
图片文档：运用OCR技术提取文本内容，并进行版面分析。
除了纯文本，模型还能识别文档中的各类非文本元素及其与周围文本的关系。对于图文混合内容，系统会分析图像与文本的语义关联，识别描述性文本、引用文本和补充说明，确保图像与其相关文本被合理地分配到相同或相邻的文本块。
文档结构化解析
模型版面分析模块采用多层级感知网络，能够精确识别文档的物理和逻辑结构。系统首先对文档进行整体扫描，识别页面边界、页眉页脚和主体内容区域。
随后，深度学习模型会将页面分割为多个语义区块，包括标题、正文段落、图表、表格、公式、脚注等。
这一过程不仅依赖于视觉特征，还融合了文本内容的语义信息，使系统能够准确区分不同类型的内容区域。对于复杂的多栏布局，模型采用自适应分栏识别算法，能够处理不规则栏目、跨栏内容和嵌套结构。
版面分析的结果以层次化结构表示，保留了元素间的空间关系和逻辑从属关系，为后续处理奠定基础。
表格是文档中的重要信息载体，我们采用专门的表格处理流程：
表格边界检测：精确识别表格的位置和范围。
单元格识别：分析表格的行列结构和单元格划分。
合并单元格处理：识别并正确处理跨行跨列的合并单元格。合并单元格处理是表格解析中的难点。系统通过分析单元格边界、内容分布和表格结构，识别横向合并、纵向合并和块状合并的单元格。对于隐式合并单元格（无明显边框但内容表明是合并的），系统通过内容对齐特征和空白区域分析进行推断。在处理复杂的多级表头时，系统能够理解表头的层级结构和分组关系，正确解析如"主分类/子分类"这样的嵌套表头。
表格结构重建：将识别结果重建为结构化的表格数据。此外，模型不仅提取表格的结构，还进行深度的语义理解：
表头识别：分析表格的表头信息，理解各列的含义。
数据类型识别：识别表格中的数字、日期、文本等不同类型的数据。
表格上下文关联：将表格与周围文本内容建立语义关联。
表格摘要生成：自动生成表格内容的概要描述。
如前面提到的表格，当用户提出“2 月 3 日-2 月 7 日，海外龙头企业中，PB前三的企业？”系统识别到表格结构，以 Markdown 格式解释文本，便于大语言模型理解，将答案准确输出给用户。

智能文本块切分
传统的文本块切分一般会有以下几种切分方式：

固定字符数切分：按照预设的字符数量（如512、1024个token）机械地将文档分割成等长片段，完全忽略了内容的语义边界。
基于分隔符切分：使用段落标记、换行符等简单分隔符进行切分，虽然能保持基本段落完整性，但无法识别复杂的语义关联。
递归切分：将长文本递归地分解为更小的块，但通常仍基于字符数或简单规则，难以保持复杂内容的语义完整性。
这种传统的切分方式会造成语义割裂，也可能忽略了文档的层次结构，如标题与正文、图表与说明之间的关系，也容易造成上下文断裂，使相互关联的内容失去了原有的逻辑关联。

而司马阅采用的切分策略是基于文档的版面分析过后的段落块进行切分，保证段落与标题或段落,图表/图片与标题或注释之间的语言连贯性。
这种切分方式能够识别文档的物理结构，如段落、标题、图表等元素的边界和位置关系，还能保证列表项与其上下文的连贯性。
同时，模型还能基于语义相似性进行动态切分，通过计算文本片段间的语义相似度，在语义显著变化处进行切分。

由上面分块结果清晰可见，模型准确地识别了页眉页脚，并分别放置在解析结果的顶部和底部，符合真人的阅读顺序。
在分块1中，可看到同一段落中的文本被合并到一起了，方便理解。
在分块2中，可看到图片、标题、脚注一起被识别出来，这样的切块，可以很好地保留标题、脚注与图片的关联性，用户提问时，系统便能精准地抽取信息。
在分块4中，可看到表格以 Markdown 格式表示出来，完整地保留了表头和表格的内部结构，且识别出来了表格中的合并单元格，这也解释了为什么经过模型处理的表格数据能准确地输出，而不会出现项目和对应数据对不上的情况。
向量化
当文本被切块后，向量(Embedding)模型通过复杂的神经网络架构，将离散的文本数据映射到连续的高维向量空间中，存储到向量数据库里，使得计算机能够理解和处理人类语言的语义内涵，这种方法大大提高了搜索的准确性和召回率。
在这个向量空间中，语义相似的文本会被映射到相近的位置，而语义差异大的文本则被映射到较远的位置。向量之间的相似度通常通过余弦相似度来衡量，即计算两个向量之间夹角的余弦值，余弦值越接近1，表示两个文本的语义越相似。
与传统关键词搜索不同，向量搜索的语义理解能力更强，它充当着用户查询和复杂文本之间的桥梁。这种方式使得用户能够用自然语言提问，系统可以理解用户问题的实际含义，并从海量文档中找到相关信息。它还能处理同义词、跨语言搜索、处理不同表达方式等。
➡关键词搜索和向量搜索具体使用案例对比：

此外，与一般的“无脑查库”相比，司马阅的向量模型只有确定需要查库时，才会去查向量数据库，这样就避免了答非所问，针对用户的回答更智能和精准。
司马阅的向量模型还将不同维度的知识库分别建库，当用户针对不同领域提出相同的词时，只会给用户输出对应维度的内容，避免歧义。
重排
在向量化过程中，不可避免地会导致信息丢失，为了避免信息压缩带来的损失，司马阅使用重排模型，将问题和相似的文本块,生成精确的相关性分数，并基于这些分数进行排序,得到和问题最相关的文本块，然后将相关的文档块优先被传递给大语言模型进行处理。
传统重排模型采用“一对一”评估方式：将每个文本块与用户查询单独输入模型，通过n次独立计算得到相似度分数。这种方法存在明显缺陷：

语境割裂：模型每次只能"看到"单个文本块，无法感知文本块间的关联。
语义碎片化：文本切块过程不可避免地导致语义断裂和上下文丢失。
独立评分盲点：无法识别需要组合多个文本块才能完整回答的情况。这导致重排结果常常无法反映文档的真实语义结构，特别是当关键信息跨越多个文本块时，表现尤为明
➡传统的重排模型：

而司马阅的重排模型将分散的文本块按原始顺序重组，在大型Transformer中直接处理原始文本信息，可以使模型能够基于更完整的上下文做出判断，能够对初步检索到的文本块进行更精细的相关性评估。
具体的工作流程：
文本块重组：将检索到的n个文本块按照其在原文档中的顺序进行拼接。
整体输入：将拼接后的长文本与用户查询一起输入重排模型。
评分：模型对引用和问题进行重新排序得出相关性分数。
基于全局信息的决策：模型能够考虑文本块之间的关联性，做出更准确的重排决策。
➡司马阅的重排模型：

由于重排模型会花大量时间来生成相似度分数，为了同时保证检索的速度和结果的准确性，我们先使用双编码器和向量搜索检索出一批候选文档，再用重排模型对筛选出的少量文档进行精排，这样既能保证效率，又能保证准确性。

数据清洗
作为文档处理流程的最后一环，数据清洗对于确保最终内容的质量至关重要。司马阅的数据清洗模块采用多层级过滤和优化策略。
首先，系统会对提取的文本进行标准化处理，包括统一编码、规范化空白字符、修正标点符号等。对于表格数据，系统会检测并修正数据类型不一致、格式混乱等问题，确保数据的规范性。重复内容检测算法能够识别并合并文档中的冗余信息，如重复的页眉页脚、水印文字等。对于多语言文档，系统会保持语言的一致性，避免字符集混乱。

与大模型融合生成最优答案
DocMind文档智能模型提取信息后，通过精心设计的prompt将这些高相关性文本块与用户问题进行结构化整合，形成包含系统指令、原始查询和知识上下文的完整提示。
在这一过程中，系统会对文本块进行相关性排序、冗余消除和格式标准化处理，同时添加来源标识和可信度标记，以增强信息的可溯源性。当这一优化后的提示输入大语言模型时，模型通过多层次注意力机制建立查询与文档信息间的语义关联网络，执行证据分析、知识整合和逻辑推理，将分散的文档知识转化为连贯、准确的回答。
在生成过程中，模型严格遵循"证据锚定"原则，确保关键陈述都有文档支持，同时应用自我验证机制检查事实一致性和查询覆盖度，必要时进行多轮优化，最终输出既忠实于原始文档又满足用户需求的高质量回答，实现从碎片化信息到结构化知识的转化。
总体来说，司马阅自研文档模型DocMind在智能处理文档方面具有以下优势：

跨文档的智能对话与信息检索，为用户提供全局视角的综合分析。
强大的表格解析能力，为用户输出精准度极高的数据。
每个回答均可溯源，确保回答的可靠性与透明度，有效解决大语言模型幻觉问题，使企业级应用更加安全可靠。
多种文档类型均可处理，满足不同企业的处理需求。

司马阅文档智能模型DocMind将进一步拓展应用边界，进一步解决当前大模型的幻觉问题。该模型已通过国家模型算法备案，对企业级应用有三大保障：安全、合规、可靠，目前已落地服务100+客户，帮助多行业企业顺利实现AI转型。未来，司马阅希冀能够为企业更复杂的专业场景中提供可靠的支持，逐步将AI向中小企业渗透，降低智能化门槛，推动各行业数字化转型进入新阶段。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.