论文查重为什么不建议使用pdf格式？|乱码|官方文档

论文查重为什么不建议使用pdf格式？

分享至

论文查重时不建议用PDF格式，主要是因为这种格式容易在查重过程中带来各种问题，影响查重结果的准确性。查重系统在工作时，需要把论文文件转换成可以识别的纯文本，再和数据库里的资料进行比对。而PDF文件在转换文本时，常常会出错。

一个常见的问题是格式错乱。PDF文件里的图片、表格、数学公式或者特殊符号，在转换成文本时，很可能无法被正确识别。它们可能会变成一堆乱码，或者直接消失不见。这些乱码会被查重系统当作全新的、不常见的字符来处理。这可能导致两种不好的结果：一是系统把这些乱码也算进正文里，让你的总字数变多，但实际有意义的字数并没变，这会影响到最终的重复率计算；更麻烦的是，这些乱码本身会被系统标红，让你误以为是自己抄袭了某些根本不存在的内容，白白增加不必要的重复率。

另一个大麻烦是扫描件PDF。有些PDF文件其实是纸张论文扫描后生成的图片，整页就是一整张图。绝大部分查重系统都无法直接识别图片中的文字。当你把这种扫描件PDF上传后，系统什么都读不出来，返回的查重报告可能会显示重复率为0，这显然是一个错误结果。或者系统尝试识别但完全失败，导致查重无法进行。

PDF文件里的一些排版元素也会添乱。比如自动生成的页眉、页脚、尾注，或者目录、参考文献的特定格式，在转换时可能无法被有效过滤掉，从而混入正文一起被查重。这会让一些本不该被查重的内容（如参考文献列表）被标红，导致重复率异常升高。

PDF中如果使用了不常见的字体，或者字体是嵌入在文件里的，也可能在文本提取时产生识别错误，造成文字缺失或替换，这同样会影响比对的准确性。

虽然现在有些查重系统声称支持PDF格式，但为了确保查重结果最能反映你文字的真实情况，避免因为格式问题而白费功夫，最稳妥、出错概率最低的选择，始终是直接提交Word文档（.doc或.docx格式）。Word文档的结构清晰，能被查重系统稳定、完整地提取出纯文字内容，这样得到的重复率才更可靠，也能让你更准确地判断哪些地方需要修改。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.