金融界2024年9月1日消息,天眼查知识产权信息显示,广州视源人工智能创新研究院有限公司、广州视源电子科技股份有限公司、广州启源管理咨询有限公司申请一项名为“文档分块方法、装置及电子设备“,公开号CN202310187051.9,申请日期为2023年2月。
专利摘要显示,本申请公开了一种文档分块方法和装置。该方法通过获取待分块的文档,并提取文档的每行的内容文本;根据预设的分割点向量索引库,检测每行的内容文本是否为文本分割点;获取为文本分割点的内容文本的版式信息,并确定该版式信息为目标版式信息;获取文档中每行的内容文本对应的版式信息;比较该版式信息与该目标版式信息,以确定文档的全部文本分割点;根据该全部的文本分割点对文档进行分块。本申请在分割点向量索引库的基础上,增加了通过版式信息对文本分割点进行查找的方式,从而提高了文档分块的召回率,泛化性更好,另外,该过程不需要人工标注的训练语料,降低了文档分块的实现代价。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.