网易首页 > 网易号 > 正文 申请入驻

山西太行实验室申请基于自然语言特征和自信息的文本压缩方法专利,在长文本压缩准确性上非常出色

0
分享至

金融界2025年2月12日消息,国家知识产权局信息显示,山西太行实验室有限公司申请一项名为“基于自然语言特征和自信息的文本压缩方法”的专利,公开号CN 119396784 A,申请日期为2024年10月。

专利摘要显示,本发明属于自然语言信息处理技术领域,公开了基于自然语言特征和自信息的文本压缩方法,具体技术方案为:步骤一、对开源语料库中的Google问答数据集进行数据预处理,删除无用信息,模拟多文档检索,获得面向长上下文压缩的数据集,进而获得多文档长文本;步骤二、通过对该多文档长文本进行自信息的评估得到短语粒度、文本自信息分布,同时进行词性分析、命名实体分析依存关系分析的自然语言特征的提取优化基于自然语言特征的分布,获得分布优化后的压缩文本;步骤三、压缩文本prompt设置,构建目标问答模型,获得问答性能指标并应用于下游任务中,本发明在长文本压缩准确性上非常出色,提升了文本压缩的性能。

天眼查资料显示,山西太行实验室有限公司,成立于2020年,位于太原市,是一家以从事互联网和相关服务为主的企业。企业注册资本1000万人民币,实缴资本1000万人民币。通过天眼查大数据分析,山西太行实验室有限公司共对外投资了1家企业,参与招投标项目14次,专利信息8条,此外企业还拥有行政许可2个。

本文源自:金融界

作者:情报员

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
足球报:青岛海牛今年仅获政府2000万支持,其余开支几乎全靠招商

足球报:青岛海牛今年仅获政府2000万支持,其余开支几乎全靠招商

直播吧
2025-09-15 11:56:49
2025-09-16 10:56:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
7859102文章数 545467关注度
往期回顾 全部

科技要闻

中国将依法依规开展TikTok技术出口审批

头条要闻

青海秦刻石被认定 曾被质疑系现代电钻等精密仪器所刻

头条要闻

青海秦刻石被认定 曾被质疑系现代电钻等精密仪器所刻

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

家居
本地
房产
亲子
公开课

家居要闻

典雅大气 舒适中带童趣

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

亲子要闻

这些动画片,孩子越看越聪明~

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版