开放新闻库(OpenNewsArchive)数据集是由OpenDataLab联合蜜度、商汤等多家联盟机构进行开源开发。该数据集总量达27GB,包含了880万篇新闻文章的信息,涵盖了各种不同主题和来源的新闻内容,其中中文占比超过99.9%。每篇新闻文章包括字段如标题、内容、发布日期、语言等,且数据集的内容经过数据清洗去重等处理,为研究人员和数据科学家提供了丰富的文本数据资源。
数据集具有三大亮点:
● 内容全面覆盖多个板块:包含财经、健康、军事、体育、房产、社会、学术等多个板块分类的新闻内容,涵盖广泛。
● 无毒性内容和价值偏见:新闻内容不含有害信息或偏见观点,确保信息公正客观。
● 保持新闻内容更新:数据集中包含的新闻发布日期主要集中在2023年,相较于其他已知的开放新闻数据集,具有较高的时效性,有利于提高模型预测的准确性与应对能力。
详情请参见五号雷达:https://www.5radar.com/result?key=OpenNewsArchive
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.