关注我们 -数字罗塞塔计划-
Part 01
新媒体数据-为何不见了?
前一阵子,“中文互联网存在崩塌趋势”的言论甚嚣尘上,引起了很多人的担心和恐慌。起因是有人发现在搜索引擎中以特定的时间范围(如1998年至2005年)搜索“马云”出现的并非普遍所预期的“海量信息”,而只有零星几条甚至一条。不仅如此,搜索其他名人如马化腾、雷军、任正非等,以及当时的网红和明星的信息也面临同样的问题。许多曾经红火过的中文网站如网易、搜狐、天涯论坛等,在一定年份之前的信息也几乎完全消失。对此,有人将其归结为两点原因:一是成本问题,网站运营、管理和维护所需的高昂费用使得许多网站连同数据成为公司的负担而被关闭;二是监管问题,至今没有法律法规规定互联网信息必须长期留存或者移交相关部门,加上过去的信息有可能成为潜在的“定时炸弹”,网站关闭或内容删除反而更安全。
笔者认为,上述“中文互联网存在崩塌趋势”的说法明显存在以偏概全和虚假猜测的成分,网上搜不到并不一定代表数据已经被删除,很有可能是作为不常访问的冷数据被转移到离线的冷存储中去了,需要访问的时候正常情况下还是可以恢复出来的。但不管怎么说,新媒体数据的归档与保存,确实是一个值得重视的问题。
Part 02
新媒体数据-何去何从?
这样的现象让笔者不禁想起前几年在国家图书馆调研时,曾了解到国内某互联网大厂希望将自己积累的2017年以前大概6年左右的历史用户数据移交给国家图书馆保存,但介于没有此类数据接收进馆的先例和无相关标准法规作为参考提供管理依据,更考虑到保存和管理数据的成本问题与责任问题,国家图书馆最终没有接收这批数据。至于后来该公司是如何处理这批数据的笔者也不得而知,但大概率也会和文章开头描述的情况一样,极端情况下也存在随时间一起消失的可能性。
当新媒体成为主要的信息交流媒介时,其相关数据的价值更加凸显出来。正如现在人们愈发重视对个体记忆的保存,社交媒体、网站平台上的用户信息和数据的安全性也越来越受到关注,其蕴含的价值更是一座尚未被开发的宝藏。
从本质上来讲,如果将这批数据作为档案进行管理,那就主要存在一个“这类数据该如何归档”的问题。由于当前没有任何一个法规标准对此类新媒体数据的归档和管理全过程进行规范,归档范围、责任主体、保管期限、移交时间等均尚未明确,所以也就出现了“想存不知道存哪”、“想管不知道归谁管、如何管”的局面。同时,由于新媒体数据具有大规模性、时效性和多样性等特点,传统的文件归档和信息存储方式显然难以适应,无法直接套用和参考以往的管理办法。需要有针对性地解决“谁来存、怎么存、存哪些、用什么存”等一系列问题,规范高效地保存、管理新媒体数据。
对此,笔者也将从“谁来存、怎么存、存哪些、用什么存”这四个方面入手,提出自己对新媒体数据归档和管理工作的理解和建议。
Part 03
新媒体数据-谁来存?
信息的动态性使新媒体数据的收集变得紧迫,并且因其数据量巨大且内容繁杂,归档工作的难度可想而知。只要一想到“无数个几百MB上GB的多媒体文件咋整?各种图文音视频文件格式如何处理?五花八门的网页格式乱掉了怎么办?”等等诸如此类令人无比头疼的问题就会让人对新媒体数据的归档工作望而却步。况且,又是在目前没有哪项法律法规明确要求必须开展这项工作的情况下。
那么,新媒体归档工作真的就没人愿意做了吗?也不是,这个世界上还是有一些负重前行的勇士的!我们必须向他们致以崇高的敬意——Internet Archive(互联网档案馆)。
这是一个总部位于美国旧金山,收录并永久保存全球网站的非营利性组织,可以说是目前世界范围内对互联网档案资料保存历史最悠久、涵盖范围最广、内容保存最完整的机构。(更多内容介绍参见本公众号文章《互联网档案馆项目Internet Archive介绍》)。
Internet Archive作为新媒体归档工作的先行者为我们提供了一个宝贵的借鉴,它不仅向我们展示了新媒体数据归档保存的可能性,更为我们提供了可操作的实践经验和模式。我们无比期待中国版的Internet Archive尽早横空出世!
Part 04
新媒体数据-怎么存?
从微博、微信、新闻网站到视频分享平台,每一个平台和网站都会产生大量的文本、图像、音视频等不同类型的数据。由于新媒体数据的格式繁多和内容多样,其存储方式要比以往其他档案信息的保存更为复杂,如何选择合适的文件格式进行存储成为了一个至关重要的问题。这不仅要真实保存数据的原始形态,还要确保其运行环境和数据信息的完整性(或者进行格式转换以尽可能降低对运行环境的依赖),以便于后续的检索、分析和利用。WARC文件格式凭借其独特的优势脱颖而出,WARC格式是面向网络资源长期保存的资源保存格式,具有软件生态环境完善、内容丰富、便于管理、易于扩展、支持大容量文件保存等突出优点。
当然,WARC格式用于网站信息存档是没有问题的,但是否适合于微信、短视频等平台数据的存档还有待实践验证。有关WARC格式的详细介绍参见本公众号文章《网络资源归档标准WARC介绍》。
Part 05
新媒体数据-存哪些?
新媒体数据每天都在以爆炸式的速度增长,那么面对如此海量且杂乱的数据,应该留存哪些?留存的原则又是什么呢?在笔者看来,尽管很多新媒体数据过了时效之后鲜少被访问,但其仍承载着网络个体的重要信息和记忆,对于个人或社会的长远发展具有无法估量的价值,因此很有可能需要长期留存。我们不应仅基于短期访问频率来判断其重要性,数据的长期保存价值不是三五年内可以体现出来的。在当前针对网络新媒体数据既没有归档要求也没有销毁规定的情况下,作为平台方应做到应存尽存,尽可能全面留存新媒体数据。
国家档案局原局长杨冬权在《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》一文中指出:“档案价值具有多方面性,它既对档案的形成者有利用价值,又对档案的涉及者(包括直接涉及者和间接涉及者)有利用价值,还对档案的研究者(包括收藏爱好者)有利用价值,也对档案的所有者即国家和社会有利用价值。对本单位无用的档案,可能对全社会有用;对自己无用的,可能对别人有用;对今天无用的,可能对明天有用;对国家或单位无用的,可能对家庭或个人有用;表面看无用的,可能实际上有用。档案的这种多重价值或多方面价值就使档案的‘选择性管理’漏洞百出,捉襟见肘,无法应付。只有‘全部性管理’才能适应档案价值多重性的需要,才能满足未来利用者的各方面需求。”
Part06
新媒体数据-用什么存?
不只是网站自身的运营维护需要经济支撑,存储信息也需要成本,而且是巨量的成本。面对海量的信息,高昂的硬盘管理费、维护费、能耗以及网络和服务器成本等都给新媒体数据的存档工作带来了巨大的压力。关键是磁带和硬盘驱动器这类传统存储载体的容量和耐久性,也难以提供更长的数据存储寿命和更稳定的长期可访问性。
对此,我们需要一种相对低成本、既能高密度存储又能够保证数据长期安全、绿色节能的存储方式,现阶段蓝光存储应该是合适的选择,未来可能属于玻璃存储或者陶瓷纳米存储。
蓝光存储
蓝光存储目前已经比较成熟,相关案例介绍参见本号文章《蓝光存储在数据中心中的节能应用(以Facebook为例)》。
玻璃存储
玻璃存储拥有大容量、高存储密度和超凡的耐久性,可以保证数据的真实性、完整性和长期可用性,满足数据长期高效保存要求,这对于新媒体数据的长期保存而言无疑是一个理想的选择。但玻璃存储技术目前刚刚走出实验室,尚处于工程化过程中,离成熟还有一段距离。有关玻璃存储技术的更多介绍参见本号文章《微软研究院玻璃存储项目Project Silica最新进展》、《多维光学数据存储,在玻璃上刻下“超人”般的永恒》。
陶瓷纳米存储
陶瓷纳米存储同样可以提供冷数据存储所需的超长寿命、超大容量和持续可访问性,而且读写速度方面的表现比玻璃存储更加出色,因此尽管Cerabyte公司目前还只是用原型机进行了技术原理的展示,就已经让专业人士对其寄予厚望。有关陶瓷纳米技术的详细介绍参见本号文章《玻璃存储还没整明白,陶瓷纳米存储又来了!》。
Part 07
结 语
在数字时代的洪流中,新媒体数据如同历史发展过程中产生的珍珠,记录着时代的变迁与社会的演进。然而,正如人们所担心的“互联网崩塌”之势,随着互联网的快速发展和海量数据留存带来的巨大挑战,我们正面临着网络新媒体数据流失的严峻局面。这不仅仅是一个技术问题,更不是一个无关痛痒的自然现象,而是一个涉及历史记忆、文明传承和社会责任的深层次问题,需要我们共同直面应对并呼吁有关部门尽快出台相关政策法规予以保障和约束。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 -数字罗塞塔计划-
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.