网易首页 > 网易财经 > 正文

图书馆,维基百科和大数据

0
分享至
  维基百科分类系统的一个片段

尼 克

美国大学的图书馆学院系现在纷纷改名为“信息”或“信息管理”。一直领风气之先的加州大学伯克利分校,老早就把“图书馆学院”改名为“信息管理学院”,最近干脆把“管理”俩字也拿掉,就叫“信息学院”(School of Information),简称ischool,尽管是全校最小的学院,但这名字叫起来时髦、性感。全美图书馆专业最强的华盛顿大学,紧跟伯克利,也把图书馆学院改名为信息学院,也简称ischool。看起来真是大势所趋,有点像上世纪七十年代初全美大学纷纷设立计算机系的劲头,按这速度,应该很快会传遍全美。我估计这有几方面的因素:第一,图书的物理体现正在快速变化,越来越多的人从书之外的媒体获得信息,即使是书,也从纸质变为电子;第二,新的信息载体需要新的管理方式,大数据也带来图书馆的革命;第三,更易招生,作为职业教育的“图书馆”院系,生源第一重要,如果不变革,更无法同商学院、法学院、医学院竞争了。伯克利真是不想再培养图书馆管理员了,这事貌似北大更有经验;第四,方便募款,伯克利信息学院的新募款对象包括了谷歌雅虎等科技新贵,如果还举着“图书馆学院”的牌子,估计“新钱”(new money)的大佬们才不会待见呢。

新名字并不只是新瓶装旧酒。伯克利改名后,课程设置也全部革新,不教怎么包书皮儿了,改教大数据。原来图书馆相关的课程已所剩无几,最流行的课程是信息查询(即搜索技术),数据挖掘,和信息可视化(Information Visualization)。改名后的第一任院长是伯克利著名的经济学家瓦里安(Hal Varian),以提出“信息经济学”和“网络经济学”闻名。他最近已离任前往谷歌担任首席经济学家。教授的成分也焕然一新,一些计算机科学家、经济学家和法学家加盟,而且信息学院和计算机等系科联合任命教授。教授中三分之一都是计算机博士毕业,而课程竟然有一半都是计算机课,如数据库、信息查询、网络与信息安全、大数据等。当然,除了计算机课程之外,也得有点别的,例如知识产权、社交媒体、信息经济学等,要不然真没法形成新学院的特色。某些号召力强且比较软性的课程则直接把视频摆到网上。除了本校教授,伯克利还从外边请人走穴,如亚马逊(Amazon)的前首席科学家安德烈斯·维根(Andreas Weigend),就两次开设“社交数据的进化”课程,尽管干货不多,但老头儿段子不少,讲的都是工业界正在发生的事,听起来倒也有趣。

谷歌、维基百科等也在努力改进信息的组织方式,以更方便计算机理解原始信息。谷歌的“知识图”(Knowledge Graph)就是一种新的语义知识库。谷歌把关于各种客体(object)的事实结构化,进而为谷歌的搜索引擎、机器翻译和其他应用提供基础语义信息。这些被结构化的语义信息的一个主要来源就是维基百科。维基百科中的人名、地名等都被结构化后,它们的格式可以通过元数据定义清楚,机器和人可以利用结构化的数据做更精准的语义搜索和关联。一个例子是维基百科的infobox(信息盒)。当我们在维基百科上搜索“Issac Newton”时,在页面的右上侧,就会呈现出“牛顿”的infobox,这个盒子里有关于牛顿的结构化信息,如生卒年月、毕业院校、老师是谁、所做贡献、受何人影响又影响过何人等。在这些信息之上,还可以进一步开发各种好玩的应用。前一阵,就有个学生写了一段简单的程序:挑出维基百科中的所有哲学家,在他们的infobox中找出受谁影响和影响别人的字段,然后画一张图,一个圈代表一个哲学家,影响度高的对应的圈就大一些。这些在现在的“信息”时代轻而易举可以做到的事情,在以前“图书馆”的时代,几乎不可能。

维基百科最常用的方式是输入关键词,然后得到一个或几个结果。其实它还有另一种按类查找的功能。例如,我们想知道在“物理学”的类别下,还有些什么子学科,那么输入“Category: Physics”,就可得到一个列表,它包括诸如“经典力学”“量子物理”“理论物理”等属于“物理学”的子学科,列表中的每一个项,在维基百科中被称为“子类”(subcategory)。有了这个分类,维基百科中的所有词条都可分门别类,维基百科在每个词条页面的底部,都会显示这个词条所属的所有类别。例如,“牛顿”就分属于“英国物理学家”、“卢卡斯数学教授”、“剑桥三一学院研究员”、“微积分历史”,甚至“1727年死去的人”等。我们由此点击“卢卡斯数学教授”,就可得到剑桥有史以来担任过“卢卡斯”讲座教授的所有人的名单,其中当然有上届已退休的霍金和本届的麦克-格林(Michael Green)。这个分类信息,程序和人都可读取。

上图展示了维基百科分类系统的一个片段。这里我们可以看到:“社会科学”是“科学”的子类,“科学”又是“知识”的子类;而“人文”是“文化”的子类,“文化”又是“社会”的子类,等等。

更多的例子:“矩阵论”是“线性代数”的子类,依次又是“代数”的子类,依次又是“数学”的子类。又如,“范冰冰”(Fan Bingbing)属于几个类,其中有“山东演员”“山东歌手”(范爷还会唱歌?)等。如果我们顺着“山东歌手”的类再往上爬,就可以到“山东音乐家”(这个类厉害),再往上爬,可到“中国音乐家”,又可到“亚洲音乐家”等等。

维基百科的这种信息分类技术,对于计算机科学家来说再熟悉不过。“面向客体的程序设计”(Object-Oriented,也有翻译为“面向目标”的,简称OO),就是这个思路。每个类(class)都可以有多个子类(subclass),每个子类也可以有多个超类(superclass)。只不过OO那里叫class,维基百科这里叫category;那里叫“实例”(instance),这里叫“文章”(article),结构和原理是一样的。其实电子书的内容将来也可按此方式组织,对纸质书的研究是旧的死学问,而对电子书的研究则是新的活学问。从这个角度看,伯克利将图书馆学院改名信息学院,并改革课程设置,是顺历史潮流而动。

在谷歌知识图和维基百科之前,早就有关于知识管理的理论研究。一种最近被经常提到的方法:“形式化概念分析”(Formal Concept Analysis,简称FCA),是由德国数学家鲁道夫-威勒(Rudolf Wille)在1984年提出的。他用代数中一种被称为“格”(Lattice)的结构为概念分类提供了数学基础。每个概念都有一个客体集和属性集,客体集就是这个概念的外延,属性集就是这个概念的内涵。一个概念越广泛,它的外延自然越大,而内涵越小。动物的外延比人要大,因为客体集更大;而人的内涵比动物要大,因为人更特殊。在维基百科中,子类的外延自然比父类的外延要小,例如,“剑桥数学家”或“英国统计学家”类中的一员必定出现在“英国数学家”类中。

程序设计中的OO和维基百科分类都可以用“格”来刻画。在程序设计中,“格”的概念清晰可寻,而在维基百科中,因为涉及的编辑人员鱼龙混杂,也缺乏自动化工具,分类的概念就没有被严谨地遵循。有时会闹笑话。比如在维基百科的分类系统中,可以从“物理学”类出发,一级一级地通过子类,到达“数学”。如下所示:

物理学(Physics) 应用及交叉学科物理学(Applied and interdisciplinary physics) 天体物理学(Astrophysics) 宇宙(Universe) 生命(Life) 社会(Society) 教育(Education) 学术(Academia) 学术学科(Academic disciplines) 社会科学(Social sciences) 人类学(Anthropology) 语言学(Linguistics) 认知科学(Cognitive science) 记忆(Memory) 知识(Knowledge) 认识论(Epistemology) 认知(Cognition) 思维(Thought) 抽象(Abstraction) 数学(Mathematics)

也就是说“数学”是“物理学”的子类,这有点说不过去了。稍微分析一下,我们可以看出几个跳跃比较大的步骤:“天体物理学”的子类中有“宇宙”,“宇宙”和“宇宙学”可不是一回事。而把“学术”置于“教育”之下也不对,而“认知科学”又凭什么被置于“语言学”之下。

更不靠谱的是,从“数学”类出发,通过若干步的子类运算后,还有一条路径可以到达“物理学”,也就是说“物理学”又是“数学”的子类。从“格”的角度看,“物理学”就等于“数学”了。其实不用懂什么数学原理,直觉上,我们就知道这肯定有问题。“格”里不能有循环。

这样的问题,目前还不严重,因为维基百科的用户当下主要是人,没什么人会有兴趣一层一层地爬分类结构。但如果以后有计算机程序想了解人类学问是怎样分门别类的,那,这问题可就大了。目前,DBPedia正在从维基百科中抽取结构化的信息,形成知识的本体论(ontology),这些本体论就可以被用作其他程序的基础信息,例如,自然语言理解和翻译。如果基本的分类都做不好,那上层的工作结果肯定也不靠谱。把数学、物理分类搞差了,问题不大,如果把范爷分错了类,那是要犯政治错误的。顺便说一句,这个分类循环问题是本文作者去年帮儿子做大数据编程作业时发现的,最后声明一下本人没有代笔儿子的作业,他程序编得比我溜多了,而且正在考虑怎么解决这个问题呢。

相关推荐
热点推荐
与我外长通话不到一天,荷兰推翻对华承诺,停止对中方出售光刻机

与我外长通话不到一天,荷兰推翻对华承诺,停止对中方出售光刻机

柒号观察室
2023-02-01 06:31:08
牛市要来?关注一个重要信号!

牛市要来?关注一个重要信号!

飞鲸投研
2023-02-01 17:24:29
华为能否抗得住美国最后一轮制裁?

华为能否抗得住美国最后一轮制裁?

磨铁星文
2023-02-01 07:50:35
我也30了,是时候说再见了!阿冷合同到期官宣退鱼:没有遗憾!

我也30了,是时候说再见了!阿冷合同到期官宣退鱼:没有遗憾!

娱乐搬运
2023-02-01 14:16:59
李立群:在台湾一碗面吃了300块嫌太贵,店家说嫌贵别吃

李立群:在台湾一碗面吃了300块嫌太贵,店家说嫌贵别吃

老狼追星
2023-02-01 08:48:22
不用怕了!著名军事专家钱七虎院士,给我们老百姓吃了一颗定心丸!

不用怕了!著名军事专家钱七虎院士,给我们老百姓吃了一颗定心丸!

孙玉希军事
2023-02-01 14:56:00
瑕不掩瑜!《狂飙》中那些哭笑不得的“穿帮镜头”,太搞笑了

瑕不掩瑜!《狂飙》中那些哭笑不得的“穿帮镜头”,太搞笑了

陈述影视
2023-01-31 17:50:53
A股:一个消息出炉,股市或将迎来“大变盘”

A股:一个消息出炉,股市或将迎来“大变盘”

牡丹花春天
2023-02-01 12:28:01
父母接连去世,居委成“临时家长”,闵行小囡遗产继承一波三折,幸好……

父母接连去世,居委成“临时家长”,闵行小囡遗产继承一波三折,幸好……

上海闵行
2023-02-01 07:10:03
“中产阶级”标准出炉?中国有3320万户达到中产,你家及格了吗?

“中产阶级”标准出炉?中国有3320万户达到中产,你家及格了吗?

四季财道
2023-01-31 20:09:08
苏贞昌才卸任就传出住院手术,蔡英文前去探视

苏贞昌才卸任就传出住院手术,蔡英文前去探视

环球网资讯
2023-02-01 13:34:18
俄军侦察兵摸上阵地,发现扎波罗热乌军第一道阵地:突然空无一人

俄军侦察兵摸上阵地,发现扎波罗热乌军第一道阵地:突然空无一人

无定河
2023-02-01 16:04:23
1943年,脑满肥肠马鸿逵检阅士兵时留影,据说当时体重大约400斤

1943年,脑满肥肠马鸿逵检阅士兵时留影,据说当时体重大约400斤

电竞之城
2023-01-28 16:09:39
中国游客又去了?好了伤疤忘了疼,国家表示:所有费用请自己承担

中国游客又去了?好了伤疤忘了疼,国家表示:所有费用请自己承担

医者真言
2023-01-29 09:12:25
CCTV8《狂飙》回放不见了

CCTV8《狂飙》回放不见了

花仙历史说
2023-02-01 10:46:14
渐进式延迟退休2023年或公布

渐进式延迟退休2023年或公布

娱乐的小小妞
2023-02-01 14:48:27
陈希同在他的别墅“野味斋”里接待过的那些女人们

陈希同在他的别墅“野味斋”里接待过的那些女人们

沸闻
2023-01-20 19:39:34
丁彦雨航宣布退役!告别CBA,顶级锋线昙花一现令人唏嘘

丁彦雨航宣布退役!告别CBA,顶级锋线昙花一现令人唏嘘

晚霞实拍
2023-01-31 23:01:23
注意添衣!四川新一轮降温降雨来了

注意添衣!四川新一轮降温降雨来了

就爱大四川
2023-02-01 16:05:47
北京三里屯酒吧街关停倒计时:顾客打卡告别,老板依依不舍

北京三里屯酒吧街关停倒计时:顾客打卡告别,老板依依不舍

海报新闻
2023-01-31 08:28:09
2023-02-01 20:00:49

财经要闻

头条要闻

与日荷联手"围堵中国"后 美国又准备拉印度入伙

头条要闻

与日荷联手"围堵中国"后 美国又准备拉印度入伙

体育要闻

勒布朗助攻连创纪录 得分王就差89分了

娱乐要闻

升级当妈?孙骁骁低头看肚母爱满满

科技要闻

美国政府考虑彻底断供华为,影响几何?

汽车要闻

奔驰中期改款GLE家族首发 全系48V/AMG更暴力

态度原创

房产
旅游
亲子
数码
教育

房产要闻

上海东站将于3月开建,直接利好祝桥和临港

旅游要闻

何处梅花一绽香?湖北寻香指南请收好

亲子要闻

安抚奶嘴怎么用,99%的妈妈后悔太晚看到!

数码要闻

第二代HomePod开箱:五年后重生,音质更好

教育要闻

心理学家:出现这两大特征,说明你正在培养一个天性凉薄的孩子

无障碍浏览 进入关怀版
×