网易首页 > 网易财经 > 正文

图书馆,维基百科和大数据

0
分享至
  维基百科分类系统的一个片段

尼 克

美国大学的图书馆学院系现在纷纷改名为“信息”或“信息管理”。一直领风气之先的加州大学伯克利分校,老早就把“图书馆学院”改名为“信息管理学院”,最近干脆把“管理”俩字也拿掉,就叫“信息学院”(School of Information),简称ischool,尽管是全校最小的学院,但这名字叫起来时髦、性感。全美图书馆专业最强的华盛顿大学,紧跟伯克利,也把图书馆学院改名为信息学院,也简称ischool。看起来真是大势所趋,有点像上世纪七十年代初全美大学纷纷设立计算机系的劲头,按这速度,应该很快会传遍全美。我估计这有几方面的因素:第一,图书的物理体现正在快速变化,越来越多的人从书之外的媒体获得信息,即使是书,也从纸质变为电子;第二,新的信息载体需要新的管理方式,大数据也带来图书馆的革命;第三,更易招生,作为职业教育的“图书馆”院系,生源第一重要,如果不变革,更无法同商学院、法学院、医学院竞争了。伯克利真是不想再培养图书馆管理员了,这事貌似北大更有经验;第四,方便募款,伯克利信息学院的新募款对象包括了谷歌雅虎等科技新贵,如果还举着“图书馆学院”的牌子,估计“新钱”(new money)的大佬们才不会待见呢。

新名字并不只是新瓶装旧酒。伯克利改名后,课程设置也全部革新,不教怎么包书皮儿了,改教大数据。原来图书馆相关的课程已所剩无几,最流行的课程是信息查询(即搜索技术),数据挖掘,和信息可视化(Information Visualization)。改名后的第一任院长是伯克利著名的经济学家瓦里安(Hal Varian),以提出“信息经济学”和“网络经济学”闻名。他最近已离任前往谷歌担任首席经济学家。教授的成分也焕然一新,一些计算机科学家、经济学家和法学家加盟,而且信息学院和计算机等系科联合任命教授。教授中三分之一都是计算机博士毕业,而课程竟然有一半都是计算机课,如数据库、信息查询、网络与信息安全、大数据等。当然,除了计算机课程之外,也得有点别的,例如知识产权、社交媒体、信息经济学等,要不然真没法形成新学院的特色。某些号召力强且比较软性的课程则直接把视频摆到网上。除了本校教授,伯克利还从外边请人走穴,如亚马逊(Amazon)的前首席科学家安德烈斯·维根(Andreas Weigend),就两次开设“社交数据的进化”课程,尽管干货不多,但老头儿段子不少,讲的都是工业界正在发生的事,听起来倒也有趣。

谷歌、维基百科等也在努力改进信息的组织方式,以更方便计算机理解原始信息。谷歌的“知识图”(Knowledge Graph)就是一种新的语义知识库。谷歌把关于各种客体(object)的事实结构化,进而为谷歌的搜索引擎、机器翻译和其他应用提供基础语义信息。这些被结构化的语义信息的一个主要来源就是维基百科。维基百科中的人名、地名等都被结构化后,它们的格式可以通过元数据定义清楚,机器和人可以利用结构化的数据做更精准的语义搜索和关联。一个例子是维基百科的infobox(信息盒)。当我们在维基百科上搜索“Issac Newton”时,在页面的右上侧,就会呈现出“牛顿”的infobox,这个盒子里有关于牛顿的结构化信息,如生卒年月、毕业院校、老师是谁、所做贡献、受何人影响又影响过何人等。在这些信息之上,还可以进一步开发各种好玩的应用。前一阵,就有个学生写了一段简单的程序:挑出维基百科中的所有哲学家,在他们的infobox中找出受谁影响和影响别人的字段,然后画一张图,一个圈代表一个哲学家,影响度高的对应的圈就大一些。这些在现在的“信息”时代轻而易举可以做到的事情,在以前“图书馆”的时代,几乎不可能。

维基百科最常用的方式是输入关键词,然后得到一个或几个结果。其实它还有另一种按类查找的功能。例如,我们想知道在“物理学”的类别下,还有些什么子学科,那么输入“Category: Physics”,就可得到一个列表,它包括诸如“经典力学”“量子物理”“理论物理”等属于“物理学”的子学科,列表中的每一个项,在维基百科中被称为“子类”(subcategory)。有了这个分类,维基百科中的所有词条都可分门别类,维基百科在每个词条页面的底部,都会显示这个词条所属的所有类别。例如,“牛顿”就分属于“英国物理学家”、“卢卡斯数学教授”、“剑桥三一学院研究员”、“微积分历史”,甚至“1727年死去的人”等。我们由此点击“卢卡斯数学教授”,就可得到剑桥有史以来担任过“卢卡斯”讲座教授的所有人的名单,其中当然有上届已退休的霍金和本届的麦克-格林(Michael Green)。这个分类信息,程序和人都可读取。

上图展示了维基百科分类系统的一个片段。这里我们可以看到:“社会科学”是“科学”的子类,“科学”又是“知识”的子类;而“人文”是“文化”的子类,“文化”又是“社会”的子类,等等。

更多的例子:“矩阵论”是“线性代数”的子类,依次又是“代数”的子类,依次又是“数学”的子类。又如,“范冰冰”(Fan Bingbing)属于几个类,其中有“山东演员”“山东歌手”(范爷还会唱歌?)等。如果我们顺着“山东歌手”的类再往上爬,就可以到“山东音乐家”(这个类厉害),再往上爬,可到“中国音乐家”,又可到“亚洲音乐家”等等。

维基百科的这种信息分类技术,对于计算机科学家来说再熟悉不过。“面向客体的程序设计”(Object-Oriented,也有翻译为“面向目标”的,简称OO),就是这个思路。每个类(class)都可以有多个子类(subclass),每个子类也可以有多个超类(superclass)。只不过OO那里叫class,维基百科这里叫category;那里叫“实例”(instance),这里叫“文章”(article),结构和原理是一样的。其实电子书的内容将来也可按此方式组织,对纸质书的研究是旧的死学问,而对电子书的研究则是新的活学问。从这个角度看,伯克利将图书馆学院改名信息学院,并改革课程设置,是顺历史潮流而动。

在谷歌知识图和维基百科之前,早就有关于知识管理的理论研究。一种最近被经常提到的方法:“形式化概念分析”(Formal Concept Analysis,简称FCA),是由德国数学家鲁道夫-威勒(Rudolf Wille)在1984年提出的。他用代数中一种被称为“格”(Lattice)的结构为概念分类提供了数学基础。每个概念都有一个客体集和属性集,客体集就是这个概念的外延,属性集就是这个概念的内涵。一个概念越广泛,它的外延自然越大,而内涵越小。动物的外延比人要大,因为客体集更大;而人的内涵比动物要大,因为人更特殊。在维基百科中,子类的外延自然比父类的外延要小,例如,“剑桥数学家”或“英国统计学家”类中的一员必定出现在“英国数学家”类中。

程序设计中的OO和维基百科分类都可以用“格”来刻画。在程序设计中,“格”的概念清晰可寻,而在维基百科中,因为涉及的编辑人员鱼龙混杂,也缺乏自动化工具,分类的概念就没有被严谨地遵循。有时会闹笑话。比如在维基百科的分类系统中,可以从“物理学”类出发,一级一级地通过子类,到达“数学”。如下所示:

物理学(Physics) 应用及交叉学科物理学(Applied and interdisciplinary physics) 天体物理学(Astrophysics) 宇宙(Universe) 生命(Life) 社会(Society) 教育(Education) 学术(Academia) 学术学科(Academic disciplines) 社会科学(Social sciences) 人类学(Anthropology) 语言学(Linguistics) 认知科学(Cognitive science) 记忆(Memory) 知识(Knowledge) 认识论(Epistemology) 认知(Cognition) 思维(Thought) 抽象(Abstraction) 数学(Mathematics)

也就是说“数学”是“物理学”的子类,这有点说不过去了。稍微分析一下,我们可以看出几个跳跃比较大的步骤:“天体物理学”的子类中有“宇宙”,“宇宙”和“宇宙学”可不是一回事。而把“学术”置于“教育”之下也不对,而“认知科学”又凭什么被置于“语言学”之下。

更不靠谱的是,从“数学”类出发,通过若干步的子类运算后,还有一条路径可以到达“物理学”,也就是说“物理学”又是“数学”的子类。从“格”的角度看,“物理学”就等于“数学”了。其实不用懂什么数学原理,直觉上,我们就知道这肯定有问题。“格”里不能有循环。

这样的问题,目前还不严重,因为维基百科的用户当下主要是人,没什么人会有兴趣一层一层地爬分类结构。但如果以后有计算机程序想了解人类学问是怎样分门别类的,那,这问题可就大了。目前,DBPedia正在从维基百科中抽取结构化的信息,形成知识的本体论(ontology),这些本体论就可以被用作其他程序的基础信息,例如,自然语言理解和翻译。如果基本的分类都做不好,那上层的工作结果肯定也不靠谱。把数学、物理分类搞差了,问题不大,如果把范爷分错了类,那是要犯政治错误的。顺便说一句,这个分类循环问题是本文作者去年帮儿子做大数据编程作业时发现的,最后声明一下本人没有代笔儿子的作业,他程序编得比我溜多了,而且正在考虑怎么解决这个问题呢。

相关推荐
热点推荐
隔空喊话“陕西省高速管理局党委书记”

隔空喊话“陕西省高速管理局党委书记”

娱乐的宅急便
2024-04-24 14:01:33
中国宣布邀布林肯访华,措辞有变,不到24小时,一架美专机抵台岛

中国宣布邀布林肯访华,措辞有变,不到24小时,一架美专机抵台岛

手工制作阿歼
2024-04-24 01:36:34
拍客丨福建一地暴雨导致几万包木耳菌包被洪水冲走 种植户:损失几万元

拍客丨福建一地暴雨导致几万包木耳菌包被洪水冲走 种植户:损失几万元

封面新闻
2024-04-24 16:09:14
北斗遭某国神秘强电磁袭击,危急时刻,他挺身而出,70天成功破解

北斗遭某国神秘强电磁袭击,危急时刻,他挺身而出,70天成功破解

百年历史老号
2024-04-23 11:26:36
1米68女儿生病,让老父亲抱着,老妈愁得挠头,网友:我家也一样

1米68女儿生病,让老父亲抱着,老妈愁得挠头,网友:我家也一样

雪莉故事汇
2024-04-17 11:32:26
房价暴跌回10年前,深圳业主炸了!

房价暴跌回10年前,深圳业主炸了!

大胡子说房
2024-04-23 12:10:21
南充失踪女老师已找到,失踪原因令网友愤怒,网友:不配做老师!

南充失踪女老师已找到,失踪原因令网友愤怒,网友:不配做老师!

叶公子
2024-04-23 23:02:47
福州11岁双胞胎兄弟家门口失联,当地义工:在河里找到二人遗体,离家不超过500米

福州11岁双胞胎兄弟家门口失联,当地义工:在河里找到二人遗体,离家不超过500米

潇湘晨报
2024-04-23 19:18:10
美将恢复向乌供应陆军战术导弹系统,泽连斯基:乌不会成为第二个阿富汗

美将恢复向乌供应陆军战术导弹系统,泽连斯基:乌不会成为第二个阿富汗

凤凰卫视
2024-04-22 10:20:04
别克打响“第一枪”,中型SUV直降8万6,“买一送一”,还要啥比亚迪?

别克打响“第一枪”,中型SUV直降8万6,“买一送一”,还要啥比亚迪?

户外小阿隋
2024-04-24 15:19:59
韩安冉怀二胎好真实,20周逼近140斤,拍孕妇照整个人都是圆的!

韩安冉怀二胎好真实,20周逼近140斤,拍孕妇照整个人都是圆的!

鑫鑫说说
2024-04-23 16:25:36
可口可乐最新Logo曝光,网友:太炸裂了!

可口可乐最新Logo曝光,网友:太炸裂了!

秋叶PPT
2024-04-23 08:20:25
中国待遇最好的央企排名出炉了

中国待遇最好的央企排名出炉了

匹夫来搞笑
2024-04-24 15:24:03
43岁妇女经过玉米地被人强奸杀害,强奸的部位却令人生疑

43岁妇女经过玉米地被人强奸杀害,强奸的部位却令人生疑

胖胖侃咖
2024-04-18 08:00:09
深夜里,5876.16克黄金不翼而飞……

深夜里,5876.16克黄金不翼而飞……

环球网资讯
2024-04-24 14:21:04
几乎全是假货,利润率高达650%,为何很多人仍然愿意被割韭菜!

几乎全是假货,利润率高达650%,为何很多人仍然愿意被割韭菜!

盛世科记
2024-04-21 10:00:48
华为 Pura 70 可一键消除衣服?官方回应来了

华为 Pura 70 可一键消除衣服?官方回应来了

简科技
2024-04-24 11:46:53
日元暴跌后,印度或入围世界4强,中国抛完美债的下一步很重要

日元暴跌后,印度或入围世界4强,中国抛完美债的下一步很重要

吕喆有话说
2024-04-24 08:55:18
体育界掀起波澜!美国欲将中国逐出巴黎奥运,中国如何应对?

体育界掀起波澜!美国欲将中国逐出巴黎奥运,中国如何应对?

室内设计师阿喇
2024-04-23 10:11:39
笑不活了,周杰伦问小孩哥怎么买到票的,我却笑死网友评论里

笑不活了,周杰伦问小孩哥怎么买到票的,我却笑死网友评论里

娱乐圈酸柠檬
2024-04-23 16:06:32
2024-04-24 16:48:49

财经要闻

周鸿祎雷军大和解,为了拯救哪吒?

头条要闻

欧盟突击检查一家中企在荷兰和波兰的办公室 中方回应

头条要闻

欧盟突击检查一家中企在荷兰和波兰的办公室 中方回应

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

方媛带两女儿参加婚礼,当花童超可爱

科技要闻

特斯拉财报差劲 但马斯克做出一个重磅表态

汽车要闻

升级L2+级驾辅系统 2024款猛龙售16.58万起

态度原创

游戏
教育
旅游
房产
家居

这是你没玩过的船新版本 《中国式网游》预告来袭!

教育要闻

年龄问题,小红8年前8岁,求她8年后多少岁?

旅游要闻

不合理低价游为何禁不住?

房产要闻

大手笔收购!华润入局三亚城市更新!

家居要闻

光影之间 空间暖意打造生活律动

无障碍浏览 进入关怀版
×