AI智商达到多少了？未来智能实验室启动AI智商评测|ai|人工智能|机器人

AI智商达到多少了？未来智能实验室启动AI智商评测

2017-11-29 15:26:52　来源: 网易智能举报

分享至

本文选自：人工智能学家（公众号 AItists）

一、人工智能能否超越人类智慧的争议

21世纪以来，人工智能领域陆续爆发很多重要事件。其中最吸引人们眼球的，当属2016年战胜了人类围棋冠军并开始能够从0自我学习的AlphaGo，

10月1日，美国CBNC，麻省理工科技评论等媒体报道根据中国研究团队的研究，谷歌、Siri、百度、Bing等人工智能系统智商仍然大幅度低于人类6岁儿童。

而与之形成鲜明对比的是，10月26日，软银CEO孙正义在沙特阿拉伯举行的未来投资计划大会上称，未来30年内AI的智商（IQ）将达到10000。这次大会上机器人公民索菲亚（Sophia）被宣布成为沙特阿拉伯的机器公民，这些事件让人工智能与人类关系的讨论变得更热烈，更多人担心机器人最终会使得人类变成无用的生物，甚至会导致人类的灭绝。

包括著名的物理学家霍金，微软创始人比尔盖茨，特斯拉CEO马斯克，软银集团创始人孙正义等。发表观点指出人工智能将超越人类并对人类产生威胁。

另一方面，人工智能领域科学家对人工智能威胁论也提出了反驳或不同意见。这其中就包括Facebook人工智能实验室主任YannLeCun，前谷歌大脑创始人吴恩达等。

二、AI智商评测的发展与困难

面对AI的突然爆发，人工智能威胁论的广泛传播，那么AI究竟能不能超越人类，AI智能水平究竟达到什么水平，各种智能产品究竟有多少智能，各种爆炸性的AI和机器人突破事件究竟是否真实？

这些问题需要在科学上有一套方法，能够对包括AI系统，人类和其他智能体进行统一的智能水平测试，以判断它们的发展水平。

目前人工智能定量评测面临两个重要挑战：第一，人工智能系统目前没有形成统一的模型；第二，人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。

这两个挑战都指向了同一个问题，即对于所有的人工智能系统和所有生命体（特别是以人类为代表的生命体）需要有一个统一的模型进行描述，只有这样才能在这个模型上建立智力测量方法并进行测试。

从1950年图灵测试提出以来，科学家已经为人工智能发展的评价体系做了很多工作。

1950年，图灵提出了著名的图灵实验，采用提问和人类裁判的方法，判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法，但图灵测试并不检验Ai的智能发展水平，只是判断智能系统能否与人类智能相同，而且受人为因素干扰太多，严重依赖于裁判者和被测试者的主观判断，因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试，

2015年3月24日“美国科学院院刊（PNAS)发表一篇论文，提出一种新的图灵测试方法“Visual Turing test” ，这种测试方法用来对计算机的图像认知能力进行更为深入的评估。

2014年美国佐治亚技术学院的瑞德教授（Mark O. Riedl）认为，智能的本质在于创造力。他设计了一个叫做Lovelace 2.0版本的测试。Lovelace 2.0的测试范围包括：创作有虚拟故事的小说、诗歌创作、油画和音乐等。

在解决人工智能定量测试的问题上，包括图灵测试在内的各种方案还存在两个问题：第一，这些测试方法没有形成统一的智能模型，并以此为基础进行分析，区分智能的多个分类。导致无法将不同的智能系统包括人类进行统一的测试；第二是这些测试方法无法定量分析人工智能，或者只定量分析智能的某个方面，但这个系统究竟达到人类智慧的百分之多少，发展速度与人类智慧发展速度比率如何，这些问题在上述研究中没有涉及。

三、标准智能模型的建立与AI智商测试

针对这一问题，科学院虚拟经济与数据科学研究中心刘锋、石勇、刘颖团队参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。从2014年开始发表论文建立“标准智能模型”，统一描述人工智能系统和人类的特征和属性。

这其中冯?诺伊曼结构给予我们的启发是：标准智能系统模型应包含输入输出系统，能够从外界获取信息，能够将内部产生的结果反馈给外部世界，只有这样，标准智能系统才能成为“活”的系统。

戴维.韦克斯勒关于人类智能的定义给予我们最大的启示是：智力能力是由多个要素组成，而非图灵测试或视觉图灵测试那样只关注智力能力的一个方面。

DIKW模型体系给予我们的启发是：智慧是一种解决问题，积累知识的能力；知识是人类不断与外界交互后沉淀下来结构化的数据和信息，这提醒我们，一个智能系统不仅仅体现出知识的掌握，更重要的还有关于解决问题的创新能力。

这种关于知识的掌握能力，知识的创新能力与戴维.韦克斯勒理论、冯.诺依曼架构结合，就可以形成智能系统智力能力的多层次结构。

这种关于知识的掌握能力，知识的创新能力与戴维.韦克斯勒理论、冯.诺依曼架构结合，就可以形成智能系统智力能力的多层次结构。综上所述，我们得出智能系统的标准模型应该具备一下特点：

第一、具有输入输出的功能，即可以与外界通过数据、信息和知识进行交互的能力。

第二．具有存储数据、信息、知识的能力，即将外界数据、信息和知识化为自身资源的能力。

第三．具有生成新数据、信息和知识的能力，即基于自身拥有的知识，在新数据或信息的启发下，对数据、信息和知识进行创新从而产生新的数据、信息和知识的能力，如图1.4所示（为了简化，本图中数据、信息、知识统一用知识描述）。

为了更好的分析AI，人类等智能体的智能水平，研究团队把“知识的获取，掌握，创新和反馈”又分成15个小分类，从更多维度评测AI，人类的智能。这15个小分类是：图像、文字、声音的识别和输出，常识、计算、翻译、排列，创作、挑选、猜测、发现等。研究人员根据这些分类的维度，在2014年，对世界50个AI系统和3个不同年龄段人类进了测试。

2016年2月，研究团队开展了“2016年人工智能系统的智商测试”，对包括谷歌、百度、搜狗、苹果Siri、微软小冰在内的人工智能系统进行了测试，从测试结果看，谷歌、百度等人工智能系统的性能比两年前已有大幅提高，但仍与6岁儿童有一定差距。

相关研究方法和测试结论发表在IJIT & DM、Annals of Data Science、中国计算机学报等SCI、EI，中国核心期刊上，这一研究成果受到了美国著名财经媒体CNBC，麻省理工科技评论，ZDNET，YAhoo等美国，德国、日本、意大利、英国、法国、俄罗斯、新加坡、台湾地区和中国大陆媒体的报道。

从近4年的持续研究看，虽然人工智能系统这两年得分增长很快。在知识的掌握方面得分比较高，在知识的获取和反馈方面有很大提高，但还有很多不足。在创造性这个大分类上，得分一直进展不大。而且由于这个分类的权重又比较高，因此目前为止依然无法超越6岁的儿童。

四、未来智能实验室：开展第三次世界人工智能智商测试

2017年11月，研究团队成立未来智能实验室，基于实验室“标准智能系统”、“AI智商测试量表”、“智能系统7个等级划分”、“互联网（城市）云脑架构”等研究成果，建设世界第一个智能系统智商评测与趋势研究机构，致力于评测智能系统智商发展水平，研究智能系统未来发展趋势。目标是成为世界领先的智能系统评测和发展趋势研究机构。

未来智能实验室根据人工智能的最新发展，在人工智能学家，中国科学院虚拟经济与数据科学研究中心的支持下启动2018年世界AI智商评测活动（WorldAI IQ Test 2018），对世界范围人工智能系统智能发展水平进行新的评测。以观察世界范围内人工智能最新发展水平以及与人类的差距。本次活动，实验室将开展多种形成的研究和评测工作，除了测试2018年人工智能的发展水平，还将第一次对互联网群体智慧的智商进行测试。

2018年世界AI智商评测（WorldAI IQ Test 2018）的主要工作包括：

1.评测主流人工智能系统。选择世界范围具有代表性的人工智能系统，包括但不仅限于谷歌、苹果、百度、微软、搜狗、腾讯、亚马逊、IBM、科大讯飞、图灵机器人，机器人索菲亚等科技企业的产品按照新的世界AI智商评测量表进行评测，并与人类测试者进行对比。2018年的评测还将第一次测试互联网群体智慧的智商，与AI系统，单个人类的智商进行对比研究

2.把AI智商测试扩展到整个智能行业。根据研究团队标准智能模型，智能分级方法，构建更为立体的智能系统智商评测体系，研究团队发现根据测量对象的角色定位不同，会存在相互关联但又有重大区别的AI 智商评测体系。WorldAI IQ Test 2018的工作将就此展开深入研究，并开展垂直领域智能系统的AI智商量表建立和测试工作，测试对象包括但不仅限于聊天机器人，智能音箱，智能手机，服务机器人，智能汽车，智能家电，智慧城市，互联网云脑等。

3.形成第二版的世界AI智商评测量表。目前“标准智能模型”的测试分类包括“图像、文字、声音的识别和输出，常识、计算、翻译、排列，创作、挑选、猜测、发现等，根据人工智能的发展状况和我们对智能系统的进一步了解，2018年世界AI智商评测活动将对分类和权重进行新的调整，形成第二版的世界AI智商评测量表。

五、实验室相关研究论文

一.论文题目：《TheSearch Engine IQ Test based on the Internet IQ Evaluation Algorithm》；作者：刘锋，石勇；

发表刊物：Proceedings of the Second InternationalConference on Information Technology and Quantitative Management[J] ；.ProcediaComputer Science

发表日期：2014年4月25日

二.论文题目：《WorldSearch Engine IQ Test Based on the Internet IQ Evaluation Algorithms》；作者：刘锋，石勇；汪波

发表刊物：International Journal of InformationTechnology & Decision Making

发表日期：2015年3月11日

三.论文题目：从机器人到谷歌大脑—人工智能的6个智能等级；作者：刘锋

发表刊物：《中国计算机学会通讯》；

发表日期：2016年4月10日

四.论文题目：《IntelligenceQuotient and Intelligence Grade of Artificial Intelligence》；作者：刘锋，石勇；刘颖

发表刊物：Annals of Data Science；https://arxiv.org/abs/1709.10242