《仿生眼:怎样仿制大自然最精密聪慧的作品》(张晓林著. 北京:科学出版社,2024.6)从眼球及大脑的生理解剖结构和其运动控制神经系统的拓扑描述出发,通过建立生物视觉系统的数学模型,解析视觉信息在大脑中的处理流程,搭建类脑框架,推测并模拟意识的形成及智能决策的过程,直到设计眼球运动控制系统,构建出了一套从感知到理解再到决策最后到运动控制的较完整的闭环的自主智能系统——仿生眼。
5 亿年前的寒武纪时代,某种海洋蠕虫的神经组织突变出一种感光细胞,从而诞生了眼睛,引发了生物界的物种大爆发。当然也有人说是雌雄两性的分化推动了物种进化,但是两性的出现远早于寒武纪,至少视觉帮助两性发现了自己的另一半,同时引发更残酷的竞争。此后,眼睛作为生物最重要的感知器官随着物种的进化而不断改进。可以说谁有了更好的眼睛,谁就掌握了主动权。5 亿年后,眼睛进化成了生物最精密、最复杂、最聪慧的器官,完整的视觉系统遍布整个大脑。
▲ 进化到极致的四类眼睛
目前自然界有代表性的眼睛有四种:脊椎动物的双眼(人眼、鹰眼、兔眼、鱼眼、蛙眼等),软体动物(鱿鱼、章鱼等)的双眼,蛛形纲(蜘蛛、蝎子等)的固定多目(多只单眼),昆虫纲(蜻蜓、蝇、蚊、蝶等)的复眼。作者对眼的研究是从动物界最高级形态的脊椎动物的双眼及其“眼球运动”这一普遍特征开始的。动物眼球运动的功能在工学界较少被深度研究,常常被认为只要能够跟踪和注视物体就可以了。而动物的眼球运动,特别是人类的眼球运动具有多种运动模式和极复杂、精密的性能。另外,生理学实验显示,人类的眼球如果不运动(包括微眼振),时间稍微一长就什么也看不见了。因此随着机器视觉的发展,动态视觉的研究显得越来越重要。
▲ 从三个层次五个线索分析的一个视觉场景
通过人类在视觉处理流程中从低级到高级的不同线索抽取出来的视觉信息特征,加之视觉系统依赖的组织规则(如相似性、接近性和良好的连续性),可以很好地获取所需要的信息。本图就是一个通过多条线索抽取视觉信息的例子。首先,分析视觉环境的简单属性(底层处理)。这些底层特征被用来解析视觉场景(中间层处理),将局部视觉特征组装成曲面;将对象从背景中分离出来(曲面分割);将局部方向集成到全局轮廓中(轮廓积分);并从阴影和运动线索中识别曲面形状。最后,使用曲面和轮廓来识别对象(高级处理)
在作者开始研究眼球运动的初期,生理学领域的眼动研究和工学领域的相机运动控制研究基本互不相干,很少互相参照。在生理学领域,基本上是把各种眼球运动分离开来进行独立分析,极少见到从眼球运动控制系统的整体进行解析的研究报告。这是因为,很少有精通系统工学、自动控制理论和工程数学的生理学领域专家。而在工学领域的学者往往对需要高难度专业技术的生理学和解剖学领域敬而远之。因此,能够遵从生理学和解剖学的见解,对生物的视觉系统进行严密建模和模拟的研究就变得少之又少。作者恰巧因为工作关系,对控制学理论和生理学领域都有一些浅薄的知识,靠着当时年轻气盛,闯进了这个全新的领域,到今天才发现人生苦短,要靠更多年轻人的积极加入才有可能完成最基本的视觉系统研究工作。
▲ 作者团队开发的仿生眼BinoSense-S500
(a)仿生眼BinoSense-S500 外观尺寸(单位:mm);(b)仿生眼BinoSense-S500 驱动方式示意图;(c)仿生眼的信息处理框架结构范例;(d)仿生眼的软件系统框架
《仿生眼:怎样仿制大自然最精密聪慧的作品》(张晓林著. 北京:科学出版社,2024.6)融合了作者及其团队在机器人视觉领域、神经生理学领域和仿生学领域三十多年的研究成果,从人眼的生理解剖结构和其运动控制神经系统的拓扑描述出发,通过建立生物视觉系统的数学模型,解析视觉信息在大脑中的处理流程、搭建类脑框架、推测意识的形成及智能决策的过程,直到设计眼球运动控制系统,构建了从感知到理解,再到决策,最后到运动控制的较完整的闭环的自主智能仿生眼系统。
← 左右滑动查看 详细信息 →
全书共六篇18 章。本书首先阐述了作者关于当代仿生学应该担负起的科学发展使命的观点;随后,介绍了研究仿生视觉系统所必备的生物学基础和对视觉系统进行科学解析所需要设定的前提条件,包括相关学术名词的科学定义等;接着描述了与视觉神经系统相关的人脑解剖学构造和生理学功能以及与之对应的数学模型;而且,不仅介绍了研制仿生眼所需的技术,提出了动态双目的立体视觉原理,还讨论了仿生视觉系统为了实现类人的视觉功能,其背后需要具备的智能系统的形态和功能,提出了意识空间的概念;最后,作者介绍了仿生眼目前的产业应用情况及未来展望,阐述了对后ChatGPT 人工智能的观点。
▲ 机器头脑BinoSense R100
在解决了仿生眼的关键问题后,其直观的应用方向就是作为机器人的眼睛嵌入机器头脑中,帮助机器人具备类似人眼的强大视觉能力,作者团队也基于已研发的仿生眼系统设计研制了人形机器头脑系统。图为作者团队研制的机器头脑BinoSense R100。图(a)展示了以机器头脑BinoSense R100 为核心的机器人系统具备智能语音识别、语音指令交互、眼神交互、场景物体分割与识别、自主避障移动等能力。图(b)则展示了机器头脑BinoSense R100 辅助机器人完成了从检测识别和精准定位任意摆放的不规则物体的能力,并且帮助机器人进行双臂运动规划,使机器人能够全程注视、准确抓取不规则目标物体
视觉的背后是智能,是意识。由于“仿生眼”是包含脑干、小脑、大脑功能的完整智能仿生系统,仿生眼的研究会带来类脑研究的新一轮技术突破,引发人工智能新纪元。不同于激光雷达、TOF 和固定双目,仿生眼无论在信息量、可视距离、测量精度上,还是在识别、判断能力上都具有更全面的优势。而且仿生眼可以根据人工智能的“主观意志”去主动观测“想要”看的物体和部位,是人工智能走向自主意识的关键要素。特别是当仿生眼脱离人工标定,实现自动和自主标定后,将会进一步实现身体各部位的全面标定,这项功能会使机器人在诞生那一刻起就可以完全脱离人类对它的操作,具备自适应和独立生存的能力。
张晓林撰写的这部厚重而内容十分丰富的鸿篇巨制,对仿生眼的前世、今生和未来,做了教科书般的创新性论述,不仅“顶天”也“立地”。它融合了他和他的团队在机器人视觉领域、神经生理学领域和仿生学领域三十多年的科学研究成果,从对人眼的生理结构及其运动控制神经系统的描述出发,涉及生物视觉系统的数学模型,贯穿图像处理、类脑框架、大脑认知、智慧衍生、意识涌现及智能决策,直到运动控制,构建了较为完整的仿生眼系统。
大自然是不分学科的。无论你来自哪个学术领域,或者你并不在学术圈内,阅读该书,都将从中获益。张晓林系统且完整地考察了大自然中千姿百态的眼睛和其中蕴含的视觉智慧和哲理,从美丽的果蝇复眼、蜘蛛的单眼、高瞻远瞩的鹰眼,到聪慧的人眼等。张晓林和他的团队从仿生眼的结构与控制研发起步,跨越仿生眼的结构设计、硬件系统、信息传输、位姿控制、图像处理、定位导航、云计算、芯片设计等多个领域。不同于激光雷达、TOF(time of flight,时间飞跃法)和固定双目,仿生眼无论在信息量、可视距离、测量精度,还是在识别、判断能力上都具有更全面的优势。仿生眼包含眼球运动控制系统、图像处理系统、分析判断系统、决策系统及执行系统。所以,仿生眼不是一种被动式视觉传感器,而是可以主动观测“我要看”的物体和部位,主动解析外部世界,这是人工智能走向自主意识的关键要素。所以,张晓林指出“视觉的背后是智能,是意识”是很有启发性的。
当代科学与技术正处在大发展、大交叉、大融合的时代,正在向微观、介观、宏观、宇观进军;正在向深海、深空、量子、超算、大数据、大模型、通用智能、脑海深处进军。生命科学、物质科学、信息科学和智能科学正在相互照亮。仿生眼的研发也迎来了新的发展机遇,让我们期待中国的仿生眼研究在仿生-视觉-智能-意识的赛道上腾飞。
郭爱克
中国科学院院士
中国科学院生物物理研究所
中国科学院大学
2024 年3 月于珠海
本文摘编自《仿生眼:怎样仿制大自然最精密聪慧的作品》(张晓林著. 北京:科学出版社,2024.6)一书“前言”“序”,有删减修改,标题为编者所加。
责任编辑:翁靖一 郝 聪
本书不仅有最新的研究成果和较专业的科研内容,适合从事人工智能、机器视觉、信息处理、自动控制、神经科学、心理学等专业研究人员阅读,而且为了叙述的连续性和完整性,加入了大量的基础和常识性知识,因此也可以给专业以外的人士提供较系统的脑科学及人工智能知识。
(本文编辑:刘四旦)
一起阅读科学!
科学出版社│微信ID:sciencepress-cspm
专业品质 学术价值
原创好读 科学品位
科学出版社视频号
硬核有料 视听科学
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.