网易首页 > 网易号 > 正文 申请入驻

对话上交苏剑波教授:直面手语的「方言」多样性与系统「通用性」挑战|GAIR live

0
分享至


从理论研究到实际应用,从交大教授到AI创业者,苏剑波教授关注手语识别研究近二十年。

作者 |吴彤

编辑| 麦广炜

作为上海交通大学自动化系的资深教授,苏剑波坚守着一条科研信条:研究工作需源源不断地注入活力。

他曾阐释这一理念:“一个研究者在踏入某一科学领域时,应选取一个能够长期深耕、并随着理论及技术进步而能不断更新研究内容的主题,这才是研究者始终能保持学术活力的根本原因。”

苏教授的研究领域覆盖了智能机器人理论与技术、多传感器信息与智能融合、机器学习与人机交互等科学研究持续的热点领域。在这些领域中,手语作为人类交流的基本方式,始终是苏教授想赋予机器人的技能之一,并成为他将理论知识与实践应用相结合的重要体现。

为何要格外关注手语?苏教授指出,“手语不仅是聋/哑人群体沟通的重要工具,也是人类信息表达的一种常见和高效的方式。”他强调,手语的国际性和多样性是研究的核心,因为不同地区和国家的手语存在明显差异,甚至包含方言差异。

目前,苏教授及其团队专注于手语识别和情绪识别两大技术领域,他们通过视频捕捉和分析,深入探讨静态与动态手语的表达方式及其在不同情境下的变化。终极目标是开发出能够精准解读聋哑人手语/手势及正常人的手势,并将其转化为文字或语言系统。这一技术不仅能够促进与正常人的沟通,也蕴含着巨大的商业潜力。

与此同时,苏教授坦言,手语语料库的匮乏是当前研究面临的一大挑战。因此,他们的研究主要集中在国内聋哑人使用的标准化手语上,而方言手语的研究是第二阶段的目标。

苏教授的学术追求不止于理论研究,近年来,他积极将科研成果转化为实际应用。

2016年,他依托上海交通大学智能机器人系统与技术研究中心,创立了上海灵至科技有限公司,该公司专注于提供人工智能技术解决方案,开发智能机器人、智慧家居、车载自动驾驶软件等产品。2019年,灵至科技的核心团队又联合成立了上海追求人工智能科技有限公司,进一步深化拓展已开发的人机交互技术和产品,为全球残障人士提供专门化的人工智能解决方案。

谈及手语识别产品方面的规划,苏教授表示,目前产品已在特定场景如银行、医院和政府部门中得到了初步的应用,正需扩展更多的应用场景。

近期在与雷峰网-AI科技评论的对话中,苏剑波教授从计算机视觉角度梳理了手语研究中的关键问题,也分享了对手语识别领域众团队的发展建议。

3月18日(周一)20:00-22:00,雷峰网将举办主题为「」的线上圆桌论坛,届时苏教授将分享更多前沿观察。

以下为对话(经编辑):

1

手语也有“方言”之分

系统“通用性”难保证

AI科技评论:苏教授,您是自动化出身,怎么看待手语这个细分研究方向和应用价值?

苏剑波:我开始手语研究最初是出于关注正常人使用手势来表达情绪的尝试,随后扩展到聋哑人群体的沟通需求。

手语的特点是具有国际性和多样性,不同地区和国家的手语存在差异,甚至还有方言之分。但从本质上看,手语是人类信息表达的一种方式,因此理解和研究手语的多样性和标准化问题至关重要。此外,手势识别与手语识别有很大区别。

让机器理解聋哑人的手势,并将这些手势转换成文字或语言,以便让正常人理解。反之亦然,当正常人说话时,机器也能转换成手语将信息传达给聋哑人,实现双方的沟通。

这项工作自2016年开始,但实际上,相关的研究工作要更早。大约是在2010年左右,开始涉及机器人识别人类手势并理解人类情绪的研究。

AI科技评论:能再详细解释一下在手语识别这项技术吗,也就是CV技术如何参与到手语研究中?

苏剑波:我们主要专注于两大类技术:手语识别和情绪识别。这些技术基本上都是基于视频的。计算机或机器人通过摄像机捕捉人的手势/手语视频,再分析视频中的手势/手语的含义。

举个例子,手语分为静态手语和动态手语,还涉及到方言和国际化的问题。手指伸/缩或手掌张/闭状态属于静态手语,而表达“不行”或“过来”等手指和/或手臂的动作则属于动态手语。我们从视频采集出发,研究静态和动态手语的表达方式,以及它们在不同情境下的表达差异。

我们目前主要针对国内聋哑人使用的标准化手语进行研究,并未涉及太多方言,主要是受限于语料库的不足及语料采集的差异化。

AI科技评论:国内正在推广中国通用手语,会使得以后的手语识别研究难度变小吗?

苏剑波:中国通用手语在实际推广和执行过程中还会遇到一些挑战的。

这是因为聋哑人群体也存在地域性差异,他们可能并不熟悉通用手语。这与许多偏远地区的人们听不懂普通话的情况类似,他们可能将普通话视为另一种方言。

手语同样如此,同一个手势在不同地区可能表达不同的意义,使得制定统一标准变得复杂。

国家已经尝试过多次推广通用手语,但效果并不显著。如果某个地方的聋哑人不遵循这些规则,或者他们已经有了自己约定俗成的手语交流方式,我们又能如何呢?我们不能指责他们的交流方式不正确。

这样来看,推广标准化手语的难度可能比推广普通话要大得多。

但即便如此,我们的最终梦想还是能在开发出一个能够识别标准化手语的系统的基础上,充分利用机器智能生成和进化的自学习特点,完成识别具有地区和个人特色的手语识别系统,特别是那些与政府部门交流时常用的手语。

我们希望能够为聋哑人提供个性化的实时翻译,比如在政府办事窗口,通过计算机系统将他们的手语翻译成文字,同时也为聋哑学校的老师提供培训。

目前,我们的目标是实现对日常使用的大约2000个手语词汇的识别,其中最常用的大约500个词汇,我们的识别准确率可以达到90%以上。对于这500个词汇以外的不太常用的词汇,识别率会因采集的角度、光照、背景等有所下降,可能需要多次手势才能提高识别的准确率。

AI科技评论:数据是打造手语识别系统的第一步,这个过程中,您亲身经历过哪些困难?

苏剑波:确实,数据的缺乏是一个主要问题。因为除了要精准捕捉聋哑人手语动作,还要考虑到肖像权和隐私权的问题,这无疑增加了研究的复杂性。

其次,与聋哑人合作拍摄视频时可能会遇到问题,比如他们可能会感到不适或生气。有时候,即使我们有最好的意图,也可能难以解释清楚我们的研究目的,这可能导致一些误解和冲突。

但无论如何,这项工作必须继续进行,因为我们的目标是通过人工智能和技术赋能,打破人与人之间交流的障碍,特别是帮助残疾人与政府部门等机构进行有效沟通,帮助他们的意愿能最准确地为他人所知和理解。

2

手语识别专用的算法与模型尚未出现

AI科技评论:目前手语识别领域的算法和模型,是借鉴了许多其他领域的成果,还是专门针对手语研究开发的?

苏剑波:在算法创新方面,我们确实借鉴了许多其他领域的成果。

例如,我们使用的卷积神经网络等工具,和特征完备化等基础算法,包括隐马尔可夫模型等,都是在语音识别和人脸识别等领域已经尝试并证明有效的技术。

到目前为止,我还没有发现有专门针对手语识别领域的技术,我们目前使用的都是通用的模式识别工具。所以说,手语识别领域的研究进展相对于其他更活跃的模式识别领域,还有一定的差距。

我们的工作主要集中在寻找能够准确代表和区分不同手型或手势的更鲁棒的特征。这是模式识别领域的通用目标,无论是人脸识别还是语音识别,都需要找到能够精确描述特定含义的特征集合。

然而,手语识别面临的挑战在于,手势的含义可能会因为光照、角度、速度等各种因素的影响而发生变化,存在多种干扰。我们的工作关键在于能够针对滤除这些不同的干扰因素,找到最能准确代表特定手势的鲁棒稳定的特征。

AI科技评论:ChatGPT、Sora等大型语言模型在自然语言处理(NLP)领域取得了显著成就。这些模型背后的设计理念和技术路径,对手语识别研究有何启示?

苏剑波:确实,这些模型的设计理念和技术路径对我们的研究是有启发的,但遗憾的是,这些模型的具体实现细节往往不公开。

这在AI领域并不罕见,许多团队在开发先进技术时,出于商业竞争的考虑,会选择保留关键信息。

例如,机器人领域的波士顿动力公司,他们的机器人技术和各种机器人原型系统发展迅速,但他们很少在国际会议或学术刊物上公开具体的、真实的研究技术路线。我们只能从他们的产品表现来推测可能的技术实现方式。

国内在手语识别领域相对于国外确实存在一定的差距。例如,聋哑学校非常希望引入这些技术,但由于疫情等因素的影响,相关项目曾被迫暂停,这个过程相当曲折。

此外,技术进步可能会对某些职业造成冲击,这可能导致一些行业从业者对人工智能技术的接受度不高。尽管他们认识到人工智能的潜力,但从生存的角度出发,他们可能并不希望人工智能取代他们的工作。这种心态在实际合作中可能会成为障碍。

AI科技评论:我们观察到,在国内外的大型赛事如亚运会、残运会期间,许多公司推出了他们自己的手语数字人。其中一些公司所使用的手语数据由一两家公司自行采集后出售的,导致不同公司开发的数字人产品同质化,缺乏突破,而且有聋哑人反馈无法看懂这些数字人打出的手语。您怎么看这个现象?

苏剑波:这个问题非常关键。如果一个旨在为聋哑人服务的产品,连目标用户群体都无法理解,那么它的服务价值就大打折扣了。目前我们缺乏一个国家权威机构来鉴定这些成果的有效性,或者提供服务的权威性认证。

至于服务的实际效果,很少人去深究聋人同胞的满意度。

AI科技评论:最后想请问您,因为您在上交有自己的课题团队,还孵化了两家公司(母公司“灵至科技”、以及专门打造手语产品的“上海追求”),那么您今年在手语识别方面有什么规划?

苏剑波:我和团队的重点是提高机器识别手语的准确率,并尽可能扩大语料库和应用场景。

从学术角度出发,机器对手语的识别,不过是手语特征被机器表达和计算的准确度和效率。我们鼓励博士生和硕士生进行创新研究,寻找能够更精准、有效、快速地表达手语蕴含的主体人意图的可计算的、完备且正交的手势特征集合。我们希望我们的工作不仅能在国内产生影响,也能为国际同行提供借鉴,帮助他们在自己的领域或语言体系中应用我们的研究成果。

我们的目标是建立行业内公认的标准,这是我们努力的方向。

目前国内从事手语识别的团队正在增多,在这一发展势头下,我们需要提前确立统一的测试场景,来验证手语识别系统的实用效果,否则很难真正认可其研究价值。此外,还要考虑到聋人群体的实际需求和接受程度,保证这些研究的应用价值。

从公司角度来说,我们希望能够将我们的技术应用到实际产品中,进行测试和验证。目前我们产品的应用程度有限,在银行、医院和政府部门等特定场景下,我们的产品可以发挥作用。我们希望未来能够达到一个更广泛的应用水平,但目前还很难说能做到什么程度,我们只能继续努力。

至于产品的应用区域,由于我们在上海,所以语料和数据标注可能更倾向于江浙沪一带的方言。这可能导致我们的产品在这些地区的医院等场景中应用得更多。我们希望未来能够扩大应用范围,更好地服务于更广泛的聋人同胞。

同时,我们也热切期待有更多资本能理解手语识别目前从公益性向市场化发展的初级阶段属性,而义无反顾地介入,以加速手语研究和产品开发的进程,为具有中国特色的人工智能产业的发展注入新的活力。

本文作者吴彤,欢迎添加微信(icedaguniang),交流认知,互通有无。

AI创业故事不一定要从自建大模型说起,有人选择从“千模大战”转向AI应用层,从行业落地中寻找突围机会。

为帮助AI创业者们快速把握时代脉搏,迅速提升AI技术的应用能力,阿里云AI创变者训练营报名启动!全程实操进阶AI创业,还有丰厚奖励等你领取!

五大课时,让你的AI创业从入门到深入:

1. 观察前沿趋势:《AI浪潮下的企业服务新机遇》;

2. 学习实战案例:《中国企业GenAI应用与创新实战》;

3. 一站式体验AI工具:0元预付费开通阿里云百炼;

4. 创新知识管理,体验知识检索应用;

5. 深化业务融合,体验流程编排应用;

  • 完成所有任务即可获得「AI创变者训练营」实体证书,享受到百万token额度的免费福利,还有机会赢得包含1TB移动硬盘在内的实物大奖!

  • 优秀训练营学员将会被邀请参加3月22日举办的「阿里云创业者计划StartUpDay」活动现场,与AI行业大咖、投资人面对面。


更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗无人机被缴获,一拆开震惊以色列:一半零件来自神秘大国

伊朗无人机被缴获,一拆开震惊以色列:一半零件来自神秘大国

星辰大海路上的种花家
2024-04-28 18:30:43
河北万吨粮库凭空消失后续:央媒发声,原因曝光,评论区沦陷了

河北万吨粮库凭空消失后续:央媒发声,原因曝光,评论区沦陷了

刘哥谈体育
2024-04-29 06:12:37
欧文40分不敌无卡快船!砍31+7打爆东契奇,想赢球哈登就要这么打

欧文40分不敌无卡快船!砍31+7打爆东契奇,想赢球哈登就要这么打

你的篮球频道
2024-04-29 06:27:33
5月开始,咸鱼翻身,薪水翻倍,日进斗金的四大生肖

5月开始,咸鱼翻身,薪水翻倍,日进斗金的四大生肖

牛锅巴小钒
2024-04-29 02:29:25
证监会传出高官落马!4月29号,深夜的三大重要消息冲击来袭!

证监会传出高官落马!4月29号,深夜的三大重要消息冲击来袭!

风口招财猪
2024-04-29 02:52:57
解对方门将手套?枪迷盛赞本-怀特:真会整活!我必须学会这招

解对方门将手套?枪迷盛赞本-怀特:真会整活!我必须学会这招

直播吧
2024-04-29 00:42:06
上海,一男子在某超市买了4包中华香烟,一共花了280元

上海,一男子在某超市买了4包中华香烟,一共花了280元

王晓爱体彩
2024-04-29 07:50:26
妹子天生两套生殖系统,所以交两个男友... 她理直气壮:他们各用各的,我就不算出轨….

妹子天生两套生殖系统,所以交两个男友... 她理直气壮:他们各用各的,我就不算出轨….

英国那些事儿
2024-03-19 23:57:32
一夜5消息!哈登爆发助快船2-2,76人1-3面临淘汰,掘金遭重创

一夜5消息!哈登爆发助快船2-2,76人1-3面临淘汰,掘金遭重创

球哥侃球
2024-04-29 08:04:01
被BBC问“边指责中国、边向以供武是否影响美国信誉”?布林肯的回应被网友嘲讽

被BBC问“边指责中国、边向以供武是否影响美国信誉”?布林肯的回应被网友嘲讽

环球网资讯
2024-04-28 14:30:47
日元崩盘了,美国财长耶伦的态度却发生了180度的转变

日元崩盘了,美国财长耶伦的态度却发生了180度的转变

高天SEKH
2024-04-28 23:41:58
台湾第一绝色,纯欲天花板,演艺生涯40多部片你一定看过!

台湾第一绝色,纯欲天花板,演艺生涯40多部片你一定看过!

生如稗草
2024-04-28 09:17:35
17中12砍33分6板7助!哈登:今日是背水一战 不能带着1-3回主场

17中12砍33分6板7助!哈登:今日是背水一战 不能带着1-3回主场

直播吧
2024-04-29 06:40:16
导弹炸一夜,伊朗用实战证明,面对解放军东风26,美军不会有优势

导弹炸一夜,伊朗用实战证明,面对解放军东风26,美军不会有优势

章鱼哥娱乐
2024-04-27 17:53:42
雷军回应李想送理想L6 Max:感谢心意,我还是决定买一台表示支持!李想:感谢雷总对理想L6产品认可

雷军回应李想送理想L6 Max:感谢心意,我还是决定买一台表示支持!李想:感谢雷总对理想L6产品认可

和讯网
2024-04-28 15:01:35
天哪罗志祥的脸太吓人了,满脸的科技感,好像哪里都动过了

天哪罗志祥的脸太吓人了,满脸的科技感,好像哪里都动过了

娱乐八卦木木子
2024-04-26 03:08:07
最新:乌克兰接收土耳其武器引热议!

最新:乌克兰接收土耳其武器引热议!

项鹏飞
2024-04-27 17:28:59
富人不会告诉你的,人性铁律1、美色,只租赁,不购买

富人不会告诉你的,人性铁律1、美色,只租赁,不购买

鬼鬼爱音乐
2024-04-28 21:30:11
美媒恶意泄露23名中国阳性游泳选手隐私!外交部回应

美媒恶意泄露23名中国阳性游泳选手隐私!外交部回应

十点街球体育
2024-04-28 21:41:01
海天盛筵嫩模:一晚能挣200万,但筛选女人的方式很严格和肮脏

海天盛筵嫩模:一晚能挣200万,但筛选女人的方式很严格和肮脏

程哥历史观
2023-08-18 21:48:34
2024-04-29 09:04:49
AI科技评论
AI科技评论
点评学术,服务AI
6471文章数 20557关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

运城高速回应问界M7致3死事故:涉事养护车在移动作业

头条要闻

运城高速回应问界M7致3死事故:涉事养护车在移动作业

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

时尚
游戏
数码
公开课
军事航空

人到中年穿裙子更提气质,夏季借鉴好这些搭配技巧,时尚高级优雅

魔兽世界重拳出击,国服开启测试,这些谣言别再信了!

数码要闻

苹果公司将于5月7日在伦敦举行另一场发布会 可能仅面向媒体

公开课

父亲年龄越大孩子越不聪明?

军事要闻

也门胡塞击落美军"死神"无人机 并展示残骸

无障碍浏览 进入关怀版