人工智能算法领域专家付亦雯,大学本科就读于北京邮电大学,同时获得英国伦敦大学玛丽女王学院同专业双学位。硕士就读于英国约克大学(University of York),专业是计算机科学。毕业以后,付亦雯投身人工智能算法领域,曾就职于富士通中国,专门负责自然语言处理领域的研发。
专利的数量和质量是衡量一个国家创新能力、产业后劲的重要指标之一。在世界范围内,美国、日本、中国都是专利申请大国。在2010年,这三个国家的专利申请量占全世界专利
申请量的50%以上。特别在中国,专利的申请逐渐受到中国企业的重视,专利的申请量逐年上升。在这样的情况下,各个国家之间需要对相互的专利申请情况有所了解,相关的企业或个人也需要了解专利的发表情况。专利搜索的范围直接影响到专利查新,跨国侵权调研越来越被重视。在新技术研发过程中,需要调研是否已经存在相关技术,或已经被专利保护的相关技术或产品。技术人员在检索时往往仅能使用母语或者英语进行检索,针对其他语言撰写的文献则无法查阅。新技术或产品在投放到国外市场后,有可能侵犯已被保护的他国专利,造成不必要的损失。如苹果公司侵犯了Personal Audio公司播放列表的专利,苹果赔偿被告800万美元。施耐德公司(法)侵害正泰集团的高分段小型断路器专利,赔偿3.3亿元。
语言障碍导致只可以搜索到很少一部分专利,如何能够方便快速的检索到不同国家的相关专利文献?如何了解不同国家、不同的企业的专利发表情况?如何能够了解不同语言书写的专利文献的具体内容?付亦雯及其研发团队为了解决这个问题,研发了“评价中间语的词语的方法和装置以及机器翻译方法和设备”、“多次单元提取方法和设备及人工神经网络训练方法和设备”、“语义单元抽取方法和语义单元抽取设备”,申请并获得了专利。
在构建统计翻译系统时,需要依赖大量的平行双语语料库,所谓平行语料是指,用两种语言所写的文章,其中每一句话都有另一种语言的表述版本。但是并非任意两种语言之间都有丰富平行语料,比如中英与日英的语料就比中日语料更丰富。在语料缺乏时只能雇佣翻译人员自行制作语料,然而专利翻译的成本较高,五十万字的语料翻译不仅需要大量的时间还需要消耗上百万元的资金。因此引入基于中间语的翻译方法,但中间语的使用存在问题,即歧义性。传统方法希望依靠词频解决歧义问题,但忽略了非平行语料中的词语含义本身有可能不同。现运用付亦雯及其团队的专利“评价中间语的词语的方法和装置以及机器翻译方法和设备”,可通过中间语找到更加可靠的译文,在缺乏平行语料的情形下,耗费更少的资金与时间即可构建效果更好的翻译系统,节省统计机器翻译系统构建的成本。
专利“多次单元提取方法和设备及人工神经网络训练方法和设备”和专利“语义单元抽取方法和语义单元抽取设备”用于自动识别文本中的多词单元表达。多词单元指的是两个或 两个以上的词单元同时出现在一起的概率相对较高的词组合,并且该词组合具有完整的语义。多词单元跨越词的边界,因而多词单元有着特殊的解读方法。在专利中,专业词汇或新的定义大多是多词单元。比如:抗原释放物、超高压输电线、引物等词。通过这两专利可以摆脱专业词汇词典即可自动识别文本中的专业词汇,并且不受语种的限制,可以应用于多种语言。基于识别出的专业词汇,可以大幅提升通用自然语言处理软件的准确率,统计机器翻译的翻译质量也能得到大幅提升。
通过运用付亦雯及其团队的专利技术,富士通研究开发中心研发了一个多语言专利一体化检索系统。在该系统中,用户输入中、英、日任意一种语言的关键词,即可实现对这三种语言的专利的一体化检索。同时,系统内置的专利翻译功能,能够将检索得到的信息按照用户输入的语言类型反馈给用户,极大地方便了用户对专利内容的了解和获取。该系统的核心模块----机器翻译的性能,在专利翻译领域已经超越其他公司类似产品。不仅如此,富士通还建立了跨语言专利检索网站。跨语言专利检索网站将多数据中心服务融合,利用统计机器翻译技术,实现多语言统一检索和图文统一检索,并提供查询结果统计的可视化。用户可以通过中日英任何一种语言检索,系统都会从中日英三个专利库进行数据查询,并把查询结果做统一化(语言统一和统一排序)处理后返回。用户还可以上传图像,利用文字检索和图像的相似度匹配去专利库中搜索。
人工智能是社会发展和技术创新的产物,是促进人类进步的重要技术形态。人工智能发展至今,已经成为新一轮科技革命和产业变革的核心驱动力,正在对世界经济、社会进步和人民生活产生极其深刻的影响。其中人工智能算法在各行各业中已经广泛使用,极大提高企业生产效率,减少人工成本和时间成本。例如交通管理,针对传统交通管理部门人工审核图片效率低下、工作量庞大等问题,推出交通违法智能审核一体机。智能审核一体机能跟踪车道中的所有车辆,通过多张图片综合判断,识别车辆是否闯红灯,是否不按导向线行驶,是否超速,是否违反禁止标志等,它解决了传统人工审核图片效率低下、工作量庞大的问题,有效提升人工二次审核效率。在农业方面,利用农作物病虫害检测算法,帮助农作物种植人员监控作物病害状况,并快速、便捷、准确地确定病害类型,对症下药,大大减少了许多人工成本和时间成本。在制造业方面,推进传统钢铁行业智能化生产,让智能监控代替人工监控,打造智能生产管控系统,其中就包含液位监测算法和爆管监测算法。液位监测算法,能自动识别蓄水池警戒刻度或浮标的位置,判断水池的液位情况,一旦出现过低或者过高情况便立即报警提醒,保障生产得以顺利运行;爆管监测算法则能自动识别并实时精准分析厂内液压管状况,对潜在安全风险进行自动预警,并提醒工作人员及时处理安全隐患。人工智能算法未来还将在教育、医疗、出行等等与人民生活息息相关的领域里发挥更为显著的作用,为普通民众提供覆盖更广、体验感更优、便利性更佳的生活服务。
作为人工智能算法领域的专家,付亦雯在多语言专利检索中做出了杰出贡献,使得大家避免了侵害被保护的专利,降低了不必要的经济损失。付亦雯年轻有为未来可期,利用人工智能算法,必将在各个领域中发挥自己的才干,推动为人类社会的发展!