网易首页 > 网易号 > 正文 申请入驻

微软专利提出用AR/VR模拟环境开发计算机视觉算法,降低开发成本

0
分享至

映维网Nweon 2022年08月30日)为新的计算机视觉和语音平台设计满足硬件和算法要求的解决方案非常困难,因为这涉及、运动和物理以及传感器等诸多发计算机视觉和语音算法通常需要在广泛的用例中进行探索和分析,而的传感器配置、环境条件和运动条件必须经常调查以验证算法和设备将可靠地按预期运行,这可能会带来重大的成本和调度问题。

在名为“Computer vision and speech algorithm design service”的专利申请中,微软就提出使用合成世界界面模拟数字环境、传感器和运动,从而开发计算机视觉和语音算法。这种数字环境、传感和运动又可以以真实或虚拟图像集合的形式作为硬件的计算机视觉和语音功能的输入。将合成数据云服务与传感器基元库、运动生成器和具有程序性和游戏性能力的环境一起使用,可以促进涉及计算机视觉和语音能力的制造解决方案的工程设计。

简单来说,微软认为可以利用基于虚拟现实和增强现实的模拟环境,因为这可以有利地加速开发,同时降低成本和开发复杂性。

在一个实施例中,合成视频场景可以不基于实际物理设置的图像,而是可以使用三维渲染技术创建。适用的三位渲染技术可以包括内容库、设备和传感器模型库、程序环境、场景交互控件、照明模型、物理模拟和动画运动。

合成视频可以通过定义一个或多个虚拟传感器平台来生成,虚拟传感器平台由各种传感器、惯性测量单元(IMU)、透镜、处理器等组成。另外,定义的合成场景呈现虚拟化对象,虚拟化对象由经历虚拟移动的合成传感器查看,从而创建一组图像,然后对其进行挖掘,以获得不仅可用于定位,而且可用于定义衍生合成场景的数据。正如用户可以在房间周围移动真实世界的摄像机,虚拟放置在合成场景中的合成摄像机可以生成等效的数据集。

总的来说,微软提出了一种成本有效的端到端计算机视觉和语音设计服务,其可用于快速优化定位、对象识别、对象跟踪、对象重建和/或语音识别算法和硬件配置。例如,与手动构建和测试过程相比,合成设计解决方案可以将开发时间从几个月缩短到几天,并可能将开发成本降低几个数量级。

图4是计算机视觉和语音设计服务400的框图。计算机视觉和语音设计服务400包括传感器平台模拟器402,其可以实现用于通过模拟硬件优化来改善计算机视觉的合成服务。传感器平台模拟器402可用于模拟包括一个或多个虚拟传感器的一个或更多硬件配置。

计算机视觉和语音设计服务400同时操作其他四个所示模块,包括运动编排器404、环境编排器406和实验生成器408、实验运行器410以及计算机视觉和语音应用评估器412。

在要给实施例中,运动编排器模块404允许计算机视觉和语音设计服务400的用户通过表达目标运动轮廓来建模与测试计算机视觉和语言传感器平台和算法相关的运动。运动编排器404可用于模拟一个或多个虚拟环境中的一个或更多个模拟硬件配置的运动。示例可以包括创建穿过虚拟场景或房间的多个随机漫游的实例,其具有各种持续时间、速度和运动路径。

环境编排器406用于模拟一个或多个虚拟环境。在一个实施例中,环境编排器406允许用户操纵合成环境,例如照明设置和特定对象(例如门)的状态。另外或可选地,环境编排器406定义场景中房间的尺寸、对象、照明、间距或其他属性以及其中的内容。

实验生成器408将高级参数转换为完整实验的多个实例,从而定义要在数据生成中使用的运动和环境集。实验生成器408可用于生成一个或多个模拟硬件配置的合成实验数据,所述模拟硬件配置在一个或更多个虚拟环境中具有模拟运动。

换句话说,实验生成器408生成多个候选计算机视觉和语音解决方案,其具有待测试的不同硬件配置或可调整的计算机视觉和语言算法参数。在一个实施例中,实验运行器410提供用于调度、监视、管理和审查数据生成中使用的实验批的结果的框架。

实验运行器410可用于迭代实验生成器以生成硬件配置、虚拟环境和运动的一个或多个组合的合成实验数据。迭代处理可以使用计算机视觉和语音设计服务400,并经由云环境200访问的不同计算机视觉和语言算法来完成,从而测试算法在给定硬件配置的情况下对计算机视觉和语言建模的程度。

在这种情况下,实验生成器使用各种计算机视觉和语音算法为合成实验中的一个或多个硬件配置计算计算机视觉和语言数据,以生成指示计算机视觉和言语参数的计算机视觉和语言算法输出数据,例如坐标、对象大小、对象方向、对象加速度、语音、音频、对象组合、对象的动态和属性等。

在一个实施例中,计算机视觉和语音应用评估器412计算机视觉和语言算法将数据输出到GT输入数据,用于虚拟化硬件配置(具有或不具有模拟运动),以确定各种计算机视觉和语言算法的执行效率。可以通过将计算机视觉和语音算法输出数据的方差与合成环境中的虚拟硬件配置的GT数据进行比较,以确定各种计算机视觉和语言算法的有效性的这种确定。

对于虚拟硬件配置,被识别为与GT最接近或在接近范围内的计算机视觉和语音设计算法可以识别为更精确地计算计算机视觉和语言参数,并相应地进行存储。

其他计算机视觉和语音算法可能确定为不太准确和/或需要额外配置。对于精度较低的计算机视觉和语音应用,可以反馈模拟虚拟硬件配置与其ground truth值相比的视差数据,以提高此类计算机视觉和语言应用的性能。通过针对其他合成场景、运动和硬件配置运行更多测试来优化不足的计算机视觉和语音应用,直到计算机视觉和语言应用在方差阈值内执行。这种AI处理和机器学习可以使用本文描述的计算机视觉和语音结果来改进计算机视觉和语言算法,无需用户干预。

计算机视觉和语音设计服务400的操作包括使用所示的各种模块的多个过程。用户可以使用传感器平台模拟器402设置设备、环境和运动引擎。参数定义了目标设备、场景和环境,以及将用于设计过程的运动类型。用户可以激活运动编排器模块404以设计如何可以为特定类型的实验操纵运动引擎,并且可以激活环境编排器模块406以设计如何为特定类型实验操纵环境引擎。例如,研究人员/工程师可能对环境的重新定位部分感兴趣,因此可以生成数千个5秒的测试,所有测试都在单个建模房间的同一区域内,其中房间的内部条件系统地变化,例如家具移动或变化的照明条件。

用户可以激活实验生成器模块408以生成产生计算机视觉和语音设计问题的特定方面的实验集。实验可分为多种类别,如一般测试、研发或压力测试。一般测试通常旨在生成被测计算机视觉和语音单元基本覆盖所需的最小代表性数据集。研究和开发实验可能会有细微差别,试图以设备支持的最小或最大照明条件为目标,或发现特定产品或算法缺陷。

除了模拟的长时间运行或不稳定的使用模式外,压力测试往往针对设备可能遇到的最广泛的实验集。通常,用户可以利用实验生成器408来参数化底层框架并生成用于计算机视觉和语音算法的全自动模拟和分析的工作负载。然后,用户可以使用实验运行器410来调度、启动、管理和监控用实验生成器408设计的各种作业。可选的评估器(见图6)可用于将计算的计算机视觉和语音数据与地面实况数据进行比较。

名为“Computer vision and speech algorithm design service”的微软专利申请最初在2022年5月提交,并在日前由美国专利商标局公布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
想小鱼钓大鱼?美出资不到3300万,欲募资33亿,两国拒签IPEF协议

想小鱼钓大鱼?美出资不到3300万,欲募资33亿,两国拒签IPEF协议

历史有些冷
2024-06-13 20:30:03
今夜,“崩了”!

今夜,“崩了”!

中国基金报
2024-06-14 00:13:30
世排联香港站,中国女排vs德国,世界排名胜负积分如下

世排联香港站,中国女排vs德国,世界排名胜负积分如下

百里无心
2024-06-14 07:36:37
你尽管制裁,我只管抛售!最新数据:中国再抛美债,美国幻想破灭

你尽管制裁,我只管抛售!最新数据:中国再抛美债,美国幻想破灭

星辰故事屋
2024-06-14 18:28:12
贵州女子半夜给侄子开门,因犹豫1秒钟,生命永远停留在42岁

贵州女子半夜给侄子开门,因犹豫1秒钟,生命永远停留在42岁

青丝人生
2024-06-14 20:48:40
科学家终于公布酸奶和大病的关系,你知道吗?

科学家终于公布酸奶和大病的关系,你知道吗?

霹雳炮
2024-06-12 23:41:08
热搜上毁三观的“和男朋友天天做饭”:新型羞耻,害惨中国年轻人

热搜上毁三观的“和男朋友天天做饭”:新型羞耻,害惨中国年轻人

小椰子专栏
2024-06-14 13:02:51
江苏男子罗布泊探险后精神失常,临终坦白真相:回来的不是人

江苏男子罗布泊探险后精神失常,临终坦白真相:回来的不是人

青丝人生
2024-06-11 18:49:55
费南多:0-0战平有些遗憾,主教练考虑了国脚状况让我替补待命

费南多:0-0战平有些遗憾,主教练考虑了国脚状况让我替补待命

直播吧
2024-06-14 21:53:36
太现实,中专生姜萍数学大赛成绩超麻省理工学生,只能上常熟理工

太现实,中专生姜萍数学大赛成绩超麻省理工学生,只能上常熟理工

育学笔谈
2024-06-14 11:18:52
马斯克说到做到:4000亿工资到手后,将特斯拉迁走

马斯克说到做到:4000亿工资到手后,将特斯拉迁走

互联网.乱侃秀
2024-06-14 10:28:34
一男子怀疑妻子出轨,特意带她出国体验异域按摩,结果双方沦陷

一男子怀疑妻子出轨,特意带她出国体验异域按摩,结果双方沦陷

亲爱的落落
2024-05-07 16:58:09
最新!王思聪再发文回应私生子传闻:该干嘛干嘛去!女方紧急闭嘴

最新!王思聪再发文回应私生子传闻:该干嘛干嘛去!女方紧急闭嘴

郑丁嘉话
2024-06-13 10:26:07
若明日绿军取胜 马祖拉将取代莱利成为NBA史上最年轻的冠军教头

若明日绿军取胜 马祖拉将取代莱利成为NBA史上最年轻的冠军教头

直播吧
2024-06-14 11:02:16
为何中国患癌率较高?2样东西日本人基本不碰,国人却比较喜欢

为何中国患癌率较高?2样东西日本人基本不碰,国人却比较喜欢

今日养生之道
2024-06-14 07:30:58
李凯尔落选中国男篮!归化政策或有大变化 血缘不再是重要依据

李凯尔落选中国男篮!归化政策或有大变化 血缘不再是重要依据

大嘴爵爷侃球
2024-06-14 11:28:36
太有心!郎平亮相香港观看中国女排比赛 带着魏秋月 发声支持朱婷

太有心!郎平亮相香港观看中国女排比赛 带着魏秋月 发声支持朱婷

林小湜体育频道
2024-06-14 21:43:21
中国男篮天亮了!CBA第一窝里横未能进国家队,新生力量值得期待

中国男篮天亮了!CBA第一窝里横未能进国家队,新生力量值得期待

弄月公子
2024-06-14 09:55:49
超过28岁!揭幕战德国vs苏格兰,两队平均年龄本届欧洲杯最大

超过28岁!揭幕战德国vs苏格兰,两队平均年龄本届欧洲杯最大

直播吧
2024-06-14 19:44:06
女排诞生惨案!亚洲冠军被轰11-25,意大利拦网虐13分 晋级总决赛

女排诞生惨案!亚洲冠军被轰11-25,意大利拦网虐13分 晋级总决赛

知轩体育
2024-06-14 20:49:47
2024-06-14 22:28:49
映维网刘卫华
映维网刘卫华
专注于虚拟现实的发展动向
8887文章数 16550关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

男子赤膊趴车头救人:湍急水流淹车头 司机昏迷水及腰

头条要闻

男子赤膊趴车头救人:湍急水流淹车头 司机昏迷水及腰

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

家居
本地
时尚
艺术
公开课

家居要闻

空谷来音 朴素留白的侘寂之美

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

少女和熟女,都被这件单品“硬控”了!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版