宾州州立大学的研究人员开发了一种新的导航工具,可能会改变视觉障碍人士的数字辅助工具。
这个基于智能手机的系统叫做NaviSense,利用人工智能实时识别物体,并通过音频和触觉提示引导用户到达目标。
该团队在丹佛的ACM SIGACCESS ASSETS ’25会议上展示了这项技术,并赢得了最佳观众选择海报奖。
NaviSense旨在解决辅助导航软件长期存在的问题。许多现有工具需要人类支持团队。有些工具依赖于事先加载的物体库。
电气工程的埃文·普赫大学教授、A·罗伯特·诺尔讲席教授Vijaykrishnan Narayanan表示,这就限制了灵活性。
“之前,对象模型需要预先加载到服务的内存中才能识别,”Narayanan说。
“这非常低效,使用这些工具时用户的灵活性也大大降低。”他说团队转向人工智能来突破这个瓶颈。
这个应用程序连接到一个运行大型语言模型和视觉语言模型的外部服务器。
这些系统让NaviSense可以理解语音提示、扫描周围环境并识别目标,而不需要依赖静态对象数据库。
“使用视觉语言模型(VLM)和大型语言模型(LLM),NaviSense 可以根据语音命令实时识别其环境中的物体,而无需预加载物体模型,”Narayanan 说。“这是这项技术的一个重大里程碑。”
基于用户输入构建
团队在与视觉障碍参与者进行广泛访谈后开发了这个应用程序。
计算机工程博士生及首席学生研究员 Ajay Narayanan Sridhar 说,这些访谈帮助我们了解了现实生活中的需求。
“这些访谈让我们对视障人士面临的实际挑战有了更深入的了解,”Sridhar 说。
对话反馈提供了许多现有工具难以实现的灵活性。
这个应用程序的一大亮点是手部引导功能。系统通过监测手机的运动来跟踪用户的手,然后给出方向提示,帮助他们找到目标物体。
Sridhar 说这个功能填补了一个重要的空白。“实际上没有现成的解决方案能主动引导用户的手去找到物体,但在我们的调查中,这个功能被频繁提到,”他说。
早期表现非常出色
团队在一个控制环境下对12名参与者进行了NaviSense的测试。用户把它和两个商业选项进行了比较。
研究人员测量了每个工具识别物体的速度,以及它们指导用户的准确性。
NaviSense缩短了搜索时间,提供了更精准的检测。参与者们还表示整体体验更好。
一位用户写道:‘我喜欢它能给你提供物体位置的提示,无论是左边还是右边,上面还是下面,最后一击,砰,你找到了!’
团队现在正在优化功耗,同时提高模型效率。纳拉扬表示,该工具即将商业化。
“这项技术距离商业发布已经很近,我们正在努力让它变得更容易获取,”他说。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.