[总结] GestOnHMD_Enabling Gesture-

2021-09-18  本文已影响0人  alphonseLin

论文标题:

GestOnHMD_Enabling Gesture-based interaction on Low-cost VR head mounted display

关键词:

虚拟现实、智能手机、MobileVR、谷歌纸板、手势

低成本的虚拟现实(VR)头戴式显示器(HMD)在2014年出世之后,其功能主要将纸板与智能手机进行集成,提高用户沉浸感。但是,由于其价格低廉,导致这些系统往往受到用户互动的限制。在该文献中介绍了GestONHMD的方法,主要基于交互和手势分类识别技术,该技术通过利用手机中的电子麦克风来检测敲击或滑动手机正面、左侧和右侧表面上的声音,将这些声音与对应手势结合进行识别。该实验过程如下,首先进行手势模式研究。根据用户偏好和信号检测能力,分别为前表面、左表面和右表面选择15、9和9个手势。同时,构建18个用户发出的声音信号作为数据集。最后,通过GestONHMD的实时演示,该文献做了一次用户调查,对GestONHMD的鲁棒性进行了有效提高。

研究结果:

1. 研究问题

l 背景

u [图片上传失败...(image-81c80d-1631638338348)]

u 由于纸板价格低廉,缺乏较为复杂的交互性接口。例如上图两者,左图圆圈为磁铁,利用手机内部传感器对磁铁的反应进行交互(交互结果为Ture/False)。右图上方为金属板,通过该金属板的触摸,输出Ture/False.

n 相关研究

u [图片上传失败...(image-1576ac-1631638338348)]

u 之后有学者不断对此改进,增加纸质HMD的可交互性。例如增加眼动仪,增加麦克风,增加触摸屏等等。

u 缺陷:还是需要通过额外的工具才能进行交互。

n 假设

u 本文提出一个有效方法,可以不需要通过额外设备完成交互方式。

u 通过滑动声音,辨别手势

l 由于手机一般底部顶部有两个录音器(底部:通话。顶部:降噪),可以通过不一样的声音大小及频率,训练模型,起到快速识别手势的作用。

l [图片上传失败...(image-50e2d5-1631638338348)]

2. 解决方案

l 1. 手势设计

n 收集常用手势数据

u 用户启发式设计:

l 针对场景:观看视频,浏览网站

l [图片上传失败...(image-35fc45-1631638338348)]

l 要求

n 因为carboard HMD有三个比较大的面,左右前,因此要求用户在每个面上设计两个不同的手势操作。

n 用户需要一笔完成。

u 数据结果

l [图片上传失败...(image-e80bfe-1631638338348)]

l 2. 模型设计

u 对上述手势进行打分(信道比,设计一致性,信号相似性)

l [图片上传失败...(image-6e0b95-1631638338348)]

u 最终得出了如下的手势集

l [图片上传失败...(image-e147de-1631638338348)]

n 声音数据采集

u [图片上传失败...(image-61ec21-1631638338348)]

u 数据增强:

l 增加噪音(键盘声、车流声)

l 时间平移

l 频率上的随机遮盖

n 训练模型

u [图片上传失败...(image-f8553d-1631638338347)]

u 先判断是在哪一个面上进行操作。然后再去判断是什么手势(训练模型本身较为简单)。

n 模型结果

u [图片上传失败...(image-662894-1631638338347)]

[图片上传失败...(image-2dc5ce-1631638338347)]

u 准确性还是比较高的。

l 模型问题

n 但由于不同人可能会有不同手势的差异,因此重新做了实验。只挑出其中三个人作为输入数据,然后去分辨其他人的手势数据。

n 结果如下:

u [图片上传失败...(image-df9a87-1631638338347)]

n 解决方式:

u Transferable model:在每次加入新用户前,让用户先做几个动作,把这几个动作加入到原先的模型进行训练。结果表明,只要用户做了5次以上的测试数据,准确率就会比较高。

u [图片上传失败...(image-ac9c1d-1631638338347)]

l 3. 探究

n 最终结果

u [图片上传失败...(image-a85733-1631638338347)]

n 用户调查:

u 如果有了这些操控之后,用户还希望能用在什么场景下。

u [图片上传失败...(image-ee676e-1631638338347)]

u 例如,在游戏中,用向上滑动来作为起跳动作。

对设计的启示:

l 技术不难,但整体思路巧妙。

l 该文章使用的方法相当有意思,把传统的视觉信号,通过硬纸板的传递,转变为音频信号。同时,利用神经网络的特性,对数据做快速训练,使得该方法可以快速应用到实际场景中。

l 该文章在最后提高模型鲁棒性的时候,也做得很巧妙。通过学习市面上人脸识别或者指纹识别流程(先录入信息才能精准识别的过程),基于增量学习思路,将用户行为习惯数据融入到识别过程中,精准提高鲁棒性。

未来:

l 目前延时较大。由于模型本身较大,需要在服务器上做运算,再传回到手机端,目前延时速度为1.92s(之后会逐步往手机端模型上迁移)。

l 该文章没有对比利用手势交互的形式,是否比传统交互形式更为有效(例如,GUI界面,摇头进行选择)

l 因为谷歌设计HMD的目的,其实是为了让用户可以方便地利用手边材料做一个简易VR HMD,所以可能会导致材质不统一,该文献还没有探究其他材质的声音模式。

l 需要实现机载识别,由于该文章是作者于2019年写的,当时手机端ML模型可能会比较吃力。如果未来还有机会继续往下研究的话,可能会往机载高效率识别上研究。

上一篇下一篇

猜你喜欢

热点阅读