[总结] GestOnHMD_Enabling Gesture-

2021-09-18 本文已影响0人 alphonseLin

论文标题：

GestOnHMD_Enabling Gesture-based interaction on Low-cost VR head mounted display

关键词：

虚拟现实、智能手机、MobileVR、谷歌纸板、手势

低成本的虚拟现实（VR）头戴式显示器（HMD）在2014年出世之后，其功能主要将纸板与智能手机进行集成，提高用户沉浸感。但是，由于其价格低廉，导致这些系统往往受到用户互动的限制。在该文献中介绍了GestONHMD的方法，主要基于交互和手势分类识别技术，该技术通过利用手机中的电子麦克风来检测敲击或滑动手机正面、左侧和右侧表面上的声音，将这些声音与对应手势结合进行识别。该实验过程如下，首先进行手势模式研究。根据用户偏好和信号检测能力，分别为前表面、左表面和右表面选择15、9和9个手势。同时，构建18个用户发出的声音信号作为数据集。最后，通过GestONHMD的实时演示，该文献做了一次用户调查，对GestONHMD的鲁棒性进行了有效提高。

研究结果：

1. 研究问题

l 背景

u [图片上传失败...(image-81c80d-1631638338348)]

u 由于纸板价格低廉，缺乏较为复杂的交互性接口。例如上图两者，左图圆圈为磁铁，利用手机内部传感器对磁铁的反应进行交互（交互结果为Ture/False）。右图上方为金属板，通过该金属板的触摸，输出Ture/False.

n 相关研究

u [图片上传失败...(image-1576ac-1631638338348)]

u 之后有学者不断对此改进，增加纸质HMD的可交互性。例如增加眼动仪，增加麦克风，增加触摸屏等等。

u 缺陷：还是需要通过额外的工具才能进行交互。

n 假设

u 本文提出一个有效方法，可以不需要通过额外设备完成交互方式。

u 通过滑动声音，辨别手势

l 由于手机一般底部顶部有两个录音器（底部：通话。顶部：降噪），可以通过不一样的声音大小及频率，训练模型，起到快速识别手势的作用。

l [图片上传失败...(image-50e2d5-1631638338348)]

2. 解决方案

l 1. 手势设计

n 收集常用手势数据

u 用户启发式设计：

l 针对场景：观看视频，浏览网站

l [图片上传失败...(image-35fc45-1631638338348)]

l 要求

n 因为carboard HMD有三个比较大的面，左右前，因此要求用户在每个面上设计两个不同的手势操作。

n 用户需要一笔完成。

u 数据结果

l [图片上传失败...(image-e80bfe-1631638338348)]

l 2. 模型设计

u 对上述手势进行打分（信道比，设计一致性，信号相似性）

l [图片上传失败...(image-6e0b95-1631638338348)]

u 最终得出了如下的手势集

l [图片上传失败...(image-e147de-1631638338348)]

n 声音数据采集

u [图片上传失败...(image-61ec21-1631638338348)]

u 数据增强：

l 增加噪音（键盘声、车流声）

l 时间平移

l 频率上的随机遮盖

n 训练模型

u [图片上传失败...(image-f8553d-1631638338347)]

u 先判断是在哪一个面上进行操作。然后再去判断是什么手势（训练模型本身较为简单）。

n 模型结果

u [图片上传失败...(image-662894-1631638338347)]

[图片上传失败...(image-2dc5ce-1631638338347)]

u 准确性还是比较高的。

l 模型问题

n 但由于不同人可能会有不同手势的差异，因此重新做了实验。只挑出其中三个人作为输入数据，然后去分辨其他人的手势数据。

n 结果如下：

u [图片上传失败...(image-df9a87-1631638338347)]

n 解决方式：

u Transferable model：在每次加入新用户前，让用户先做几个动作，把这几个动作加入到原先的模型进行训练。结果表明，只要用户做了5次以上的测试数据，准确率就会比较高。

u [图片上传失败...(image-ac9c1d-1631638338347)]

l 3. 探究

n 最终结果

u [图片上传失败...(image-a85733-1631638338347)]

n 用户调查：

u 如果有了这些操控之后，用户还希望能用在什么场景下。

u [图片上传失败...(image-ee676e-1631638338347)]

u 例如，在游戏中，用向上滑动来作为起跳动作。

对设计的启示：

l 技术不难，但整体思路巧妙。

l 该文章使用的方法相当有意思，把传统的视觉信号，通过硬纸板的传递，转变为音频信号。同时，利用神经网络的特性，对数据做快速训练，使得该方法可以快速应用到实际场景中。

l 该文章在最后提高模型鲁棒性的时候，也做得很巧妙。通过学习市面上人脸识别或者指纹识别流程（先录入信息才能精准识别的过程），基于增量学习思路，将用户行为习惯数据融入到识别过程中，精准提高鲁棒性。

未来：

l 目前延时较大。由于模型本身较大，需要在服务器上做运算，再传回到手机端，目前延时速度为1.92s（之后会逐步往手机端模型上迁移）。

l 该文章没有对比利用手势交互的形式，是否比传统交互形式更为有效（例如，GUI界面，摇头进行选择）

l 因为谷歌设计HMD的目的，其实是为了让用户可以方便地利用手边材料做一个简易VR HMD，所以可能会导致材质不统一，该文献还没有探究其他材质的声音模式。

l 需要实现机载识别，由于该文章是作者于2019年写的，当时手机端ML模型可能会比较吃力。如果未来还有机会继续往下研究的话，可能会往机载高效率识别上研究。