苏黎世联邦理工开发的多相机光学触觉传感器,可以实现基于视觉的机器

2019-12-02  本文已影响0人  图像算法

最近瑞士苏黎世联邦理工学院的一组研究人员开发了一种多相机光学触觉传感器(即基于光学设备的触觉传感器),该传感器收集有关施加到其表面的接触力分布的信息。在arXiv上预发表的一篇论文中介绍的这种传感器可用于基于计算机视觉算法开发柔软的机器人皮肤。

摘要

本文介绍了多相机的设计光学触觉传感器,可提供有关施加在其柔软表面上的接触力分布。这个信息包含在球形粒子的运动中散布在表面内,受力时变形力。小型嵌入式相机会捕获然后通过机器学习架构将不同的粒子模式映射到三维接触力分布。本文提出的设计展示了接触面大,结构薄现有的基于相机的触觉传感器,无需使用其他反射组件,例如镜子。模块化讨论了学习架构的实现,有助于扩展到更大的表面,例如机器人皮肤。

介绍

全身触觉传感研究[旨在提供具有充分利用接触能力的机器人对象来执行各种各样的任务。

举个例子,人类经常用双手和手臂来运输大和沉重的盒子,利用他们的反馈触觉感受器及其柔软皮肤的顺应性。

计算机视觉和机器的最新进展

学习引起了对基于视觉的触觉传感器(通常称为光学触觉)的越来越多的关注传感器。这些传感器通常使用光学设备提供有关变形的高分辨率信息受外力作用时其柔软表面的硬度。

作为一个嵌入其中的球形粒子的运动中的RGB相机捕获了柔软透明的凝胶提供有关引起力分布的反馈凝胶的变形。

基于摄像头的方法的典型缺点是他们的主要传感单元体积庞大。而且,最低

商用相机的焦距通常意味着相机镜头和镜头之间需要额外的空间软凝胶,其中嵌入了受监控的图案,例如标记,颗粒等,导致额外增加整体大小。即使是近焦镜头,通常将柔软的表面放在太靠近相机的地方导致视野减小(FOV)。

本文提出了一种多相机设计来解决提到的问题,导致总体结构相对较薄约17.5毫米如下图:

并保留了可扩展性较大的表面。配备了四个嵌入式相机近焦镜头,彼此相邻放置以遮盖FOV增加。训练了深度神经网络(DNN)作者是瑞士苏黎世联邦理工学院动态系统研究所的成员。

本文提供的触觉传感器有一个与大多数基于相机的相机相比,厚度减小了文献中的触觉传感器。在此图中显示放在下面的四个嵌入式摄像头模块旁边软传感器的表面。重建应用于传感器表面的三维接触力分布,直接处理图像上捕获的像素强度。架构这里采用的是模块化结构,以增加在更大的表面上实施的软件可扩展性或在更换单个摄像机的情况下。实际上,通过训练DNN进行泛化实验在可用摄像机的子集上。相当小一旦使用新相机,网络的一部分将受到重新训练添加,从而缩短了培训时间,降低了数据量需求,同时推广到整个表面。DNN可以实时部署,并利用最新的模块化系统提供的功能集成的GPU。由此产生的传感管道可以预测每秒分配40次接触力。

相关工作

相关工作几种物理原理已经应用于为机器人提供与人类相当的目标触觉。实际上,触觉有许多种类文献中存在传感器,例如,电阻式,压电式和电容。对不同类别的调查中提供。同样,各种触觉皮肤的例子使用不同的传感原理,并可以扩展到大已经描述了表面,基于视觉的触觉传感器基于光学设备,追踪与变形有关的视觉特征柔软的表面。在RGB相机旁边,深度相机动态视觉传感器已用于类似的方式。光学触觉传感器显示高分辨率,尽管厚度较大,但易于制造且成本低廉与其他类别相比。有关的概述不同类型的光学触觉传感器。

廉价和低功耗的GPU的可用性是表示为实现实时的可能解决方案处理大量的触觉图像。两台相机固定在机器人软抓手的每个手指上对物体的形状和大小进行分类。分类通过DNN将输入作为两个图像的串联。手指形抓手是在文中提出。

触觉印记通过镜子重定向朝向相机以增加传感器的紧凑性。

二使用相机重建3D位移触觉性肌层的内部标记的集合。为了克服解释的复杂性触觉信息,几种基于学习的方法被用于测量各种触觉量。压痕的位置和深度重建。

基于光发射器和接收器阵列的传感器,深度学习架构估算了总力量和施加到使用光度法的触觉传感器上的扭矩立体声和标记画在其表面上。

神经网络重构应用的接触力分布到基于视觉的传感器的软表面。

基本事实通过使用基于以下内容的模拟来提供标签有限元方法(FEM)。为了分享从不同传感器的数据中获得的知识,转移学习方法。

此处介绍的方法基于四个摄像头放在离观察表面不远的地方,具有随机散布的球形颗粒。选择组件并采用数据驱动方法无需使用即可获得薄型结构附加的反射组件,从而简化了制造。所采用的网络架构适合使用多个摄像机,引入了模块化功能并促进该方法的可扩展性。所结果的管道高精度重建接触力压头施加到软表面上的分布传感器的位置,包括压痕所在的区域未被单个摄像机的FOV完全覆盖。

传感器的基本结构可容纳四个带扁平带状电缆的Raspberry Pi v2相机接口板

连接器(a)和安装在顶部的摄像机(b),如下图所示:

硬件

光学触觉传感器基于对单色颗粒(直径为150至180μm的聚乙烯微球)随机散布在柔软的,透明硅胶。粒子的运动是由四个矩形排列的摄像头(Raspberry Pi Camera Module v2),请参阅上图。

每秒40帧,分辨率为320×240像素,最终被裁剪并下采样为128×128像素。为了减小传感器的厚度,默认的Raspberry Pi相机镜头被鱼眼镜头取代

镜头最初安装在Sincerefirst SF-C7251OV-H133上相机。

镜头安装在相机框架上在定距环上,其厚度旨在获得所需的焦点。

最后,将LED板放置在摄像头阵列提供均匀的亮度,将三个不同的有机硅层浇铸到摄像机阵列,如下图所示:

第一层相对较硬,并增加了相机和颗粒,这是改进的必要条件焦点。该层还为硬件并确保光扩散。

第二层是最柔软,包含相机跟踪的粒子。

最后,将第三层(比第二层差)浇铸黑色,保护传感器免受外界光线的伤害来源和物质损失。相同的物料,混合使用中的比例和固化方案产生的感应面为49×51 mm。每个嵌入式摄像机和LED板固定在基座上结构体。

将三层有机硅层直接倒在LED板和相机镜头:坚硬的透明层,颗粒层和黑色保护层。相机由一个相对便宜的独立控制器控制单板计算机(Raspberry Pi 3 B +型)。这些板与模块化系统(NVIDIA)通信Jetson Nano Developer Kit),配备了64-位四核Arm Cortex-A57 CPU和Maxwell具有128个CUDA内核的GPU。通讯处理通过一个千兆以太网交换机(ANDDEAR QZ001),

使Jetson Nano可以接收四个图像流。

Jetson Nano为Raspberry提供时钟源Pi板,通过网络同步时间协议(NTP),以确保同时镜像流。请注意,Raspberry Pi板和以太网可以用凑的市售开关代替Jetson Nano的多机位适配器板。然而,这些适配器板的驱动程序仍在开发中还是由于相对较新而无法获取。

尺寸分析

上面介绍的设计具有整体厚度为17.45毫米,低于大多数基于相机的镜头

文献中描述了触觉传感器。在下面的,一些进一步降低厚度的准则传感器详细:

1)此工作架中使用的商用相机接口底部的柔性电缆连接器板,如上图所示。自定义摄像头界面板,连接器放置在接口板本身和LED板将厚度减少2.9毫米,从而使整体厚度为14.55毫米。

2)也可以将自定义相机接口板放置在视应用而定,离摄像机更远的不同位置。卸下摄像头板摄像机下方的连接器使总厚度为13.45毫米。

3)在当前设计中,接口板已放置在以下同一平面内彼此相邻相机。为了覆盖连续的表面,这要求每个摄像机的视野至少要达到接口板的尺寸。移动接口板(如前所述)便于更紧密地放置相机。作为一个结果,这将使进一步发展成为可能在保持连续的表面覆盖范围的同时,减小了镜片与颗粒之间的距离。

此外,在这项工作中,选择了鱼眼镜头在商用解决方案中简单的实现。量身定制的设计焦距和焦距之间的精确权衡FOV可以进一步减小整体厚度。假设理想的针孔摄像机型号1,厚度为主要受图像传感器尺寸的限制。现代厚度约为0.3毫米的图像传感器可商购。最小的商品摄像头模块2

包括一个镜片的厚度为1.158毫米,可能会聚焦表面放置在3毫米的距离处。这样的设计可能已经导致触觉传感器的厚度约为5毫米。

方法

三,方法

在以下部分中,将介绍学习体系结构。

首先,收集数据:

A.数据收集

按照策略收集数据集,自动缩进使用精确度执行(Fehlmann PICOMAX 56 TOP)计算机数控(CNC)。在等距的网格,直径为球形的圆柱形压头10 mm的距离被压在传感器表面上深度可达1.5毫米。

用以下方法模拟相同的过程Abaqus / Standard中的有限元模型将真实标签贴在图像上,代表联系人施加到传感器表面的力分布。

在这可以将表面离散为650个等面积的面元中描述的过程提供了施加,基于FEM模拟。每个垃圾箱三个提供了力分量Fx,Fy,Fz,其中x和y是沿传感器表面的两个水平边对齐并以其中一个角为中心,z是垂直轴,从相机指向传感器表面。

由此产生的标签矢量被分配给来自每个压痕有四个摄像头,并在有监督的情况下使用学习方式。

B.学习架构

离散力分布的预测应用触觉传感器的表面是一个多元的回归问题。这个问题可以通过培训来解决端到端DNN,可映射来自四个摄像机的图像到网络的输出,即三个力分量650个表面槽中的每个。强度差当前帧与相应四个帧之间的图像在未变形的表面状态下拍摄的图像如下:

此图中显示了感应管线。压痕会产生可见的粒子图案变化当前帧与静止帧之间像素强度(中心图像)的差异。DNN预测压痕过程中施加的三维接触力分布。右边的最后一个图显示每个表面区域的结果Fz的彩色可视化。

此图显示了网络的体系结构。每个差异图像分别通过相同的CNN,然后通过融合层合并输出。为了便于可视化,已使用一些缩写标签“ 3×3 conv,2”是指两通道卷积内核为3×3的层,而“ 1/2池”表示最大池化层,它将输入二次采样到其一半原始尺寸。“ 900 FC”是指具有900个单位。输入到网络。生成管道的示例

取消对独立特征的检测相机位置的差异,四台摄像机通过卷积独立馈入神经网络(CNN)。只有在这个中间网络之后,具有线性激活功能的融合层结合了四个不同的输出张量,并预测三维离散力分布。整体都网络布局和不同层的尺寸是如上图所示。

CNN拍摄大小为128×128的差分图像为输入。批次归一化显示网络训练时间,用于所有卷积层以及整流的线性单元激活功能。完全连接(FC)的丢失率为0.1层以防止过度拟合训练数据。均方根误差(RMSE)用作Adam优化器的损失函数训练模型。将30%的数据集留给评估目的。

CNN在四个摄像头之间共享的事实导致内存消耗的大幅减少,尤其是考虑到可能扩展到更大的内存相机数量较多的表面。而且这个相比之下,通常会导致网络规模更小通过a馈送四个图像的级联更大的架构。

较小的架构往往要求更少训练数据并缩短训练时间。

结果

A.传感器性能

DNN在70%的完整的数据集。10%的样本用作验证设置在训练过程中尽早停止。剩余的留下20%进行评估。产生的RMSE力分布为0.00060 N,0.00059 N,0.0019 N分别用于Fx,Fy,Fz,而生成的RMSE总施加力(所有表面的力之和Fx,Fy,Fz为0.0019 N,0.0016 N,0.0571 N。

请注意,数据集是从垂直方向生成的压痕,z方向上的合计力向上到3 N,水平方向的总力小得多大部分传感器表面上的方向。

上图显示了z方向上的接触力分布以及相应的地面真实情况的示例预测。该模型推论以86 Hz的频率在Jetson Nano上运行,这使得Raspberry Pi上的帧捕获(每秒40帧)成为感应速度的瓶颈。

结果,传感管道的最大预测速度为40赫兹。此外,四个同步图像的事实通过CNN独立馈送可实现检测每个摄像机完全捕获时的多个接触点数最多一个不同的联系补丁之一,即使模型仅受过单个压痕的训练。这使得最多可以检测到四个不同的联系补丁

B.传感器模块

为了评估该方法的模块性:

第一步模型是仅使用来自三个摄像机的图像和标签进行培训。

第二步,用训练数据重新校准传感器来自所有四个摄像机。

该过程示意图如上。对于校准步骤,DNN的大部分参数被冻结,只有最后一个完全连接的层融合层被重新训练。这达到目的减少训练时间和数据需求。

,重新校准的网络显示与在IV-A节中的全部数据。而且,性能使用更小的训练数据部分保留。这些图显示了不同的误差指标作为函数用于训练的数据百分比。再训练最后两层大约需要1.5个小时使用GPU(Nvidia TITAN X Pascal),而不是完整模型上超过10个小时的训练数据集。

该实验显示了对训练最多资源的可能性(两次)和数据消耗一部分网络表面,因此减少了数据收集和其余时间的训练时间。这也打开了更换有缺陷的相机的机会(尽管不是目前可能出现在实验原型中)在大型皮肤上,无需重新训练整个皮肤网络。

在对来自三台摄像机的数据进行神经网络训练之后,针对第四台摄像机重新校准了神经网络来自所有摄像机的一部分训练数据,所产生的误差如上所示,随变化而变化用于训练的完整数据集的百分比以及最小二乘趋势线。

结论

使用多个摄像机可以使用这种类型的触觉传感器覆盖任意形状的较大区域。这项工作说明了如何将在子集的摄像机上获得的信息转移到其他摄像机上,从而产生一种可扩展的,数据高效的方法,研究人员也将在未来的工作中朝这个方向发展。

论文源码下载地址:关注“图像算法”微信公众号 回复“光学触觉传感器”

上一篇下一篇

猜你喜欢

热点阅读