浙江大学学报(工学版), 2023, 57(4): 683-692 doi: 10.3785/j.issn.1008-973X.2023.04.005

自动化技术、计算机技术

基于神经形态的触觉滑动感知方法

张超凡,, 乔一铭, 曹露,, 王志刚, 崔少伟, 王硕

1. 中国科学院自动化研究所 多模态人工智能系统全国重点实验室,北京 100190

2. 英特尔中国研究院,北京 100190

3. 中国科学院大学 人工智能学院,北京 100049

Tactile slip detection method based on neuromorphic modeling

ZHANG Chao-fan,, QIAO Yi-ming, CAO Lu,, WANG Zhi-gang, CUI Shao-wei, WANG Shuo

1. State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China

2. Intel Labs China, Beijing 100190, China

3. School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100049, China

通讯作者: 曹露,女,研究员. orcid.org/0000-0002-4766-2234. E-mail: lu.cao@intel.com

收稿日期: 2022-12-7  

基金资助: 科技创新 2030—“新一代人工智能”重大项目(2018AAA0103003)

Received: 2022-12-7  

Fund supported: 科技创新2030—“新一代人工智能”重大项目(2018AAA0103003)

作者简介 About authors

张超凡(1998—),女,博士生,从事机器人触觉感知及灵巧操作的研究.orcid.org/—0000-0003-2605-9097.E-mail:zhangchaofan2020@ia.ac.cn , E-mail:zhangchaofan2020@ia.ac.cn

摘要

聚焦基于神经形态的触觉感知,构建触觉感知实验平台,研究基于脉冲神经网络的接触物体滑动检测方法. 使用GelStereo触觉传感器采集接触表面标记点位移场触觉信息流,采用2种方式(地址位移表示(ADR)和地址事件表示(AER))对位移场流进行脉冲编码. 基于脉冲响应模型(SRM)构建滑动检测网络,在英特尔神经形态硬件Loihi上完成了网络部署. 实验结果表明,基于地址位移表示的脉冲响应模型准确率达到94.8%,F1分数达到95.7%. Loihi模型(针对神经形态硬件Loihi实现的特化脉冲响应模型)准确率达到93.8%,F1分数达到94.8%. 所构建的脉冲神经网络在触觉滑动感知任务中实现了与人工神经网络(ANNs)相比拟的预测精度和更短的推理时间,在功耗上具有显著优势.

关键词: 类脑信息处理 ; 脉冲神经网络 ; 人工神经网络 ; 触觉感知 ; 神经形态 ; 滑动检测

Abstract

A tactile perception platform was constructed by focusing on neuromorphic-based tactile perception in order to analyze slip detection methods based on spiking neural networks (SNNs). The GelStereo sensor was used to capture the tactile information flow in the form of markers displacement field on the contact surface. Address-displacement representation (ADR) and address-event representation (AER) were analyzed to pulse-encode the markers displacement field. Slip detection networks were proposed based on the spike response model (SRM). The proposed network was deployed in the neuromorphic hardware - Intel Loihi chip. The experimental results show that the proposed SNN method with ADR achieved 94.8% accuracy and 95.7% F1 score in SRM, 93.8% accuracy and 94.8% F1 score in Loihi model (a specialized SRM for Loihi hardware). The well-trained SNNs for slip detection achieved comparable performance with artificial neural networks (ANNs) both on accuracy and F1 score with less inference time, and showed a significant advantage in power consumption.

Keywords: brain-inspired information processing ; spiking neural network ; artificial neural network ; tactile perception ; neuromorphic ; slip detection

PDF (1475KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张超凡, 乔一铭, 曹露, 王志刚, 崔少伟, 王硕. 基于神经形态的触觉滑动感知方法. 浙江大学学报(工学版)[J], 2023, 57(4): 683-692 doi:10.3785/j.issn.1008-973X.2023.04.005

ZHANG Chao-fan, QIAO Yi-ming, CAO Lu, WANG Zhi-gang, CUI Shao-wei, WANG Shuo. Tactile slip detection method based on neuromorphic modeling. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(4): 683-692 doi:10.3785/j.issn.1008-973X.2023.04.005

基于深度学习算法和大数据的驱动,人工智能对多种任务的预测准确率甚至超过了人类,然而与人脑相比,深度学习在能耗比、鲁棒性及自适应性等方面都有明显的不足. 生物智能基于长时间的进化以应对自然环境的各种变化,使用具身感知系统来获取和正确解析外界环境信息,对接下来产生的行为做出合适的决策和规划. 其中,触觉信息特别是指尖触觉信息的获取及高效解析对人类完成各种操作任务具有至关重要的作用. 目前在机器人操作领域,如何让机械臂及机械手拥有有效的触觉感知和反馈能力,依然面临非常艰巨的挑战. 针对此问题,我们借鉴生物智能对变化的感知、编码和检测方式[1-5],实现机器人的触觉感知及特征信息提取.

在机器人的触觉感知任务中,实时检测夹手与物体之间的滑动是保证机器人日常抓取操作任务的基础,对滑动的及时反馈调整可以减少因物体掉落导致的任务失败. 本文面向滑动检测任务,尝试采用类脑方式,提取出感测信息的变化并转换为数字脉冲信号,结合脉冲神经网络(spiking neural networks,SNN)来实现机器人的触觉感知及特征信息提取. 本文构建基于脉冲神经网络的触觉感知实验平台,基于该实验平台完成接触物体滑动检测任务. 分析实验结果和影响性能的因素,和人工神经网络(artificial neural network,ANN)方法进行对比.

1. 相关工作

1.1. 触觉传感器

赋予机器人触觉感知能力,可以显著提高机器人在灵巧抓取和接触丰富操作任务中的能力. 触觉传感器已经应用到滑动检测[6-8]、掌内物体操作[9]、材料属性感知[10]等任务中. 近几十年来,研究人员关注触觉传感器的结构设计与传感信息处理,基于不同的传感原理设计多种触觉传感器,包括电容式、压阻式、光电式、磁场式等[11]. 传统的阵列触觉传感器多数由上述原理的多个触觉感知单元根据具体应用场景排列分布组成. 近年来,视触觉传感器引起触觉感知领域的关注,包括GelSight[12]、GelSlim[13-15]、TacTip[16]、FingerVision[17]、GelStereo[18-19]等. 视触觉传感器通过相机捕获由接触产生的弹性表面形变信息. 形变信息可以被建模为不同的触觉模态,包括触觉点云、力/力矩、滑动等[20]. 相比于传统阵列触觉传感器,视触觉传感器直接捕捉由接触产生的形变信息,更加贴近人类触觉感知机理,具有空间分辨率高、传感信息丰富、成本低等优势.

目前,触觉传感器几乎都采用基于时钟的数据产生方式,即以固定的频率产生和发送数据. 触觉感知只在接触事件发生时产生有效数据,基于时钟的方式会产生大量的冗余数据,给数据处理和传输带来困难. 部分工作开始研究基于事件的触觉信息传感方式. Lee等[21]设计神经形态异步编码电子皮肤,即使在大规模部署的情况下,也可以保持低延时特性,为机器人的高动态灵巧操作提供了更多的发展空间. Ward-Cherrier等[22]在TacTip的基础上,将RGB相机替换为DAVIS相机,设计NeuroTac传感器,研究密集编码、时间编码、空间编码、时空编码4种触觉信息编码方式,完成纹理识别任务. Kumagai等[23]将事件相机(dynamic vision sensor,DVS)用于视触觉传感器设计,获得高空间分辨率和时间分辨率的触觉信息,该传感器具有检测接触位置和滑移的能力.

1.2. 脉冲神经网络

Hodgkin和Huxley在上世纪50年代提出神经元计算模型[1],由于电路实现过于复杂,研究人员提出更简化、电路实现更友好的神经元模型. 其中,整合发放神经元(integration-and-fire,IF)模型以及基于IF模型带泄漏的整合发放神经元模型(leaky integration-and-fire,LIF)使用最广泛[1]. IF模型模拟离子电流调节神经元膜电位的过程,随着时间推移整合多源信息,神经元根据自身内部状态,在膜电位超过阈值的时刻发放电脉冲,将模拟的运算结果传递给后级相连的神经元.

脉冲神经网络以神经元为基本计算单元,可以拥有和ANN网络类似的拓扑结构. 由于脉冲函数不同于ANN网络的激活函数,它的不可微性质导致脉冲神经网络在直接训练时面临巨大的障碍和挑战. ANN已有的反向传播算法不能直接用来训练SNN,目前几种代表性的解决方案包括转换法和直接训练法. 转换法是将训练好的ANN模型逐层转换为SNN模型[24-25],直接训练法是采用脉冲函数的替代函数解决不可微问题[26]. 本文采用SLAYER训练框架[27],通过输出误差的反向传播进行脉冲神经网络突触权重和时延的学习.

1.3. 神经形态触觉感知

在Lee等[21]基于事件的触觉传感器基础上,See等[28]开源了触觉脉冲手写体数字识别数据集,公布了ANN、从ANN转换的SNN和SNN 3种基准方法的测试结果,促进神经形态触觉感知的研究. Taunyazov等[29]利用异步编码电子皮肤设计NeuTouch事件触觉传感器,结合Prophesee事件相机用于机器人感知,构建视觉-触觉多模态SNN网络,完成物体质量分类和旋转滑动检测任务. Gu等[30]为了增加NeuTouch不规则分布触觉单元之间的局部连接,提出用图结构组织触觉信息,设计脉冲图神经网络TactileSGNet,完成物体分类任务. 总体来看,基于事件的触觉传感器处于初期发展阶段,尚难以普遍应用于机器人领域. 不少工作关注将传统触觉传感器的触觉信号编码为脉冲信号[31-33],研究类脑触觉信息处理的方法. Dabbous等[34]通过LIF模型,将iCub机器人电容皮肤的时序读数编码为脉冲序列,再经过2层LIF神经元进行接触物体边缘角度分类. Taunyazov等[35]使用K阈值法,将iCub RoboSkin和BioTac触觉传感器的时序数据转换为脉冲序列,完成了快速纹理分类任务.

针对具有高空间分辨率和多模式触觉感知能力的视触觉传感器,采用事件相机的设计很难应用到机器人灵巧操作任务中,很少有相关工作研究视触觉传感信息的脉冲编码. 本文工作将基于GelStereo视触觉传感器,在触觉传感信息脉冲编码和神经形态处理机制中进行初步探索.

1.4. 触觉滑动检测

近年来,基于人工神经网络的滑动检测方法得到了广泛的研究. Li等[36]提出视觉-触觉融合深度神经网络来检测滑动,网络由卷积网络结合长短时记忆网络构建. 实验结果表明,训练好的网络在处理新物体滑动数据时的泛化能力较强. Zhang等[8]使用FingerVision传感器,提出基于卷积长短时记忆网络的滑动分类框架. Zhang等[37]使用基于人工神经网络的方法,对更多的接触事件进行预测和分类.

2. 实验方法

图1所示为提出的神经形态触觉滑动感知实验系统. 从GelStereo触觉传感器感知信息中提取位移信息流,设计脉冲编码方法. 将脉冲序列送入SNN网络进行特征提取,完成滑动检测任务,将SNN网络在神经形态硬件Loihi上进行部署.

图 1

图 1   神经形态触觉滑动感知的实验系统

Fig.1   Experimental system for neuromorphic-based tactile slip perception


2.1. GelStereo传感器

GelStereo触觉传感器的主要原理是将接触产生的触觉信息转化为硅胶的几何形变,利用视觉传感方法捕捉几何形变中包含的各种触觉信息[18-19]. GelStereo触觉传感器如图2(a)、(b)所示,主要由双目相机模组、带有光源结构的支撑框架和透明硅胶层组成. 硅胶层表面附着有标记点阵列,当硅胶层与物体发生接触时,硅胶形变会导致标记点移动. GelStereo传感器将触觉信息转化为标记点的位移. 图2(c)中,触觉图像上的圆点表示标记点的位置,箭头表示标记点因接触产生的位移. 将图像平面上的标记点位移作为主要的传感模式,建模预测传感器表面与接触物体之间是否发生滑动.

图 2

图 2   GelStereo触觉传感的示意图

Fig.2   Diagram of GelStereo tactile sensing


2.2. 问题定义

将GelStereo触觉传感器表面与接触物体的滑动检测任务定义为二分类问题. 从传感器触觉图像中获取标记点的位置,通过编码器 ${F_{\rm{e}}}$将相邻帧标记点的位置变化编码为脉冲序列,再通过滑动检测网络 ${F_{\rm{s}}}$推断传感器表面与物体之间当前所处的接触状态是滑动还是稳定. 将该过程表示如下:

$ {{\boldsymbol{S}}_i} = {F_{\text{e}}}\left( {{{\boldsymbol{X}}_i},{{\boldsymbol{X}}_{i - 1}}} \right), $

$ {y_i} = {F_{\rm{s}}}\left( {{{\boldsymbol{S}}_{i - n+1}}, \cdots ,{{\boldsymbol{S}}_{i - 1}},{{\boldsymbol{S}}_i}} \right). $

假设GelStereo触觉传感器采集到的触觉信息流数量总计为N帧(N > 0), ${{\boldsymbol{X}}_i}、{{\boldsymbol{X}}_{i - 1}} \in {{{{\bf{R}}}}^{H \times W \times 2}}$为第 $i$(1iN)帧和第 $i - 1$帧传感器表面标记点在图像平面上的二维像素位置, $H$$W$分别为标记点的行数和列数, ${{\boldsymbol{S}}_i}$表示由 ${{\boldsymbol{X}}_i}、{{\boldsymbol{X}}_{i - 1}}$编码得到的0-1脉冲序列. 将第 $i$帧及前 $n - 1$帧的脉冲序列作为脉冲神经网络 ${{{F}}_{\rm{s}}}$的输入,输出第 $i$帧的接触状态 ${y_i}$. ${y_i} = 1$表示在第 $i$帧发生滑动, ${y_i} = 0$表示第 $i$帧的接触状态为稳定. 在本文中, $H = W = 25$$n = 3$.

2.3. 神经脉冲编码

与人工神经网络不同,脉冲神经网络的输入数据是0-1脉冲序列. 采用以下2种方式,对GelStereo相邻帧之间标记点的位置变化进行脉冲编码. 1)直接将每个标记点的相对位移值编码为脉冲序列,将其命名为地址位移表示(address-displacement representation,ADR). 2)借鉴事件相机的编码方式,采用地址事件表示方法(address-event representation,AER)[38].

2.3.1. 地址位移表示

地址位移表示将相邻帧之间每个标记点(地址)的位移值(位移)编码为脉冲序列. 泊松编码是比较典型的实值编码方法[1]. 泊松分布描述单位时间内随机事件发生的次数,与神经元的脉冲发放频率对应,概率函数表示如下:

$ P(X = k) = \frac{{{\lambda ^k}}}{{k!}}{{\rm{e}}^{ - \lambda }};\;k = 0,1, \cdots . $

给定脉冲序列长度 $T$和单位时间内随机事件的平均发生次数 $\lambda $,通过泊松分布可以将位移值编码为脉冲序列.

在GelStereo传感器数据中,如图3所示,第 $i$帧标记点的位移 ${\hat {\boldsymbol{X}}_i}$

图 3

图 3   地址位移表示的示意图

Fig.3   Diagram of address-displacement representation


$ {\hat {\boldsymbol{X}}_i} = {{\boldsymbol{X}}_i} - {{\boldsymbol{X}}_{i - 1}} \in {{{{\bf{R}}}}^{H \times W \times 2}}. $

将第 $i$帧第 $k$行第 $j$列标记点的位移 ${{\hat {\boldsymbol{X}}}_{i,k,j}} \in {{{{\bf{R}}}}^2}$重新表示为 ${\hat {\boldsymbol{X}}'_{i,k,j}} = [ {\hat x_{k,j}^ - ,\hat x_{k,j}^+,\hat y_{k,j}^ - ,\hat y_{k,j}^+} ] \in {{{{\bf{R}}}}_+}^4$. 其中, ${{\hat {\boldsymbol{X}}'}_{i,k,j}}$的4个维度表示标记点在二维图像平面左、右、上、下4个方向的移动距离,均为正实数,将其分别编码为4个输入脉冲通道. 以左方向位移 $\hat x_{k,j}^ - $为例,在本文中,泊松编码参数 $\lambda $设置为 $\hat x_{k,j}^ - /T$,将 $T$设置为 ${T_{\rm{f}}}/\Delta t$. 其中, ${T_{\rm{f}}}$为相邻帧之间的时间间隔, $\Delta t$为每个仿真时间步对应的时间间隔,本文中 ${T_{\rm{f}}} = 43$ ms, $\Delta t = 1$ ms. 通过上述方式,GelStereo传感器第 $i$帧的标记点位移被编码为 $H \times W \times 4 \times T$的0-1脉冲数据 ${{{\boldsymbol{S}}}_i}$. 在物理意义上, $\lambda $表示在一个时间步内标记点发生的相对位移,对应标记点在一个时间步内发出脉冲的概率. 相对位移越大,标记点的脉冲发放频率越高.

2.3.2. 地址事件表示

事件相机产生的动态数据采用地址事件表示方法,数据格式为 $(x,y,p,t)$. 其中 $(x,y)$为像素点的位置坐标, $p$为事件通道,包含消失和出现2种事件, $t$为该事件发生的时间. 事件相机产生的数据可以直接作为脉冲神经网络的输入.

参考地址事件表示对GelStereo传感器表面标记点的位置进行编码. 基于标记点帧间匀速运动的假设,采用线性插值函数 ${F_i}$,在相邻帧标记点位置 ${{\boldsymbol{X}}_i}$${{\boldsymbol{X}}_{i - 1}}$之间插值 $m$帧,以提升事件数量和时间密度,使其更接近DVS特性,如下所示:

$ {\boldsymbol{X}}_{i - 1}^{(1)},{{\boldsymbol{X}}}_{i - 1}^{(2)}, \cdots ,{{\boldsymbol{X}}}_{i - 1}^{(m)} = {F_i}({{{\boldsymbol{X}}}_{i - 1}},{{{\boldsymbol{X}}}_i},m). $

式中: ${{\boldsymbol{X}}}_{i - 1}^{(1)},{{\boldsymbol{X}}}_{i - 1}^{(2)}, \cdots ,{{\boldsymbol{X}}}_{i - 1}^{(m)}$${{\boldsymbol{X}}_i}$${{\boldsymbol{X}}_{i - 1}}$之间插值得到的 $m$帧标记点位置. 将插帧后的标记点位置序列映射为AER格式. 在相邻帧之间,若标记点没有发生位移,则无事件,脉冲编码为0;若相邻帧之间标记点发生移动,则前帧标记点位置对应消失事件,后帧位置对应出现事件,对应的事件通道脉冲编码为1. 通过上述方式,GelStereo传感器第 $i - 1$帧到第 $i$帧的标记点位置信息被编码为 $M \times N \times 2 \times (m+1)$的0-1脉冲数据 ${S_i}$. 其中 $M \times N$为GelStereo传感器原始RGB触觉图像分辨率,本文中为 $512 \times 512$像素.

根据GelStereo传感器的硅胶层形变特性和RGB相机帧率,结合实验数据,选择插帧数量 $m = 9$,以保证插帧后相邻2帧之间标记点的位置在图像平面上连续变化. 以 $m = 3$为例,如图4所示为AER过程的示意图. 如图4(a)所示为GelStereo传感器相邻帧之间的插帧过程和插帧后的地址事件分布,如图4(b)所示为将插帧后的地址事件编码为脉冲序列.

图 4

图 4   地址事件表示的示意图

Fig.4   Diagram of address-event representation


2.4. 脉冲神经网络
2.4.1. 脉冲响应模型

使用基于LIF神经元模型的通用阈值模型——脉冲响应模型(spiking response model,SRM)[39]. 在SRM模型中,神经元膜电位 $u(t)$主要由2部分响应决定,包括输入脉冲引起的突触响应与自身膜电位到达阈值之后发放脉冲带来的不应期响应.

$ {u_j}(t) = \sum\limits_{i \ne j} {{w_{ij}}(\varepsilon * {s_{ij}})(t)+(v * {o_j})(t)} . $

式中: ${u_j}(t)$为神经元 $j$的膜电位, ${w_{ij}}$为相连接的神经元 $i$$j$之间的突触权重, $\varepsilon ( \cdot )$为神经元的突触响应函数,“*”表示卷积运算, ${s_{ij}}(t)$为相连神经元 $i$$t$时间内发送到 $j$的脉冲序列, $v( \cdot )$为当前神经元 $j$的不应期响应函数, ${o_j}(t)$为当前神经元 $j$$t$时间内的输出脉冲序列, $ \displaystyle\sum\nolimits_{i \ne j} {{w_{ij}}(\varepsilon * {s_{ij}})(t)} $为神经元突触后电位(post synaptic potential,PSP), $ (v * {o_j})(t) $部分为该神经元的不应期响应(refractory response). 当神经元膜电位达到或者超过阈值 ${V_{{\rm{th}}}}$时产生脉冲输出,表示为

$ {f_{\rm{s}}}(u):o = \left\{ \begin{gathered} 1,\;u \geqslant {V_{{\rm{th}}}}\;; \\ 0,\;u < {V_{{\rm{th}}}}\;. \\ \end{gathered} \right. $

SLAYER训练框架[27]基于脉冲响应模型SRM实现SNN网络训练,该框架中神经元SRM模型参数包括突触电流、膜电位、衰减常数及突触权重等. 在训练中采用32位浮点数格式,模型的训练采用离线方式在GPU上完成,可以在GPU上进行推理仿真. SLAYER提供了专门的特化SRM模型——Loihi模型,支持英特尔Loihi芯片神经元参数配置及模型突触权重的量化缩放调整,实现实际硬件的部署.

2.4.2. 网络结构

针对ADR和AER 2种不同编码方式获得的脉冲数据,设计不同的网络结构完成滑动检测任务.

针对ADR编码得到的脉冲数据,设计SNN-ADR网络. GelStereo触觉传感器的连续3帧标记点位移数据由泊松编码得到129个时间步25×25×4的脉冲数据. 将脉冲序列作为网络输入,通过2个卷积层提取触觉特征,再通过2个全连接层两路分别输出滑动和稳定分类结果,将输出脉冲数量较多的分类作为网络预测结果. 采用SLAYER框架下的网络结构表示方式,表示为25×25×4-16c5-2a-32c3-2a-512-2,如图5所示. 其中25×25×4表示输入数据大小,16c5表示卷积核大小为5、通道数为16的卷积层,2a表示核为2×2的池化层,512和2分别为全连接层和输出层的神经元数量.

图 5

图 5   SNN-ADR网络结构

Fig.5   Network architecture of SNN-ADR


针对AER编码得到的脉冲数据,设计SNN-AER网络. GelStereo触觉传感器的连续3帧标记点位移数据由AER编码得到30个时间步512×512×2的脉冲数据. 由AER编码直接得到的脉冲数据规模较大,在网络训练和硬件部署中都存在困难. 通过池化方式对AER编码脉冲进行降采样,再将降采样后的脉冲序列送入2层全连接网络,预测是否发生滑动. 网络结构表示为512×512×2-8a-512-2,如图6所示.

图 6

图 6   SNN-AER网络结构

Fig.6   Network architecture of SNN-AER


2.4.3. 损失函数

在网络训练中,通过统计在SNN的运行时间内输出层每个神经元输出的脉冲数量,设定期望的正确和错误的脉冲计数. 将每个输出神经元实际输出的脉冲数 ${S^{\rm{o}}}$和期望的脉冲数 ${\tilde S^{\rm{o}}}$的误差平方和作为损失函数:

$ {\rm{Loss}} = \frac{1}{2}\sum\limits_{i = 1}^2 {{{\left( {S_i^{\rm{o}} - \tilde S_i^{\rm{o}}} \right)}^2}} . $

正确的脉冲计数预期设为60,错误的脉冲计数预期设为5.

3. 实验设置及实验结果

3.1. 实验平台及数据采集

将GelStereo传感器安装在数据采集平台上采集数据,用于网络训练. 在实验中,选取20个不同尺寸、形状、表面粗糙度的物体与GelStereo表面进行接触,如图7所示为数据采集平台和部分物体. 在数据采集过程中,实验人员手持物体在传感器表面按压,进行稳定的接触或者滑移,记录触觉图像序列. 每个序列的标签(稳定或滑动)根据人手的感觉给定. 在手持不同物体按压传感器表面的过程中,产生了不同配置的触觉数据,包含传感器表面的不同接触位置、接触力、接触区域大小等. 在滑动过程中,通过人手控制滑动方向、角度、速度等生成多种类型的滑动数据,包括平移滑动、旋转滑动、初始滑动、快滑动、慢滑动等,保证数据样本的丰富性. 针对每个物体,采集约20个滑动序列和10个稳定序列,每个序列包含大约100帧触觉数据,触觉图像的采样率约为23 Hz. 利用长度为3、步长为1的滑窗,在上述触觉序列中提取用于滑动检测任务的时序样本数据,总计生成了约43 000个样本.

图 7

图 7   数据采集平台和数据集中的部分物体

Fig.7   Data collection platform and some objects in dataset


随机选取16个物体约34 000个样本数据来训练网络,按照8∶2的比例划分为训练集和验证集. 将剩下的4个物体约9 000个样本数据作为测试集,测试模型效果,验证模型的泛化性能.

3.2. 实验设置

比较脉冲神经网络中不同神经元模型和不同编码方式对结果性能的影响. 作为实验对比,设计人工神经网络,完成滑动检测任务. 选用准确率A、查准率P、查全率R和F1分数F1作为模型性能的评价指标. 计算方式如下:

$ \left. \begin{split} & A = \frac{{{\rm{TP}}+{\rm{TN}}}}{{{\rm{TP}}+{\rm{TN}}+{\rm{FP}}+{\rm{FN}}}}, \\ & P = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}}, \\ & R = \frac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}}, \\ & F_{\rm{1}} = 2\frac{{P R}}{{P+R}}. \end{split} \right\} $

式中:TP为将正类预测为正类的样本数量,TN为将负类预测为负类的样本数量,FP为将负类预测为正类的样本数量,FN为将正类预测为负类的样本数量.

SNN-ADR:针对地址位移表示得到的输入脉冲序列,在SNN-ADR网络结构下,采用SRM和Loihi神经元模型分别进行实验. 对不同长度的PSP核(PSP kernel)进行测试,分析其对滑动检测任务结果的影响.

为了与SNN模型对比,设计ANN模型,从GelStereo传感器直接获取的标记点位置数据中预测是否发生滑动.

$ {y_i} = {F_{\rm{a}}}({{\hat {\boldsymbol{X}}}_i},{{\hat {\boldsymbol{X}}}_{i - 1}},{{\hat {\boldsymbol{X}}}_{i - 2}}). $

式中: ${\hat {\boldsymbol{X}}_i}$为第 $i$帧标记点的位移, ${F_{\rm{a}}}$为基于ANN模型的滑动检测网络函数.

CNN-LSTM网络:长短时记忆神经网络(long short-term memory,LSTM)已被验证为学习时间序列较有效的方式. 将3帧标记点位移作为模型输入,用2层卷积神经网络(convolutional neural network,CNN)分别提取每一帧标记点位移场的特征. 将特征向量序列输入到含1个中间层的LSTM网络和全连接层中,完成分类任务[40].

CNN网络:考虑到标记点位移数据中包含相邻帧触觉信息的关系,将3帧标记点位移级联作为网络输入,用2层卷积层和1层全连接层完成分类任务.

神经形态芯片通过模拟生物大脑神经元的工作方式,采用处理与存储为一体、大规模细粒度并行的方式,利用异步稀疏的事件形式进行信息处理. 与传统CPU、GPU相比,在能耗和运算效率上具有非常显著的优势. 在多种神经形态芯片中,Loihi最具代表性,具有不同形态的硬件设备,工具链完整,能够很好地满足实验需求. 基于Loihi神经元模型,对SNN-ADR网络模型进行8位有符号整数量化,在Loihi的Nahuku-32设备上完成了网络部署. 该设备提供电路硬件监测,支持软件读取Loihi芯片内部性能监测数据,可以准确地测算能量消耗. 作为对比,将CNN、CNN-LSTM网络部署在嵌入式AI设备NVIDIA Jetson TX2上,使TX2分别工作在最低功耗模式(Q)和高性能模式(N). 由于采用不同架构无法直接对比,仅将DDR和GPU的动态功率之和估算为ANN在TX2上进行网络推理消耗的实际动态功率,动态功率和每个样本推理所需时间的乘积为每个样本推理实际所需的能量消耗. 利用动态功率、推理时间、动态功耗这3个指标,评估网络的硬件部署性能.

3.3. 实验结果及分析

表1给出以ADR脉冲数据为输入的SNN-ADR网络使用SRM和Loihi 2种神经元模型的预测结果. 可以看出,使用SRM神经元模型的网络预测F1分数为95.7%,准确率为94.8%,比Loihi模型高约1%,Loihi的F1分数为94.8%,准确率为93.8%. 这主要是由于Loihi模型引入芯片的物理限制,神经元模型参数(包括突触权重)采用整型数据,与SRM模型使用的浮点型数据相比有一定的精度损失,在一定程度上降低了Loihi模型的表达能力.

表 1   SNN-ADR网络的预测结果

Tab.1  Prediction results of SNN-ADR %

响应模型 A P R F1
SRM 94.8 93.8 97.7 95.7
Loihi 93.8 94.3 95.3 94.8

新窗口打开| 下载CSV


表2所示为CNN-LSTM和CNN 2种人工神经网络的预测结果. 对比表12可以看出,SRM神经元模型下的SNN-ADR网络取得了与ANN相近的结果,说明通过ADR较好地还原了原始触觉信息,在近似的网络结构下,能够实现接近的预测效果.

表 2   人工神经网络的预测结果

Tab.2  Prediction results of ANNs %

网络模型 A P R F1
CNN 97.5 96.5 97.4 96.9
CNN-LSTM 96.3 97.2 93.6 95.4

新窗口打开| 下载CSV


在SRM和Loihi 2种神经元模型中,PSP核反映了输入脉冲对突触的影响,不应期响应反映了神经元自身的不应状态,2部分共同决定神经元内部的膜电位更新,在LIF模型的激发和SNN的推理中起到信息记忆和传输的功能. 在2种模型下,选取2组经典参数设定固定的不应期响应(分别为15时间步和26时间步),通过改变电流衰减常数和电压衰减常数来改变PSP核的长度(用 ${l_{{\text{PSP}}}}$表示),分析PSP核长度对滑动检测任务结果的影响. 分析图8可知,在2种不同的不应期响应下,随着PSP核长度的增加,任务准确率均呈现出先上升后下降的趋势. 选择合适长度的PSP 核,可以更有效地利用触觉脉冲序列中的时序信息,对滑动检测任务的准确率有较明显的影响.

图 8

图 8   准确率随PSP核长度的变化曲线

Fig.8   Accuracy curve with PSP kernel length


在Loihi芯片上进行SNN-ADR模型的实际部署实验. 整个SNN模型实际使用了29个神经元核、1个低功耗x86 CPU核. 如表3所示为实验结果,在Loihi芯片上SNN-ADR模型每个样本的推理时间t约为7.913 ms,每次样本推理所需的动态功耗E仅为0.185 mJ. 图中,Pc为功耗. 实验结果表明,与具有类似结构的CNN网络相比,SNN-ADR模型的推理时间约为TX2最低功耗模式下的1/3,少于TX2高性能模式下的推理时间. 在功耗方面,Loihi芯片上的SNN-ADR模型比高性能模式TX2上的CNN网络节能44倍,比低功耗模式TX2上的CNN网络节能14倍. 实验结果表明,在神经形态硬件上SNN模型的功耗和推理速度优势相当明显.

表 3   不同方法/设备的功耗和推理速度测试结果

Tab.3  Power consumption and inference speed results for different methods/devices

方法 设备 Pc/mW t/ms E/mJ
CNN TX2(Q) 129.50 20.39 2.64
CNN-LSTM TX2(Q) 163.18 37.96 6.19
CNN TX2(N) 957.34 8.44 8.08
CNN-LSTM TX2(N) 963.26 15.28 14.72
SNN-ADR Loihi 23.40 7.913 0.185

新窗口打开| 下载CSV


3.4. AER编码实验及结果分析

实验中AER编码的输入数据量很大,模型训练比较困难,因此缩减了3.1节的数据集进行网络训练和模型验证. 具体方法如下:当使用滑窗生成样本数据时,将滑窗步长调整为3,实验物体和数据集划分保持不变,最终的样本总数量是3.1节所述数据集的1/3.

针对AER编码得到的输入脉冲序列,使用SNN-AER网络结构,在SRM和Loihi 2种神经元模型下进行实验. 如表4所示为以AER编码脉冲数据为输入的SNN-AER网络的预测性能. 可以看出,针对滑动检测任务,采用AER编码方式取得了不错的效果,表明AER编码在该任务中具有可用性. AER编码脉冲的数据规模导致网络输入层需要大量的神经元,很难直接训练和部署到实际硬件中. 该编码方式产生的脉冲较稀疏,给神经元模型的调参带来了较大的难度. SNN-AER网络对AER编码脉冲数据采用降采样的方式,减少了输入数据规模. 降采样会影响触觉信息的空间分辨率和感受野,但在该实验中取得了较好的效果,可能原因是滑动检测是二分类任务,对降采样不敏感. 在后续研究中,针对复杂类脑触觉感知任务,例如材料属性感知与理解,进一步分析编码方式对触觉感知特征提取的影响.

表 4   SNN-AER网络的预测结果

Tab.4  Prediction results of SNN-AER %

响应模型 A P R F1
SRM 97.42 98.43 97.03 97.72
Loihi 93.80 98.19 90.85 94.37

新窗口打开| 下载CSV


4. 结 语

本文通过GelStereo触觉感知实验平台采集包含各类接触场景的触觉数据集,选用地址位移表示和地址事件表示2种方式进行脉冲编码. 针对2种编码分别设计脉冲神经网络,针对滑动检测任务开展神经形态触觉感知方法的研究,在英特尔类脑芯片Loihi上进行实验部署. 通过实验取得与人工神经网络可比拟的预测准确率和更短的推理时间,在能效上具有显著优势. 在后续工作中,将更深入地研究脉冲编码方式及脉冲神经网络拓扑结构对触觉信息提取和触觉感知的影响,并将其应用到更多的机器人触觉感知任务中.

参考文献

DAYAN P, ABBOTT L F. Theoretical neuroscience: computational and mathematical modeling of neural systems [M]. Cambridge: MIT Press, 2005.

[本文引用: 4]

BOOTH V, BOSE A

Neural mechanisms for generating rate and temporal codes in model CA3 pyramidal cells

[J]. Journal of Neurophysiology, 2001, 85 (6): 2432- 2445

DOI:10.1152/jn.2001.85.6.2432     

SEVERSON K S, XU D, VAN DE LOO M, et al

Active touch and self-motion encoding by merkel cell-associated afferents

[J]. Neuron, 2017, 94 (3): 666- 676

DOI:10.1016/j.neuron.2017.03.045     

DAVIES M, SRINIVASA N, LIN T H, et al

Loihi: a neuromorphic manycore processor with on-chip learning

[J]. IEEE Micro, 2018, 38 (1): 82- 99

DOI:10.1109/MM.2018.112130359     

吴朝晖

类脑研究: 为人类构建超级大脑

[J]. 浙江大学学报: 工学版, 2020, 54 (3): 425- 426

[本文引用: 1]

WU Zhao-hui

Cybrain: building superbrain for humans

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (3): 425- 426

[本文引用: 1]

CUI S, WEI J, LI X, et al

Generalized visual-tactile transformer network for slip detection

[J]. IFAC-PapersOnLine, 2020, 53 (2): 9529- 9534

DOI:10.1016/j.ifacol.2020.12.2430      [本文引用: 1]

JAMES J W, PESTELL N, LEPORA N F

Slip detection with a biomimetic tactile sensor

[J]. IEEE Robotics and Automation Letters, 2018, 3 (4): 3340- 3346

DOI:10.1109/LRA.2018.2852797     

ZHANG Y, KAN Z, TSE Y A, et al. FingerVision tactile sensor design and slip detection using convolutional LSTM network [EB/OL]. [2022-10-13]. https://arxiv.org/abs/1810.02653.

[本文引用: 2]

WARD-CHERRIER B, ROJAS N, LEPORA N F

Model-free precise in-hand manipulation with a 3D-printed tactile gripper

[J]. IEEE Robotics and Automation Letters, 2017, 2 (4): 2056- 2063

DOI:10.1109/LRA.2017.2719761      [本文引用: 1]

LUO S, BIMBO J, DAHIYA R, et al

Robotic tactile perception of object properties: a review

[J]. Mechatronics, 2017, 48: 54- 67

DOI:10.1016/j.mechatronics.2017.11.002      [本文引用: 1]

CHI C, SUN X, XUE N, et al

Recent progress in technologies for tactile sensors

[J]. Sensors, 2018, 18 (4): 948

DOI:10.3390/s18040948      [本文引用: 1]

YUAN W, DONG S, ADELSON E H

Gelsight: high-resolution robot tactile sensors for estimating geometry and force

[J]. Sensors, 2017, 17 (12): 2762

DOI:10.3390/s17122762      [本文引用: 1]

DONLON E, DONG S, LIU M, et al. GelSlim: a high-resolution, compact, robust, and calibrated tactile-sensing finger [C]// 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid: IEEE, 2018: 1927-1934.

[本文引用: 1]

MA D, DONLON E, DONG S, et al. Dense tactile force estimation using GelSlim and inverse FEM [C]// 2019 International Conference on Robotics and Automation. Montreal: IEEE, 2019: 5418-5424.

TAYLOR I H, DONG S, RODRIGUEZ A. GelSlim 3.0: high-resolution measurement of shape, force and slip in a compact tactile-sensing finger [C]// 2022 International Conference on Robotics and Automation. Philadelphia: IEEE, 2022: 10781-10787.

[本文引用: 1]

LEPORA N F

Soft biomimetic optical tactile sensing with the TacTip: a review

[J]. IEEE Sensors Journal, 2021, 21 (19): 21131- 21143

DOI:10.1109/JSEN.2021.3100645      [本文引用: 1]

YAMAGUCHI A, ATKESON C G. Implementing tactile behaviors using FingerVision [C]// 2017 IEEE-RAS 17th International Conference on Humanoid Robotics. Birmingham: IEEE, 2017: 241-248.

[本文引用: 1]

CUI S, WANG R, HU J, et al

In-hand object localization using a novel high-resolution visuotactile sensor

[J]. IEEE Transactions on Industrial Electronics, 2021, 69 (6): 6015- 6025

[本文引用: 2]

CUI S, WANG R, HU J, et al

Self-supervised contact geometry learning by GelStereo visuotactile sensing

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 71: 1- 9

[本文引用: 2]

ABAD A C, RANASINGHE A

Visuotactile sensors with emphasis on gelsight sensor: a review

[J]. IEEE Sensors Journal, 2020, 20 (14): 7628- 7638

DOI:10.1109/JSEN.2020.2979662      [本文引用: 1]

LEE W W, TAN Y J, YAO H, et al

A neuro-inspired artificial peripheral nervous system for scalable electronic skins

[J]. Science Robotics, 2019, 4 (32): eaax2198

DOI:10.1126/scirobotics.aax2198      [本文引用: 2]

WARD-CHERRIER B, PESTELL N, LEPORA N F. Neurotac: a neuromorphic optical tactile sensor applied to texture recognition [C]// 2020 IEEE International Conference on Robotics and Automation. Paris: IEEE, 2020: 2654-2660.

[本文引用: 1]

KUMAGAI K, SHIMONOMURA K. Event-based tactile image sensor for detecting spatio-temporal fast phenomena in contacts [C]// 2019 IEEE World Haptics Conference. Tokyo: IEEE, 2019: 343-348.

[本文引用: 1]

RUECKAUER B, LUNGU I A, HU Y, et al

Conversion of continuous-valued deep networks to efficient event-driven networks for image classification

[J]. Frontiers in Neuroscience, 2017, 11: 682

DOI:10.3389/fnins.2017.00682      [本文引用: 1]

SENGUPTA A, YE Y, WANG R, et al

Going deeper in spiking neural networks: VGG and residual architectures

[J]. Frontiers in Neuroscience, 2019, 13: 95

DOI:10.3389/fnins.2019.00095      [本文引用: 1]

NEFTCI E O, MOSTAFA H, ZENKE F

Surrogate gradient learning in spiking neural networks: bringing the power of gradient-based optimization to spiking neural networks

[J]. IEEE Signal Processing Magazine, 2019, 36 (6): 51- 63

DOI:10.1109/MSP.2019.2931595      [本文引用: 1]

SHRESTHA S B, ORCHARD G. Slayer: spike layer error reassignment in time [EB/OL]. [2022-10-13]. https://proceedings.neurips.cc/paper/2018/hash/82f2b308c3b01637c607ce05f52a2fed-Abstract.html.

[本文引用: 2]

SEE H H, LIM B, LI S, et al. ST-MNIST: the spiking tactile MNIST neuromorphic dataset [EB/OL]. [2022-10-13]. https://arxiv.org/abs/2005.04319.

[本文引用: 1]

TAUNYAZOV T, SNG W, SEE H H, et al. Event-driven visual-tactile sensing and learning for robots [EB/OL]. [2022-10-13]. https://arxiv.org/abs/2009.07083.

[本文引用: 1]

GU F, SNG W, TAUNYAZOV T, et al. Tactilesgnet: a spiking graph neural network for event-based tactile object recognition [C]// 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas: IEEE, 2020: 9876-9882.

[本文引用: 1]

BARTOLOZZI C, ROS P M, DIOTALEVI F, et al. Event-driven encoding of off-the-shelf tactile sensors for compression and latency optimisation for robotic skin [C]// 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver: IEEE, 2017: 166-173.

[本文引用: 1]

YI Z, ZHANG Y, PETERS J

Biomimetic tactile sensors and signal processing with spike trains: a review

[J]. Sensors and Actuators A: Physical, 2018, 269: 41- 52

DOI:10.1016/j.sna.2017.09.035     

YI Z, XU T, GUO S, et al

Tactile surface roughness categorization with multineuron spike train distance

[J]. IEEE Transactions on Automation Science and Engineering, 2020, 18 (4): 1835- 1845

[本文引用: 1]

DABBOUS A, MASTELLA M, NATARAJAN A, et al. Artificial bio-inspired tactile receptive fields for edge orientation classification [C]// 2021 IEEE International Symposium on Circuits and Systems. Daegu: IEEE, 2021: 1-5.

[本文引用: 1]

TAUNYAZOV T, CHUA Y, GAO R, et al. Fast texture classification using tactile neural coding and spiking neural network [C]// 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas: IEEE, 2020: 9890-9895.

[本文引用: 1]

LI J, DONG S, ADELSON E. Slip detection with combined tactile and visual information [C]// 2018 IEEE International Conference on Robotics and Automation. Brisbane: IEEE, 2018: 7772-7777.

[本文引用: 1]

ZHANG Y, YUAN W, KAN Z, et al. Towards learning to detect and predict contact events on vision-based tactile sensors [C]// Conference on Robot Learning. [S.l.]: MIT, 2020: 1395-1404.

[本文引用: 1]

BOAHEN K A

Point-to-point connectivity between neuromorphic chips using address events

[J]. IEEE Transactions on Circuits and Systems II: Analog and Digital Signal Processing, 2000, 47 (5): 416- 434

DOI:10.1109/82.842110      [本文引用: 1]

GERSTNER W

Time structure of the activity in neural network models

[J]. Physical Review E, 1995, 51 (1): 738

DOI:10.1103/PhysRevE.51.738      [本文引用: 1]

崔少伟, 魏俊杭, 王睿, 等

基于视触融合的机器人抓取滑动检测

[J]. 华中科技大学学报: 自然科学版, 2020, 48 (1): 98- 102

[本文引用: 1]

CUI Shao-wei, WEI Jun-hang, WANG Rui, et al

Robotic grasp slip detection based on visual-tactile fusion

[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2020, 48 (1): 98- 102

[本文引用: 1]

/