<img src="https://www.zjujournals.com/gcsjxb/images/1006-754X/images/logo.png" class="img-responsive">

图1 PTGNet结构

Fig.1 PTGNet structure

1）采用级联的编码器-解码器结构。编码器可利用自注意力机制强大的特征提取能力来获取有效的特征信息，并通过解码器推理出像素级的抓取位姿。

2）为了满足实际应用场景中的需求，采用具有金字塔池化（Pyramid Pooling）结构和多头自注意力（multi-head self-attention, MHSA）机制的Transformer模块。MHSA机制具有高度并行计算能力，与金字塔池化技术相结合能够大幅度地提高计算速度，满足实时性要求。

3）利用金字塔池化注意力层对局部和全局信息进行建模，以更好地捕捉全局上下文信息。此外，利用金字塔池化结构还能获取多尺度特征，增加了特征的丰富性和多样性，从而提高了抓取检测的准确性。

1.2　抓取表示

在机器人抓取检测任务中，除了要检测物体的抓取位置外，还要确定机器人夹持器的抓取姿势，故需要一种能够同时表示抓取位置、旋转角度和开口尺寸等信息的方法来表示机器人的抓取位姿。本文采用文献[22]中的五维抓取表示方法，即利用1个五维元组来表示抓取信息g：

g = (x, y, w, h, θ)

(1)

式中：x、y表示抓取矩形中心点的横、纵坐标，即夹持器位置；θ表示抓取矩形相对于图像水平方向的旋转角度（取逆时针方向为正方向），即夹持器的方向角；w表示抓取矩形的宽度，即夹持器的开口距离；h表示抓取矩形的高度，即夹持器的长度。

对于尺寸已知的夹持器，其抓取信息可简化为 $g = (x, y, w, θ)$ 。为了便于抓取，按照文献[13]，本文将二维图像空间中的抓取信息G表示为：

G = (Q, A, W) \in R^{3 \times W_{1} \times H_{1}}

(2)

式中：Q表示图像中所有像素的抓取质量的集合，抓取质量的取值为0~1之间的分数；A、W分别表示所有像素的抓取角度和抓取宽度的集合；W₁、H₁分别表示输入图像的宽度和高度。

1.3　编码器

在将多通道图像输入编码器之前，通过补丁分区层（Patch Partition Layer）将其分割成大小固定且不重叠的补丁（Patch）。具体地，对于一张高度为H₁、宽度为W₁、通道数为C的图像，其可被分割成大小为p×p×C的补丁，其中p为正整数，则整张图像被分成了N（N=H₁W₁/p²）个补丁。每个补丁均为p×p×C的三维矩阵，经展平拉直后可展开成含p×p×C个元素的一维向量。随后，该一维向量被送入编码器中由1个线性投影层和1个可学习的位置编码组成的补丁嵌入（Patch Embedding）模块，从而将特征维度从p×p×C扩展为C₁，最后输入Transformer层进行处理。

编码器由相同的Transformer层堆叠而成，每2个Transformer层之间有1个补丁嵌入模块。每个补丁嵌入模块包含1个补丁组连接操作，用于降低特征图的分辨率。Transformer层的基本组件为MHSA模块。本文将金字塔池化的思想应用到MHSA中，以降低MHSA的计算复杂度，并捕获丰富的全局上下文信息。金字塔池化的Transformer层的结构如图2(a)所示，主要包含MLP（multi-layer perception，多层感知）模块、LayerNorm（层归一化）模块和P-MHSA（金字塔池化多头自注意力）模块。

图2

图2 金字塔池化的Transformer层结构

Fig.2 Transformer layer structure with pyramid pooling

根据图2(a)，Transformer层的计算过程如下：

\{\begin{array}{l} X_{a t t} = L a y e r N o r m (X + P - M H S A (X)) \\ X_{o u t} = L a y e r N o r m (X_{a t t} + M L P (X_{a t t})) \end{array}

(3)

式中： X 、 X_att、 X_out分别表示P-MHSA模块的输入、输出和Transformer层的输出。

P-MHSA模块的结构如图2(b)所示。首先，将输入 X 重塑成二维空间，并将具有不同比例的多个平均池化层应用于 X，以生成金字塔池化特征图。定义如下：

\{\begin{array}{l} P_{1} = A v g P o o l_{1} (X) \\ P_{2} = A v g P o o l_{2} (X) \\ ⋮ \\ P_{n} = A v g P o o l_{n} (X) \end{array}

(4)

式中： $P_{1}$ 、 $P_{2}$ 、…、 $P_{n}$ 分别表示金字塔池化特征图，n表示池化层数目。

然后，将得到的金字塔池化特征图输入到深度卷积中，以进行相对位置编码：

P_{i}^{p o s} = D W C o n v (P_{i}) + P_{i}, i = 1, 2, \dots, n

(5)

式中：DWConv表示卷积核大小为3×3的深度卷积， $P_{i}^{p o s}$ 表示带有相对位置编码的金字塔池化特征图。

接着，将所有金字塔池化特征图展平并连接为序列 P，若池化比足够大，则所得序列 P 的长度比输入 X 的短。鉴于 P 包含了对输入 X 进行抽象处理后的所有上下文信息，可用其代替 X 来计算自注意力。 P 可表示为：

P = L a y e r N o r m (C o n c a t (P_{1}^{p o s}, P_{2}^{p o s}, \dots, P_{n}^{p o s}))

(6)

最后，P-MHSA模块通过线性变换将原始输入特征映射到查询向量 Q_t、键向量 K_t和值向量 V_t，以便开展后续的自注意力计算。上述向量的定义如下：

Q_{t} = X W_{Q}, K_{t} = P W_{K}, V_{t} = P W_{V}

(7)

M = S o f t m a x (\frac{Q_{t} \times {K_{t}}^{T}}{\sqrt[]{d_{K}}}) \times V_{t}

(8)

式中： W_Q、W_K、W_V 分别表示用于生成 Q_t、 K_t和 V_t的权重矩阵， M 表示自注意力分数，d_K 表示 K_t的通道维度。

由于 K_t和 V_t的长度比 X 小，P-MHSA模块相对于传统的MHSA模块拥有更加高效的计算速度。此外，金字塔池化层将不同空间尺度的特征进行聚合，因此 K_t和 V_t包含了高度抽象的多尺度信息，使得P-MHSA模块具有更强的全局上下文信息建模能力。

1.4　解码器

解码器的功能是将从编码器中获取的特征图转化为机器人夹持器的抓取位姿。同样的，解码器也是由相同的Transformer层堆叠而成的，在每2个Transformer层之间都有1个补丁扩张（Patch Enlarging）模块，以增大特征图的分辨率，并在将特征图输入线性投射层之前，将特征图的分辨率扩大到与网络输入的RGB-D图像相同。Transformer层能够在更高抽象层次上理解图像，并通过学习感兴趣区域的特征来生成抓取热图，共生成3张与输入图像大小相同的抓取热图：抓取质量热图（Quality）、抓取角度热图（Angle）和抓取宽度热图（Width）。其中，抓取质量集合Q中的像素范围为0~1，抓取宽度集合W中的像素值属于[0, 100]，抓取角度集合A中的像素值属于［-π/2, π/2］。为了使每个像素的抓取角度θ在该区间内一一映射，将θ解码成sin 2θ和cos 2θ两个分量，则最终的抓取角度 $θ = 0.5 a r c t a n (s i n 2 θ / c o s 2 θ)$ 。本文将抓取位姿像素级预测作为回归问题，并通过最小化预测抓取信息G与真实抓取信息 $\hat{G}$ 之间的距离来学习映射 $F : X' \to \hat{G}$ ，其中X ′为输入数据。定义损失函数如下：

L (G, \hat{G}) = \frac{1}{m} \sum_{j = 1}^{m} z_{k, j}

(9)

其中：

z_{k, j} = \{\begin{array}{l} 0.5 {(k - \hat{k})}^{2}, |k - \hat{k}| < 1 \\ |k - \hat{k}| - 0.5, 其他 \end{array}

(10)

式中：k表示预测值， $\hat{k}$ 表示真实值， $k \in {Q, W, A}$ ；m表示训练样本数。

最终的抓取位置通过检索抓取质量热图中最高置信度对应的位置来确定，随后从抓取角度热图和抓取宽度热图中提取相应位置对应的预测抓取角度和抓取宽度，定义为：

S = a r g m a x_{p o s} Q

(11)

使用像素级抓取表示可以快速地获取抓取位姿，同时能够更好地处理物体表面的形状和纹理等细节信息。相较于其他的抓取表示方法，像素级抓取表示能够在一次前向传播中获取全局视觉场景中最佳的抓取位姿，且无需生成多个抓取候选对象，从而避免了因生成候选对象过多而导致计算量过大的问题，这意味着能够有效地处理大规模数据集，从而提高抓取成功率。

2 实验验证

2.1　评价指标

为了统一对比不同抓取检测模型的性能，采用Jiang等^[22]提出的矩形度量来评估模型预测的抓取矩形的质量。根据矩形度量，当抓取预测满足以下条件时，认为抓取预测是正确的：

1）预测的抓取角度与真实的抓取角度之间的差异在30°以内。

2）预测的抓取矩形与真实的抓取矩形之间的Jaccard指数大于0.25。Jaccard指数的定义如下：

|\frac{g_{p} ⋂ g_{t}}{g_{p} ⋃ g_{t}}| > 0.25

(12)

式中：g_p表示预测的抓取矩形，g_t表示真实的抓取矩形。

2.2　实施方案

本文提出的PTGNet采用PyTorch 1.7深度学习框架和CUDA 11.0，在具有12 GB显存的NVIDIA Geforce RTX 3060 GPU上进行训练。同时，使用Adam作为优化器，初始学习速率设为0.001，批处理大小设为16。在训练过程中，将90%的数据集作为训练集，剩下的10%作为测试集。在PTGNet中，编码器和解码器均包含4个Transformer层，每层的注意力头数量分别为1，2，4，8；P-MHSA模块中并行池化操作的数量设为4。此外，PTGNet使用不同的池化比来构建不同阶段的Transformer层：第1阶段，池化比为12，16，20，24；第2阶段，池化比为6，8，10，12；第3阶段，池化比为3，4，5，6；最后阶段，池化比为1，2，3，4。

2.3　单对象抓取检测

本文采用2种典型的单对象抓取数据集来评估PTGNet的性能，即Cornell数据集^[11]和Jacquard数据集^[23]。

1）Cornell数据集。Cornell数据集包含244个不同对象在不同位姿下的885张RGB图像及对应的D图像，每个对象均标注多个抓取矩形。由于Cornell数据集相对较小，为了避免过拟合，采用数据增强方式，如随机剪切、翻转和随机亮度等，以增加图像数量。

2）Jacquard数据集。Jacquard数据集是一个由CAD（computer aided design，计算机辅助设计）模型组成的模拟抓取数据集，包含约11 000个对象在不同场景下的54 000张RGB-D图像，且每张图像均标记了真实的抓取矩形，共标注了约110万个抓取矩形。由于Jacquard数据集的规模足够大，无需进行数据扩充来避免过拟合问题。

为了与相关文献的结果进行比较，采用图像分割和对象分割方式对Cornell数据集进行划分。

1）图像分割。将Cornell数据集中所有的图像随机划分为训练集和测试集。因此，在测试过程中可能会出现与训练集中相同的物体，但该物体的放置姿势与训练集中不同，可用于测试模型对新位姿的检测性能。

2）对象分割。将Cornell数据集中所有的图像按物体类别进行划分。因此，在测试过程中不会出现与训练集中相同的物体，可用于测试模型对新物体的泛化能力。

由于Cornell数据集相对较小，本文采用五倍交叉验证，同时考虑输入模式和时间，以确保与其他抓取检测模型进行准确率对比时更加公平和全面。不同抓取检测模型在Cornell数据集上的准确率如表1所示。由表1可知，当PTGNet只以D图像作为输入时，其准确率达到了95.4%，当以RGB-D图像作为输入时，准确率达到了98.2%。不同抓取检测模型在Jacquard数据集上的准确率如表2所示。表2结果同样表明，PTGNet的性能比传统CNN优异，且在以RGB、D和RGB-D三种图像作为输入时表现良好。综上，具有自注意力机制的抓取检测模型更适用于视觉抓取任务，但由于Transformer架构通常具有较多的可学习参数和较高的计算复杂度，需要较多的计算资源来处理大规模参数，因此具有自注意力机制的PTGNet与GR-ConvNet（generative residual convolutional neural network，生成残差卷积神经网络）之间在推理速度上还存在一定的差距。

表1 不同抓取检测模型在Cornell数据集上的准确率比较

Table 1 Comparison of accuracy of different grasping detection models on Cornell dataset

文献	模型^1）	准确率/%		检测用时/ms
文献	模型^1）	图像分割	对象分割	检测用时/ms
文献[22]	Fast Search（RGB-D）	60.5	58.3	5 000
文献[13]	GG-CNN（D）	73.0	69.0	19
文献[11]	SAE（RGB-D）	73.9	75.6	1 350
文献[24]	Two-stage closed-loop（RGB-D）	85.3		140
文献[7]	AlexNet, MultiGrasp（RGB-D）	88.0	87.1	76
文献[25]	STEM-CaRFs（RGB-D）	88.2	87.5
文献[26]	GRPN（RGB）	88.7		200
文献[6]	ResNet-50x2（RGB-D）	89.2	88.9	103
文献[9]	GraspNet（RGB-D）	90.2	90.6	24
文献[27]	ZF-Net（RGB-D）	93.2	89.1
文献[28]	GR-ConvNet（RGB-D）	97.7	96.6	20
本文	PTGNet（D）	95.4	95.0	40.4
	PTGNet（RGB）	96.8	95.2	40.7
	PTGNet（RGB-D）	98.2	96.9	41.1

1）模型名称后括号中表示输入图像的类型。

表2 不同抓取检测模型在Jacquard数据集上的准确率比较

Table 2 Comparison of accuracy of different grasping detection models on Jacquard dataset

文献	模型^1）	准确率/%	检测用时/ms
文献[23]	Jacquard（RGB-D）	74.2
文献[13]	GG-CNN2（D）	84.0	20
文献[29]	FCGN, ResNet-101（RGB）	91.8	117
文献[30]	Det Seg Refine（RGB）	92.95	32.3
文献[8]	ROI-GD（RGB）	93.6
文献[28]	GR-ConvNet（RGB-D）	94.6	20
本文	PTGNet（D）	93.3	41.5
	PTGNet（RGB）	93.7	41.9
	PTGNet（RGB-D）	94.8	42.5

1）模型名称后括号中表示输入图像的类型。

为了更加直观地了解PTGNet的性能，对PTGNet在Cornell数据集和Jacquard数据集上的部分检测结果进行了可视化处理，分别如图3和图4所示，从上至下分别为抓取图像（Grasp）、抓取质量热图（Quality）、抓取角度热图（Angle）和抓取宽度热图（Width）。

图3

图3 PTGNet在Cornell数据集上的部分检测结果

Fig.3 Partial detection results of PTGNet on Cornell dataset

图4

图4 PTGNet在Jacquard数据集上的部分检测结果

Fig.4 Partial detection results of PTGNet on Jacquard dataset

2.4　多对象抓取检测

考虑到机器人在实际应用中需要在复杂的多目标环境下执行抓取任务，本文采用杂乱场景下的多目标数据集来测试PTGNet的性能，并与GG-CNN和GR-ConvNet进行比较。

首先，利用文献[31]中的多对象（multi-object）数据集对PTGNet的性能进行测试，并与GG-CNN和GR-ConvNet的检测结果进行对比。多对象数据集是按照Cornell数据集的方式进行收集的，共包含97张RGB-D图像，每张图像中至少包含3个不同的物体。上述3种抓取检测模型在多对象数据集上的部分检测结果如图5所示。

图5

图5 不同抓取检测模型在多对象数据集上的部分检测结果

Fig.5 Partial detection results of different grasping detection models on multi-object dataset

为了进一步测试PTGNet的性能，利用文献[32]中的杂乱（clutter）数据集进行分析。该数据集包含505张RGB-D图像，所有对象均随机放置，且每张图像中至少包含1个物体。3种抓取检测模型在杂乱数据集上的部分检测结果如图6所示。不同抓取检测模型在2种多目标数据集上的准确率如表3所示。

图6

图6 不同抓取检测模型在杂乱数据集上的部分检测结果

Fig.6 Partial detection results of different grasping detection models on clutter dataset

表3 不同抓取检测模型在多目标数据集上的准确率比较

Table 3 Comparison of accuracy of different grasping detection models on multi-target dataset

数据集	模型^1）	准确率/%	检测用时/ms
多对象数据集	GG-CNN（RGB-D）	83.6	22
	GR-ConvNet（RGB-D）	94.7	24
	PTGNet（RGB-D）	95.1	47
杂乱数据集	GG-CNN（RGB-D）	82.9	34
	GR-ConvNet（RGB-D）	93.8	35
	PTGNet（RGB-D）	94.3	68

1）模型名称后括号中表示输入图像的类型。

上述检测结果显示，在复杂的多目标任务场景中，GG-CNN和GR-ConvNet存在一定的局限性。这2种模型缺少自注意力机制，感受野和上下文信息感知能力有限，导致难以实现抓取区域的准确检测和聚焦，且无法有效地分割抓取物体和背景，进而造成一些物体无法被准确地检测到。此外，这2种模型也无法准确地检测物体的方向，可能会导致预测抓取矩形的旋转角度、大小与实际物体存在较大偏差，这些因素均会对机器人成功执行抓取任务产生影响。而本文提出的PTGNet基本可以克服以上缺陷。P-MHSA模块中自注意力机制的强大特性使PTGNet具备更强的全局上下文建模能力，可在全局范围内感知目标与环境的关系。与基于卷积组件的抓取检测模型相比，PTGNet不仅能够准确地识别不同物体的形状和大小，而且能准确地分割物体与背景，从而实现准确的抓取定位。此外，PTGNet在面对多目标的复杂环境时表现出更好的鲁棒性。

2.5　仿真实验

为了进一步评估PTGNet和GG-CNN的性能，采用PyBullet模块搭建仿真环境，以开展机械臂抓取实验。仿真环境中包括具有Robotiq 2F-85夹持器的UR5e机械臂和RGB-D相机，分别用于执行抓取任务和感知待抓取模拟对象。待抓取模拟对象是基于OCRTOC（open cloud robot table organization challenge，云端机器人桌面整理挑战赛）^[33]提供的数据创建的。

在每次仿真实验开始前，先为机械臂设置初始位姿，并指示机械臂在抓取物体后将其放到目标位置处。然后，随机选择物体并以任意位姿放置在工作区域内，分别使用PTGNet和GG-CNN对工作区域内物体的抓取位姿进行预测，并选择具有最高抓取质量得分的抓取矩形作为最佳抓取位姿来执行抓取任务，以将物体放到目标位置处。

为了评估PTGNet和GG-CNN在不同场景下的性能和鲁棒性，在单对象和多对象任务场景下开展测试，如图7所示。在单对象任务场景中，随机选择一个物体并将其放在工作区域内，然后机械臂执行抓取和放置任务。在多对象任务场景中，随机选择多个物体并将其随机放置在工作区域内，然后机械臂反复执行抓取和放置任务，直到工作区域内没有物体。在2种任务场景下，机械臂分别基于PTGNet和GG-CNN执行180次抓取，并评估2种抓取检测模型的性能，结果如表4所示。由表4可知，所提出的PTGNet在单对象和多对象任务场景下的性能均显著优于GG-CNN，基于PTGNet的机械臂的抓取成功率分别提高了14.7个和17.2个百分点。

图7

图7 仿真环境下的机械臂抓取实验

Fig.7 Robot arm grasping experiment in simulation environment

表4 仿真环境下机械臂的抓取成功率对比

Table 4 Comparison of grasping success rate of robot arm in simulation environment

任务场景	模型	抓取成功率/%
单对象场景	GG-CNN	83.4
单对象场景	PTGNet	98.1
多对象场景	GG-CNN	79.6
多对象场景	PTGNet	96.8

2.6　现实实验

为了进一步验证PTGNet在实际应用中的准确性和适用性，在真实物理环境下采用Kinova Jaco2轻型机械臂和Inter RealSense D435i相机来开展抓取实验。为了确保对可抓取物体的良好视觉覆盖，将相机安装在机械臂的末端夹持器上，并在每次执行抓取任务前都拍摄工作区域内（640×480）像素的RGB图像和D图像。

为了有效地测试PTGNet的性能，在多目标杂乱场景下开展机械臂抓取实验，如图8所示。在实验中，待抓取的目标对象由不同形状的物体构成，包括盒体和球体等形状规则的物体以及形状不规则的物体，共9种物体。将目标物体随机放置在工作区域内的不同位置和方向上，且物体类型均未知。在每次抓取实验中，PTGNet根据Inter RealSense D435i相机获取的RGB-D图像输出最佳的抓取位姿，随后机械臂根据规划轨迹运动至最佳抓取位姿。若机械臂将物体抓起并放到目标位置处，则视为抓取成功。通过这种实验方式，可客观评估PTGNet在实际应用中对复杂环境和未知物体的适应能力。

图8

图8 真实物理环境下的机械臂抓取实验

Fig.8 Robot arm grasping experiment in real physical environment

在本次实验中，机械臂基于PTGNet共执行180次抓取，记录成功抓取次数并计算抓取成功率，并与其他文献的结果进行对比，结果如表5所示。结果表明，基于PTGNet的机械臂抓取成功率高达93.3%，显著高于其他抓取检测模型。由此说明，基于Transformer的抓取检测模型在实际应用中具有良好的泛化能力和移植性。实验结果进一步验证了本文方法的实用性和有效性。

表5 真实物理环境下机械臂的抓取成功率对比

Table 5 Comparison of grasping success rate of robot arm in real physical environment

文献	抓取成功率/%	检测用时/ms
文献[11]	89.0（89/100）	1 350
文献[31]	89.0（89/100）	120
文献[8]	90.6（29/32）	40
文献[13]	92.0（110/120）	19
文献[28]	93.0（93/100）	20
本文	93.3（168/180）	41.1

3 结论

本文提出了一种基于Transformer的抓取检测模型——PTGNet，该模型采用编码器-解码器结构，充分利用了Transformer强大的全局上下文建模能力，能够获取准确的抓取位姿估计，可有效地提高机器人在复杂环境中执行多物体抓取任务的成功率。

在Cornell和Jacquard数据集上的测试结果表明，PTGNet分别实现了98.2%和94.8%的检测准确率，明显优于其他抓取检测模型。在多目标数据集上的测试结果验证了PTGNet在处理复杂环境下的多目标抓取任务时的有效性。在仿真和真实物理环境下开展的机械臂抓取实验进一步验证了PTGNet在多目标检测和抓取方面的有效性和泛化能力。综上可知，所提出的PTGNet具有可行性和实用性，可为机器人在复杂环境中执行多目标视觉抓取任务提供有力的支持。同时，本文结果也为Transformer模块在其他视觉任务中的应用提供了参考。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

BICCHI

， KUMAR

Robotic grasping and contact： a review

［C］//IEEE International Conference on Robotics and Automation. San Francisco， CA， Apr. 24-28， 2000.

[2]

BUCHHOLZ

， FUTTERLIEB

， WINKELBACH

， et al.

Efficient bin-picking and grasp planning based on depth data

［C］//2013 IEEE International Conference on Robotics and Automation. Karlsruhe， May 6-10， 2013.

DOI:10.3785/j.issn.1006-754X.2022.00.046 [本文引用: 1]

[3]

卢进南，刘扬，王连捷，等.

基于改进Mask Scoring R-CNN的铲齿磨损检测研究

［J］.工程设计学报，2022，29（3）：309-317. doi：10.3785/j.issn.1006-754X.2022.00.046

J N

， LIU

， WANG

L J

， et al.

Research on shovel tooth wear detection based on improved Mask Scoring R-CNN

［J］. Chinese Journal of Engineering Design， 2022， 29（3）： 309-317.

DOI:10.3785/j.issn.1006-754X.2022.00.046 [本文引用: 1]

[4]

李明，鹿朋，朱龙，等.

基于RGB-D融合的密集遮挡抓取检测

［J］.控制与决策，2023，38（10）：2867-2874.

， LU

， ZHU

， et al.

Densely occluded grasping objects detection based on RGB-D fusion

［J］. Control and Decision， 2023， 38（10）： 2867-2874.

[5]

楚红雨，冷齐齐，张晓强，等.

融入注意力机制的多模特征机械臂抓取位姿检测

［J］.控制与决策，2024，39（3）：777-785.

CHU

H Y

， LENG

Q Q

， ZHANG

X Q

， et al.

Multi-modal feature robotic arm grasping pose detection with attention mechanism

［J］. Control and Decision， 2024， 39（3）： 777-785.

[6]

KUMRA

， KANAN

Robotic grasp detection using deep convolutional neural networks

［C］//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. Vancouver， Sep. 24-28， 2017.

[7]

REDMON

， ANGELOVA

Real-time grasp detection using convolutional neural networks

［C］//2015 IEEE International Conference on Robotics and Automation （ICRA）. Seattle， WA， May 26-30， 2015.

[8]

ZHANG

， LAN

， BAI

， et al.

ROI-based robotic grasp detection for object overlapping scenes

［C］//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. Macau， Nov. 3-8， 2019.

[9]

ASIF

， TANG

J B

， HARRER

GraspNet： an efficient convolutional neural network for real-time grasp detection for low-powered devices

［C］//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm， Jul. 13-19， 2018.

[10]

ZHU

， SUN

， FAN

， et al.

6-DOF contrastive grasp proposal network

［C］//2021 IEEE International Conference on Robotics and Automation （ICRA）. Xi'an， May 30-Jun. 5， 2021.

[11]

LENZ

， LEE

， SAXENA

Deep learning for detecting robotic grasps

［J］. The International Journal of Robotics Research， 2015， 34（4/5）： 705-724.

[本文引用: 4]

[12]

PARK

， SEO

， SHIN

， et al.

A single multi-task deep neural network with post-processing for object detection with reasoning and robotic grasp detection

［C］//2020 IEEE International Conference on Robotics and Automation（ICRA）. Paris， May 31-Aug. 31， 2020.

[13]

MORRISON

， CORKE

， LEITNER

Learning robust， real-time， reactive robotic grasping

［J］. The International Journal of Robotics Research， 2020， 39（2/3）： 183-201.

[本文引用: 5]

[14]

VASWANI

， SHAZEER

， PARMAR

， et al.

Attention is all you need

［J］. Advances in Neural Information Processing Systems， 2017， 30： 1-15.

[15]

DOSOVITSKIY

， BEYER

， KOLESNIKOV

， et al.

An image is worth 16 $\times$ 16 words： Transformers for image recognition at scale

［C］//International Conference on Learning Representations. Online， May 3-7， 2021.

[16]

ZHANG

， ZHANG

， ZHAO

， et al.

Nested hierarchical Transformer： towards accurate， data-efficient and interpretable visual understanding

［J］. Proceedings of the AAAI Conference on Artificial Intelligence. ［S.l.］： AAAI， 2022： 3417-3425.

[17]

LIU

， LIN

， CAO

， et al.

Swin Transformer： hierarchical vision Transformer using shifted windows

［C］//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal， QC， Oct. 10-17， 2021.

[18]

WANG

， XIE

， LI

， et al.

Pyramid vision Transformer： a versatile backbone for dense prediction without convolutions

［C］//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal， QC， Oct. 10-17， 2021.

[19]

Y H

， LIU

， ZHAN

， et al.

P2T： pyramid pooling Transformer for scene understanding

［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2022， 2022（8）： 1-12.

[20]

， YU

， ZHOU

， et al.

Inception Transformer

［J］. Advances in Neural Information Processing Systems， 2022， 35： 23495-23509.

[21]

YUAN

， HOU

， JIANG

， et al.

Volo： vision outlooker for visual recognition

［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2022， 45（5）： 6575-6586.

[22]

JIANG

， MOSESON

， SAXENA

Efficient grasping from RGBD images： learning using a new rectangle representation

［C］//2011 IEEE International Conference on Robotics and Automation. Shanghai， May 9-13， 2011.

[本文引用: 3]

[23]

DEPIERRE

， DELLANDRÉA

， CHEN

Jacquard： a large scale dataset for robotic grasp detection

［C］//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. Madrid， Oct. 1-5， 2018.

[24]

WANG

， LI

， WANG

， et al.

Robot grasp detection using multimodal deep convolutional neural networks

［J］. Advances in Mechanical Engineering， 2016， 8（9）： 1-12.

[25]

ASIF

， BENNAMOUN

， SOHEL

F A

RGB-D object recognition and grasp detection using hierarchical cascaded forests

［J］. IEEE Transactions on Robotics， 2017， 33（3）： 547-564.

[26]

KARAOGUZ

， JENSFELT

Object detection approach for robot grasp detection

［C］//2019 International Conference on Robotics and Automation （ICRA）. Montreal， QC， May 20-24， 2019.

[27]

GUO

， SUN

， LIU

， et al.

A hybrid deep architecture for robotic grasp detection

［C］//2017 IEEE International Conference on Robotics and Automation （ICRA）. Singapore， May 29-Jun. 2， 2017.

[28]

KUMRA

， JOSHI

， SAHIN

Antipodal robotic grasping using generative residual convolutional neural network

［C］//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. Las Vegas， NV， Oct. 25-29， 2020.

[本文引用: 3]

[29]

ZHOU

， LAN

， ZHANG

， et al.

Fully convolutional grasp detection network with oriented anchor box

［C］//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. Madrid， Oct. 1-5， 2018.

[30]

AINETTER

， FRAUNDORFER

End-to-end trainable deep neural network for robotic grasp detection and semantic segmentation from RGB

［C］//2021 IEEE International Conference on Robotics and Automation （ICRA）. Xi'an， May 30-Jun. 5， 2021.

[31]

CHU

F J

， XU

， VELA

P A

Real-world multiobject， multigrasp detection

［J］. IEEE Robotics and Automation Letters， 2018， 3（4）： 3355-3362.

[32]

WANG

， LIU

， CHANG

， et al.

High-performance pixel-level grasp detection based on adaptive grasping and grasp-aware network

［J］. IEEE Transactions on Industrial Electronics， 2021， 69（11）： 11611-11621.

[33]

LIU

， LIU

， QIN

， et al.

Ocrtoc： a cloud-based competition and benchmark for robotic grasping and manipulation

［J］. IEEE Robotics and Automation Letters， 2021， 7（1）： 486-493.