基于改进动态系统稳定估计器的机器人技能学习方法

作者：金聪聪刘安东 LIU Steven 张文安来源：《自动化学报》日期：2022-08-27人气：1425

近年来, 机器人产业高速发展, 整体规模持续增长, 在制造业和服务业等众多领域都有广泛应用. 随着工业产品迭代速度日益增长, 个性化需要与日俱增, 传统依靠手工编程完成特定任务的方法难以适应新的需求. 因此, 迫切需要开发简单实用, 且可以灵活适用于多种任务的机器人技能学习方法.

机器人示教学习(Learning from demonstration, LfD)的灵感最初来源于人类的模仿学习, 近几年获得学术界和工业界的广泛关注[1–4]. 机器人通过观察用户演示来学习新技能, 同时将新技能泛化到不同场景下的相似任务中去, 一般包含演示、学习、复现三个阶段. 演示阶段需要解决的问题是如何向机器人进行技能演示, 常用的方法有视觉示教、动觉示教、遥操作示教和双臂示教. 学习阶段是对技能进行建模, 抽象的技能符号由示教数据具体表示, 然后利用示教数据训练模型参数. 复现阶段的性能主要体现在稳定性、复现精度、泛化能力和抗干扰性能4个方面.

动态系统(Dynamical system, DS)是对机器人技能进行建模的常用方法[5], 该方法将规划和执行集成到一起, 并将所有可能的解决方案嵌入到模型中以实现目标[6]. 在非线性DS基础上发展起来的动态运动原语只要进行一次演示就可以对运动进行建模[7], 动态运动原语描述的运动模型由非线性DS和线性DS组成, 其中非线性部分保证了轨迹复现的相似度, 线性部分则确保了模型全局稳定性, 两者的切换依靠相位变量平稳进行. 尽管动态运动原语提供了一种有效而精确的方法来对复杂的动态进行编码, 但是单变量编码丢失了各自由度之间的相关信息, 而且该方法本质上仍依赖于时间, 在面对时间扰动时需要用启发式方法重置相位变量[8].

为弥补动态运动原语的缺陷, 文献[9]提出了动态系统的稳定估计器(Stable estimator of dynamical systems, SEDS). 它首先利用高斯混合模型(Gaussian mixture models, GMM)和高斯混合回归(Gaussian mixture regression, GMR)的概率学习方法对轨迹进行初步拟合. 概率学习方法是轨迹编码中的常用方法, 它可以保留演示的固有可变性[10], 但是无法确保训练得到的动态系统具有全局稳定性. 因此SEDS在后续优化中加入了稳定性约束, 确保机器人在不受扰动的情况下能够到达目标点. 然而, 过于严格的稳定性约束可能会在学习过程中限制模型的精度. 针对SEDS方法中稳定性和精度难以平衡的问题, 文献[11]利用微分同胚变换改进了SEDS, 称作 $τ$ -SEDS. 该方法在保证系统稳定性的同时, 很大程度上克服了模型的精度问题. 但是增加了模型复杂度, 导致学习更加耗时, 仅限于离线学习. DS方法的快速稳定学习[12]同时考虑了估计DS的稳定性、准确性和学习速度三个因素. DS方法快速稳定学习的快速学习能力在很大程度上方便了它的实际应用, 但在稳定性和准确性方面还不够优越. 文献[13]提出了一种基于流形浸没和淹没的学习方法来解决精度与稳定性的矛盾, 该方法保证了有效提取动力学特征和稳定形式的高精度, 而且能处理交叉运动的情形, 但模型复杂度较高.

SEDS中另一个值得注意的问题是混合高斯分量个数的选取, 但是对于该问题的相关研究较少. 过多或者过少的分量个数选取都会导致模型无法有效提取演示的动力学特征, 因此该问题具有一定的研究价值. 通常用于确定有限混合模型的最佳分量的方法是贝叶斯信息准则[14], 然而这种模型选择方法存在一些明显的缺陷[15], 常常过高估计模型分量的个数, 导致过拟合. 贝叶斯非参数模型是一种定义在无限维参数空间上的贝叶斯模型, 其利用在适当数量的模型分量密度上产生后验分布来调整模型大小, 因此可以根据数据自适应聚类个数, 其中狄利克雷过程混合模型是最常用的贝叶斯非参数模型之一[16-18]. Figureoa等[19]提出了一种物理一致的贝叶斯非参数混合模型, 该方法可以自动估计最佳的混合分量个数, 并且将相似性测度融入先验信息, 提高了复现和泛化的精度. 但是该方法使用吉布斯采样计算模型的后验概率, 计算复杂度较高.

鉴于SEDS存在的上述缺陷, 本文提出了改进的SEDS (Improved SEDS, i-SEDS). 该方法有效地解决了SEDS中稳定性和精度无法兼顾的问题, 并且可以自动确定合适的分量个数. 仿真以及Franka-panda协作机器人的实验结果验证了本文方法的有效性和优越性. 本文的主要贡献有: 1)使用狄利克雷过程高斯混合模型(Dirichlet process GMM, DPGMM)代替GMM拟合演示, 并利用变分推断(Variational inference, VI)训练模型, 该模型可以根据演示数据自动确定合适的混合分量个数. 仿真分析超参数对DPGMM的影响, 为超参数的选择提供了指导意义; 2)采用参数化的李雅普诺夫函数修改了原SEDS中的稳定性约束条件, 从而提高了学习轨迹的精度, 解决了稳定性和精度难以兼顾的问题.

1. 问题描述

将机器人离散运动公式化为由自治动态系统驱动的控制律. 考虑一个状态变量 $ξ \in R^{d}$ , $ξ$ 通常表示笛卡尔空间中末端执行器的坐标. 有时 $ξ$ 也可用于定义机器人系统的广义坐标(例如, 机械手的关节角度或轮式机器人的姿势)

(1)

式中, $f (ξ)$ 是一个非线性连续可微函数, 用于编码特定行为, 例如拾取搬运物品, 伸手拿杯子等. 从初始位置 $ξ_{0}$ 开始, 机器人运动 $ξ_{t}, t \in [0, + \infty)$ 由式(1)积分得到, 运动最后收敛至单一吸引子 $ξ^{*}$ , $f (ξ^{*}) = 0$ . 本文需要估计该吸引子上全局渐近稳定的动态系统 $f (ξ)$ .

通常, 将基于一组M条演示轨迹的数据 ${ξ_{t, m}, {\dot{ξ}}_{t, m}}_{t = 0, m = 1}^{T^{m}, M}$ 对 $f (ξ)$ 进行估计, $T^{m}$ 表示第 $m$ 条演示轨迹的序列长度, 估计得到的DS为 $\hat{f} (ξ)$ . 一般采用回归算法进行估计, 如高斯过程回归[20]、局部加权映射回归算法[21]和混合高斯回归等. 但这些标准的回归技术在训练过程中没有考虑DS的渐近稳定性, $\hat{f} (ξ)$ 很可能是不稳定的或收敛至伪吸引子. 因此SEDS方法将不稳定DS的建模转换为非线性优化问题, 构造了全局稳定的运动估计, 具体流程如图1所示.

图 1 基于SEDS的机器人示教学习流程图

Fig. 1 Flow chart of LfD based on SEDS

SEDS使用GMM-GMR回归方法从演示中估计初始DS. 首先利用具有 $K$ 个分量的GMM估计联合概率分布 $p (ξ, \dot{ξ} | Θ) = \sum_{k = 1}^{K} π_{k} N (ξ, \dot{ξ} | μ_{k}, Σ_{k})$ , 其中 $π_{k}$ 、 $μ_{k}$ 和 $Σ_{k}$ 分别是各高斯分量的权重、均值和协方差, 即 $Θ_{k} = {π_{k}, μ_{k}, Σ_{k}}$ , $Θ = {Θ_{1}, \dots, Θ_{K}}$ , 然后GMR部分根据联合概率分布推导出后验概率 $p (\dot{ξ} | ξ, Θ)$ , 对其取均值得到:

(2)

式中, $A_{k} = Σ_{k}^{\dot{ξ} ξ} {(Σ_{k}^{ξ})}^{- 1},$ $b_{k} = μ_{k}^{\dot{ξ}} - A_{k} μ_{k}^{ξ},$ $h_{k} (ξ) = π_{k} p (ξ | k) / \sum_{i = 1}^{K} π_{i} p (ξ | i)$ . $A_{k} ξ + b_{k}$ 表示第 $k$ 个线性DS, $h_{k} (ξ)$ 是状态相关的非线性系数, $\sum_{k = 1}^{K} h_{k} (ξ) = 1$ , 且 $h_{k} (ξ) > 0$ .

上述方法有足够的灵活性来建模各种运动, 但是无法确保DS的渐近稳定性, 为此, SEDS给出了在保证系统稳定性下的参数学习方法, 即通过最小化带非线性项约束的目标函数来估计参数 $Θ$ .

(3)

式中, $≺ 0$ 表示矩阵的负定, $T = \sum_{m = 1}^{M} T^{m}$ 是全部训练数据的总数量. 目标函数 $J (Θ)$ 的选取有均方误差(Mean square error, MSE)和对数似然(Log likelihood, LL)两种.

(4)

式中, 对数ln也可换成以其他常数为底的对数, 上式的约束是 $\hat{f}$ 全局稳定收敛的充分条件, 这些条件由Lyapunov第二稳定性方法推导得到, 见定理1.

定理1. 如果存在径向无界且满足式(5)的Lyapunov函数 $V (ξ) : R^{d} \mapsto R$ , 则DS在 $ξ^{*}$ 点处全局渐近稳定.

(5)

SEDS方法可以有效地从演示中估计出具有全局渐近稳定性的DS, 是LfD领域中的常用方法, 但是该方法存在两个问题: 1)用于估计初始DS的GMM-GMR方法需要人工指定混合分量个数 $K$ , 当状态 $ξ$ 维度升高或演示轨迹变得复杂时, 通过经验确定超参数 $K$ 将变得很困难; 2)在SEDS中, $V (ξ)$ 是二次李雅普诺夫函数(Quadratic Lyapunov function, QLF), 即 $V (ξ) = (ξ - ξ^{*})^{T} (ξ - ξ^{*})$ . 在几何学上, QLF只允许 $L_{2}$ 范数(即 $‖ ξ - ξ^{*} ‖_{2}$ )距离是单调递减的轨迹[11]. 这导致了SEDS在包含高曲率或非单调(暂时远离吸引子)的高度非线性运动中表现不佳, 不能同时保证稳定性和精度性.

针对问题1), 本文利用贝叶斯非参数模型能根据数据自动确定最佳聚类个数的特性, 采用了DPGMM拟合演示数据, 并推导GMR估计初始DS; 针对问题2), 本文选择参数化QLF (Parametrized QLF, P-QLF)来确保估计DS的稳定性, 即 $V (ξ) = (ξ - ξ^{*})^{T} P (ξ - ξ^{*})$ . 其中 $P$ 的作用是将简单的QLF重塑为 “椭圆” 形式, 放松了约束条件, 从而能够精确复现不收缩(高曲率且朝向目标具有非单调性)的演示轨迹.

2. DPGMM-GMR算法

DPGMM-GMR算法由DPGMM的建模过程、利用变分推断进行模型求解和推导GMR估计初始DS三部分组成.

2.1 狄利克雷过程高斯混合模型

狄利克雷过程(Dirichlet process, DP)一般用 $D P (G_{0}, α)$ 表示, 其中 $G_{0}$ 是连续的基分布, $α$ 是集中参数, 用来控制从DP中抽取的分布的离散化程度[22]. 假设从DP中随机抽取一个样本分布 $G$ , 然后再从 $G$ 中独立地抽取N个随机变量 ${θ_{n}^{*}}_{n = 1}^{N}$ :

(6)

折棍过程(Stick breaking process, SBP)通常用于建模和推断DP[23]. 给定两个无限随机变量 $v = {v_{k}}_{k = 1}^{\infty}$ 和 ${θ_{k}^{*}}_{k = 1}^{\infty}$ , 其中 $v_{k}$ 服从Beta分布, 即 $v_{k} \sim B e t a (1, α)$ , 则SBP可以表示为:

(7)

式中, $π_{k} (v) = v_{k} \prod_{i = 1}^{k - 1} (1 - v_{i})$ , $\sum_{k = 1}^{\infty} π_{k} (v) = 1$ .

通过SBP, 可以将独立于 $G_{0}$ 绘制的原子 $θ_{k}$ 视为混合模型分量的分布参数, 该模型包含无限数量的分量, 并且每个分量的权重为 $π_{k} (v)$ , 从而建立了狄利克雷过程混合模型.

为了便于表述, 将全部演示数据表示为 $X = {ξ_{t}, {\dot{ξ}}_{t}}_{t = 1}^{T}$ , 其中 $x_{t} = {ξ_{t}, {\dot{ξ}}_{t}}$ . 假设每个观测值 $x_{t}$ 都对应一个参数 $θ_{t}^{*}$ , 服从概率密度 $p (x_{t} | θ_{t}^{*})$ . 整个参数集 ${θ_{t}^{*}}_{t = 1}^{T}$ 服从一个共同的DP先验, 由于分布G是离散的, 因此 ${θ_{t}^{*}}_{t = 1}^{T}$ 可以划分到相同簇内, 以 $π_{k} (v)$ 的概率共享相同的 $θ_{k}$ . 然后引入指示变量 $Z = {z_{t}}_{t = 1}^{T}$ , 也称作隐变量. 对于每个观测 $x_{t}$ , 都对应一个指示变量 $z_{t}$ , 用来指示数据 $x_{t}$ 所属分量. 因此狄利克雷过程混合模型满足下式概率分布:

(8)

式中, $C a t (\cdot)$ 表示分类分布.

在狄利克雷过程混合模型的基础上明确定义基分布 $G_{0}$ 为Normal-Wishart分布, 即 $θ_{k} \sim N I W (θ_{0})$ , 就得到了DPGMM, 这意味着每个高斯分量的均值和精度都服从一个独立的Normal-Wishart分布, 根据式(8), DPGMM的公式化表示如下:

(9)

(10)

式中, $μ_{k} 和 Λ_{k}$ 分别表示第 $k$ 个高斯分量的均值和精度, $m_{0} 和 β_{0}$ 分别是 $μ_{k}$ 的高斯先验的均值和方差, $W_{0} 和 ν_{0}$ 分别是 $Λ_{k}$ 的Wishart先验的精度矩阵和自由度.

式(9)是给定的共轭先验分布, 式(10)是模型的似然函数. DPGMM的概率结构如图2所示. 然而在无限维的设定下, 实际中模型不易处理. 因此本文采用一种常见的策略, 即基于DP的截断SBP[24]. 预定义最大的混合分量数 $\hat{K}$ , 并且令 $q (v_{\hat{K}} = 1) = 1$ . 即对于所有 $k > \hat{K}$ , $π_{k} (v)$ 等于零.

图 2 DPGMM概率结构图

Fig. 2 DPGMM probability structure diagram

2.2 变分推断

第2.1节已为所有随机变量明确定义了共轭先验和模型的似然函数, 本节采用变分贝叶斯方法得出参数可靠的后验分布. 将隐变量和未知参数表示为 $Θ = {v, Z, μ, Λ}$ , 超参数表示为 $Ξ = {α, m_{0}, β_{0}, W_{0}, ν_{0}}$ . 由于实际后验 $p (Θ | X, Ξ)$ 难以计算, 因此变分推断方法引入任意分布 $q (Θ)$ 以逼近 $p (Θ | Ξ, X)$ . 在此假设下, 导出模型的对数似然值 $\ln p (X)$ , 即:

(11)

其中

(12)

$K L (q | | p)$ 表示变分后验 $q (Θ)$ 和实际后验 $p (Θ | X, Ξ)$ 之间的KL(Kullback-Leibler)散度, 刻画了两个分布之间的相似程度. 为降低求解难度, 一般采用平均场理论限制概率分布 $q (Θ)$ 的范围, 然后寻找这个类别中使得KL散度最小化的概率分布[25]. 因此需要将 $q (Θ)$ 分解为:

(13)

同时, 考虑DPGMM的共轭先验配置, 根据共轭的定义, 期望后验 $q (Θ)$ 与先验 $p (Θ)$ 具有相同的函数形式[26], 可得:

(14)

指示变量 $z_{t}$ 满足[27]:

(15)

式中, $⟨ \cdot ⟩$ 表示数学期望.

采用变分贝叶斯期望最大化(Expectation maximization, EM)算法. 对该模型参数进行迭代求解. 该算法类似于EM算法, 在E步中, 计算指示变量的期望; 在M步中, 该期望值用于重新计算其他参数的变分分布.

期望通过变分推断得到DPGMM模型参数的后验分布后, 可以得到如下的模型联合概率密度:

(16)

式中, $S t (\cdot)$ 是学生 $t$ 分布, 各分布的权重 $π_{k} (v)$ 按下式计算:

(17)

式中, $⟨ v_{k} ⟩ = 1 / (1 + α)$ .

2.3 GMR估计初始DS

与基于GMM的GMR一样, 先对式(16)的DPGMM中的均值和方差进行划分.

(18)

给定输入位置 $ξ_{t}$ 下输出速度 ${\dot{ξ}}_{t}$ 的条件概率分布为:

(19)

其中

然后将 ${\dot{ξ}}_{t}$ 的条件概率期望作为预测值:

(21)

DPGMM在拟合演示轨迹时, 自动确定最佳分量个数 $K$ , 其余不相关高斯分量权重趋向于0, 因此可以丢弃 $⟨ π_{k} (v) ⟩$ 值过低的高斯分量来简化计算. 同时将式(20a)代入式(21)得到动态系统估计.

(22)

式中, $A_{k} = R_{k}^{\dot{ξ} ξ} (R_{k}^{ξ})^{- 1}$ . $b_{k} = m_{k}^{\dot{ξ}} - A_{k} m_{k}^{ξ}$ , $h_{k} (ξ) =$ $⟨ π_{k} (v) ⟩ .$

3. 基于P-QLF的稳定DS估计

第2节利用DPGMM-GMR从演示中估计初始动态系统 ${\hat{f}}_{0}$ , 同其他的回归算法一样, 训练得到的 ${\hat{f}}_{0}$ 不具有全局稳定性. SEDS方法针对该问题构造了具有稳定性约束的非线性规划问题, 如式(3)所示. 其不等式约束 $A_{k} + (A_{k})^{T} ≺ 0$ 通过QLF推导得到, 作为DS稳定收敛的充分条件, 该约束过于严格, 导致学习的DS为了确保稳定性而使生成的轨迹偏离了演示, 尤其是面对不收缩(高曲率且朝向目标具有非单调性)的演示轨迹. 本节使用P-QLF代替QLF进行稳定性约束的推导, 从而解决SEDS中存在的稳定性和精度无法平衡的问题.

P-QLF通常用于确保线性时不变(Linear time- invariant, LTI)系统的稳定性, 如命题1所述.

命题1. 形式为 $\dot{ξ} = A ξ + b$ 的线性DS在吸引子 $ξ^{*}$ 处全局渐近收敛, 当且仅当:

{A T P + P A ≺ 0, P = P T ≻ 0 b = - A ξ *

(23)

证明. 见文献[19].

命题1易扩展到式(22)表示的线性参数可变系统中, 即 $A_{k}$ 为LTI参数, 混合系数 $h_{k} (ξ)$ 是状态相关的时变参数. 如命题2所述.

命题2. 式(22)中定义的非线性DS在吸引子 $ξ^{*}$ 处全局渐近收敛, 当且仅当

(24)

式中, $P$ 为对称正定矩阵.

证明. 如果存在连续且可微的李雅普诺夫函数 $V (ξ)$ 满足定理1, 即可证明命题2. 通过考虑以下形式的P-QLF候选函数:

(25)

由于其二次形式, 可以确保 $V (ξ) > 0$ , 第2个条件是取 $V (ξ)$ 的时间导数:

(26)

将 $ξ = ξ^{*}$ 代入式(25)和(26), 可以确保 $V (ξ^{*}) = 0$ , $\dot{V} (ξ^{*}) = 0$ . 因此, 如果满足条件(24), 则式(22)相对于吸引子 $ξ^{*}$ 是全局渐近稳定的. □

不难发现式(4)的约束条件是式(24)的一种特殊情况, 即当 $P$ 为单位矩阵时, 式(24)就等同于式(4). SEDS中稳定性和精度的两难问题本质上是因为稳定性约束过于严格, 使得可行的参数空间无法满足精度要求. 而基于P-QLF推导得到的稳定性约束放松了对 $P$ 的限制, 只要满足 $P$ 为对称正定矩阵即可, 从而扩展了原问题的可行域. 解决了SEDS学习不收缩轨迹时精度过低的问题.

4. 实验

仿真实验在人类手写数据库(LASA数据集)和Franka-panda机器人上进行, 实验结果验证了本文提出方法的有效性.

4.1 DPGMM-GMR算法性能分析

尽管利用DPGMM对演示进行拟合可以自动确定合适的聚类个数, 但该方法引入了更多的超参数 $Ξ = {α, m_{0}, β_{0}, W_{0}, ν_{0}}$ . 因此需要研究这些超参数对模型性能的影响, 从而来指导超参数的选择. 训练数据从LASA数据集(该数据集是二维平面手写轨迹数据)中随机选取10组演示. $ξ$ 表示二维笛卡尔位置, 即 $ξ = {ξ_{1}, ξ_{2}}$ , 演示数据集合 $X = {ξ_{t}, {\dot{ξ}}_{t}}_{t = 1}^{T}$ . 通常根据对称性, 超参数 $m_{0}$ 会选择为 $X$ 的均值. 而超参数 $W_{0}$ 是一个 $4 \times 4$ 的矩阵, 难以对所有矩阵元素进行分析, 因此令 $W_{0} = ω \times I$ , 其中 $ω$ 为缩放系数, 是一个正标量. $I$ 是 $4 \times 4$ 的单位矩阵. 只需要对 $α 、 β_{0} 、 ω 、 ν_{0}$ 四个标量超参数进行研究.

对10组演示训练得到10个DPGMM, 用对数似然值给模型打分, 数值越高则说明模型拟合效果越好. 10个模型的对数似然值相对于各个超参数(固定其他超参数只变化一个超参数)的变化趋势如图3所示. 由图3可以看出: 1)模型对于超参数的变化不敏感, 一般 $ν_{0}$ 取数据维数即可, $β_{0} 和 ω$ 取值不宜过大, $α$ 对模型影响最大, 但只有在 $\ln α > 2$ 时似然对数值才发生明显下降; 2)对于任意一个超参数, 10个模型的对数似然值对于该超参数具有相同变化趋势, 这意味着DPGMM超参数具有可复用性, 一组超参数能够适用于相同场景下的不同演示数据集, 例如LASA数据集, 同一个机械臂操作空间下的不同任务演示等. DPGMM超参数的不敏感性和可复用性使其在实际任务中的使用更加便捷.

图 3 DPGMM对数似然值关于超参数的变化趋势

Fig. 3 The change trend of DPGMM log-likelihood value on hyperparameters

接着, 在整个LASA数据集上定量评估基于VI的DPGMM-GMR算法拟合初始DS的效果, 超参数均设置为 $α = β_{0} = ω = 1, ν_{0} = 4$ . 对比算法包括基于贝叶斯信息准则的GMM-GMR (EM算法)、狄利克雷分布GMM-GMR (VI)和DPGMM-GMR, 其中贝叶斯信息准则高斯混合模型最大评估分量设定为15个, 其余方法的截断分量也设置为15. 性能指标采用以下形式均方根误差(Root mean square error, RMSE):

(27)

式中, $M$ 和 $T$ 分别表示一组演示中轨迹的条数和所有的轨迹点个数.

表 1 4种GMR算法在数据库LASA上的性能比较

Table 1 Performance comparison of four GMR algorithmson database LASA

方法	总RMSE	总训练时间 ( $s$ )
BIC-GMM (EM)	269.43	75.26
DdGMM (VI)	206.15	49.39
DPGMM (Gibbs)	118.58	157.48
DPGMM (VI)	130.79	39.79

4.2 i-SEDS学习方法性能分析

本节i-SEDS的性能分析同样在数据集LASA上进行, 如果算法能够使复现的轨迹紧密(准确)地跟随演示轨迹, 则表明该算法可以令人满意地解决稳定性和精度的难题.

由图4可以看出, 所有复现轨迹紧密跟随了演示轨迹, 仿真结果说明了i-SEDS的有效性. 图5给出了SEDS和i-SEDS在部分不收缩轨迹上的复现结果. 可以看出, SEDS生成的轨迹完全偏离了演示, 这是由于遵循QLF稳定性结果导致的. 图5定性地说明了i-SEDS可以较好地解决SEDS稳定性和精度的难题.

图 4 i-SEDS方法在LASA数据集上的复现效果

Fig. 4 The reproductions of i-SEDS method on LASA dataset

图 5 SEDS和i-SEDS在不收缩轨迹上的复现结果

Fig. 5 i-SEDS and SEDS reproductions on the non-contractive demonstrations

为了定量分析该方法的有效性, 使用文献[28]提出的扫描误差区域(Swept error area, SEA). SEA方法计算了演示轨迹和复现轨迹之间的面积, 计算公式如下:

(28)

式中, ${\hat{ξ}}_{t, m}$ 和 $ξ_{t, m}$ 分别表示复现点和演示点. 如图6所示, 函数 $A (\cdot)$ 计算由4个点生成的封闭四边形的面积, 这反映了复现和演示的一致性.

图 6 扫描误差区域(SEA)示意图

Fig. 6 Schematic diagram of Swept error area (SEA)

考虑到原始SEDS中2种不同的目标函数MSE和LL, 以及i-SEDS在学习不收缩演示轨迹时具有明显优势. 因此利用SEA方法定量分析i-SEDS (MSE)、i-SEDS (LL)、SEDS (MSE)、SEDS (LL)四种方法分别在收缩和不收缩演示轨迹上的性能. 从LASA数据集中取收缩轨迹和不收缩轨迹各10组, 分别使用上述4种方法学习稳定DS, 计算相应的SEA, 结果如结果如图7所示. 从图7(a)可以看出, 四种方法的SEA在收缩轨迹上差别并不明显, i-SEDS仅略优于SEDS方法. 但在不收缩轨迹组的图7(b)中, i-SEDS方法的复现精度要明显优于SEDS方法. 基于LL的方法精度要略高于MSE, 但MSE的计算速度更快, 因此, 在实际使用中可以根据需求进行选择.

图 7 4种方法在收缩和不收缩轨迹上的SEA分析

Fig. 7 Performance analysis of four methods on contraction and non-contraction demonstrations with SEA

4.3 机器人实验

为了验证本文方法的有效性, 在7自由度的机械臂Franka-panda机器人上进行了实验验证.

机器人实验是在操作空间中学习物块搬运任务, 如图8所示. 这是一个点到点运动的任务, 机械臂需要学会如何从机械臂初始位置到达物块放置位置, 然后拾取物块将其放入目标容器中, 整个过程由拾取物块−放置物块2部分组成, 并利用Kinect摄像头对物体进行跟踪.

图 8 物品搬运任务示教流程图

Fig. 8 The process of object transport task teaching

1)示教: 首先设置panda机械臂为示教模式, 再由演示人员拖动机械臂完成拾取物块−放置物块2个步骤, 整个示教过程如图8所示. 然后不断调整物块起始位置重复上述示教过程共8次, 同时以10 Hz频率记录机械臂末端位置和速度, 获取8条演示轨迹数据, 记作 ${ξ_{1}, ξ_{2}, ξ_{3}, {\dot{ξ}}_{1}, {\dot{ξ}}_{2}, {\dot{ξ}}_{3}}_{t = 0, m = 1}^{T^{m}, M = 8}$ .

2)学习: 在对演示轨迹建模前, 需要对数据进行一些预处理. a)轨迹平滑: 使用移动均值滤波对采集到的演示数据进行平滑处理. b)任务分割: 为了降低任务的学习成本, 将物品搬运任务分解成拾取物块−放置物块2个子任务. 根据2个子任务切换过程中机械臂末端速度为零这一特点将演示轨迹分成2段, 然后各自进行学习. c)目标位置原点化: 为保证动态系统的参数不会随目标位置的变化而变化, 需要将参考坐标系的原点设在目标位置处. 2个子任务的演示轨迹都转化为以原点为终点的轨迹. 预处理后的演示轨迹如图9所示.

图 9 预处理后的物品搬运任务的演示轨迹

Fig. 9 Preprocessed demonstrations of object transport task

使用 $i$ -SEDS方法对预处理后的演示数据进行建模, 用于2个子任务学习的超参数均设置为 $α = 0 .1, β_{0} = ω = 1, ν_{0} = 6$ .

3)复现. 机械臂从初始位置开始, 通过模型不断迭代得到当前位置下的期望速度 ${{\dot{ξ}}_{1}, {\dot{ξ}}_{2}, {\dot{ξ}}_{3}}_{d e s}$ , 将其作为逆运动学的输入驱动机械臂按照期望轨迹到达目标位置. 记录每次生成的轨迹, 获得的结果如图10所示. 所有复现轨迹都与演示具有相似的位置和速度轮廓, 说明两者均遵循相似的动力学.

图 10 物品搬运任务复现位置和速度轨迹

Fig. 10 Position and velocity trajectories of reproduction in object transport task

a)目标位置的变化. 图11显示了模型对环境变化的鲁棒性, 其中虚线表示原始复现轨迹, 实线表示在 $t = 4 s$ 时对目标位置进行转移后由动态系统重新规划的轨迹, 可以看到该模型可以快速适应目标位置的变化, 重新规划轨迹使机械臂到达目标.

图 11 机械臂运行时改变目标位置后的轨迹变化

Fig. 11 Trajectory changes after moving the target container when the robot arm is running

b)抗扰动能力. 图12显示了模型对外界扰动的鲁棒性, 在 $t = 4 s$ 时, 施加扰动使机械臂脱离原始轨迹, 其中虚线表示原始轨迹, 实线表示机械臂在脱离原始轨迹后模型重新规划的轨迹, 可以看到机械臂在受到外界扰动后仍能平稳到达目标位置, 因此该模型具备一定的抗扰动能力.

图 12 对机械臂施加外界扰动时的轨迹变化

Fig. 12 Trajectory changes when external disturbance is applied to the robot arm

上述机器人实验展示了i-SEDS方法在确保稳定性的前提下, 仍具有良好的复现精度以及泛化能力和抗扰动能力.

5. 结束语

本文分析了SEDS方法中存在的缺陷, 并给出了合理的解决方案. 首先利用DPGMM对演示数据进行拟合, 并使用变分推断求解模型参数, 推导GMR拟合初始DS. 解决了基于EM算法的GMM难以确定混合分量个数的难题. 然后利用P-QLF推导新的宽稳定性约束取代原有约束, 最后结合目标函数优化得到能精确复现的稳定DS. 在LASA数据集中验证了DPGMM超参数的性质和其推导的GMR算法的性能, 以及i-SEDS方法在不收缩轨迹上的优越性能. 最后通过Franka-panda协作机器人上的实验, 验证了本文方法在实际场景的有效性. 在未来工作中, 将降低本文方法模型的复杂度.

关键字：优秀论文

上一篇：植物乳杆菌在不同品种葡萄酒中苹果酸乳酸发酵性能的评价
下一篇：基于非凸复合函数的稀疏信号恢复算法

栏目分类

热门排行

推荐信息

期刊知识