自动化学报
ACTA AUTOMATICA SINICA
1997年　第23卷　第4期　Vol.23　No.4　1997



机器人自学习控制的稳定性
分析方法及其应用
蒋平　陈辉堂　王月娟
　　摘　要　提出了一种针对自学习控制的稳定性判据，应用这一稳定性判据将自学习控制器的设计转化为寻找正定离散矩阵核，从而回答了两个问题，其一什么样的量可以通过自学习叠代加以控制，其二学习叠代中什么样的滤波环节的引入不会影响学习收敛性.根据这一判据设计了一种机器人参数自学习控制律，它保证跟踪轨线全程的收敛性.
　　关键词　自学习控制，稳定性，机械手.
STABILITY ANALYSIS FOR ITERATIVE LEARNING CONTROL
AND ITS APPLICATION TO MANIPULATORS
JIANG PING CHEN HUITANG WANG YUEJUAN
(Dept. of Electrical Engineering,Tongji University, Shanghai 200092)
Abstract　This paper presents a stability criterion for design iterative learning controller.From the criterion,one can change the design problem into finding a positive definite discrete matrix kernel.It has been shown that(1) what kind of variable can be controlled by the iterative learning,(2) and what kind of filter can be included into the controller.As an example,we have designed a parameter learning controller for manipulator trajectory tracking which leads to a perfect learning.
Key words　 Iterative learning control,stability,manipulator.
1　引言
　　人们可以由重复事件中获得经验，并据此进行正确决策.这一思想应用于控制中就出现了自学习控制［1］，图1示出了一个机械手进行重复工作时的一系列误差图，通常的反馈控制策略是沿时间t轴进行的，而自学习控制则沿r轴进行，它根据历史点的误差情况不断修正控制输出，以改善轨线跟踪性能.由自学习控制的工作过程可以看出，它既包含连续过程(运动特征)又包含离散过程(学习叠代).通常的分析方法是基于离散Lyapunov稳定判据进行的［2，3］，首先将非线性模型在期望点处进行线性化，以保证历史点运动特征的不变性，显然这一类控制器应用于机器人系统中无法确保学习控制的收敛性；另一类学习控制设计方法则忽略这一离散特征［4］，而将自学习控制当作一种周期性连续系统进行分析，所得结论其一未考虑系统状态在轨线起、终点(t=nT)的不连续性，其二与一般反馈控制相同仅说明时间趋于无穷时的收敛性，而没有轨线跟踪全程的收敛性分析.


图1　学习控制图示
　　为此本文提出了一种进行自学习控制器设计的稳定性分析方法，它考虑了既有连续过程又有离散过程的自学习本质，保证轨线跟踪全程的收敛性，所获得的控制律不一定是简单的误差线性组合，而需根据具体对象，抽取具有重复特征的量进行学习，学习控制形式也不再只是简单叠加这样一个唯一形式，代之以正定离散矩阵核的广泛形式.据此本文设计了一个机器人参数自学习控制律，曾有过类似的自适应控制方法讨论［5］，但其中要求线性反馈增益大于一状态函数，因而存在两个问题，其一实际系统中增益的提高受系统带宽限制，其二理论上难以评价自学习在控制算法中的真正地位.为此本文证明了在无线性反馈的情况下完全依靠自学习叠代同样能够保证机器人轨线跟踪全程的渐近收敛性.
2　自学习控制稳定判据
　　图1所示学习控制序列可认为由k个具有重复特征的系统构成，如
i=fi(t)+ui(t) i=1…k, 0≤t≤tf
(1)
其中　fi(t)有界且满足可重复条件fi(t)=f(t)，第i次学习控制输入为ui.
　　学习控制经(1)式描述后将起始间断点排除，而仅考虑有效控制部分，第i次学习由xi子系统表示.因此自学习控制目标可描述为：设计自学习控制律ui，使系统状态收敛于有限时间期望轨迹xd(t),0≤t≤tf.由这一控制目标决定系统必须满足初始条件xi(0)=xd(0).
　　判据　设系统等效误差si(t),0≤t≤tf，满足si(0)=0,若对任意时间t，存在正常数，使

　　证明.　定义第i个子系统能量函数Vi(t)=(t)si(t),
则　　　　
由初始条件si(0)=0得
叠加全部k个子系统能量函数，

方程两边对k取极限，

若　　　
则　　　
由于tf有界，所以(t)上有界，故
Vi(t)=0,即si(t)=0, 0≤t≤tf.
证毕.
　　我们利用这一结论对系统(1)进行自学习控制律设计，可以发现它将这一设计转化为求取满足判据不等式的正定离散核.
设等效误差　si(t)=xd(t)-xi(t),
则

由fi(t)重复条件得　
令

(2)

当d(t)及f(t)有界时可得
则　　　　[xd(t)-xk(t)]=0, 0≤t≤tf.
事实上满足这一不等式的一般解为

(3)
其中F(i-j)为正定离散矩阵核［6］.
显然(2)式控制律为上式的特解，因为其Z变换Z(F(i))=diag(z/z-1,┅,z/z-1)为正实离散传递函数矩阵，且在z=1处有一极点.因此一般的学习控制算法可进一步表示为
ui(t)=ui-1t)+W(z)si(t).
(4)
即由si(t)经W(z)滤波输出后进行学习叠代，但须保证G(z)=W(z)z/(z-1)为正实离散传递函数，如图2.这样的滤波处理一方面可提高学习控制的鲁棒性，同时不影响系统的收敛性.例如可取W(z)=(1-a)z/(z-a),(0＜a＜1)，为一常用的低通滤波方程，此时学习控制算法为

(5)


图2　学习控制离散传递函数表示
　　下面将验证G(z)的正实性：

(1)　G(z)于z=1处有一简单极点，其留数大于0；且G(z)于单元外解析；
(2)　令z=(1+jω)/(1-jω),代入G(z)，其实部为

为使对任意ω,ReG(jω)]＞0，则要求a＜1/3，所以不影响学习收敛性的滤波系数应满足0＜a＜1/3.
3　机器人参数自学习控制
　　当机械手进行重复作业时，以上设计方法可应用于机械手参数自学习控制.设机械手动力学方程
M(θ)+C(θ,)+G(θ)=τ.
(6)
则相应的自学习控制是设计控制力矩τi，i=1┅k,控制序列
M(θi)i+C(θi,i)i+G(θi)=τi,i=1┅k
使机械手跟踪期望轨迹θk(t)=θd(t),k(t)=d(t).
　　设ei(t)=θd(t)-θi(t),定义系统等效误差
si(t)=i(t)+Tei(t),T＞0 及 σi(t)=A(θi)si(t),
其中A(θi)为M(θi)的平方根矩阵.
得

(7)
其中　ri(t)=d(t)+Tei(t).
　　由方程(7)可知，待学习量fi与机械手实际状态有关，因此它是不可重复的，前述方法不能应用于控制力矩学习而必须找出可重复量进行学习叠代.将待学习量fi分解为
fi=Yi(θi,i,d,d,θd)a(t).
其中　Yi是由系统状态决定的机械手灵敏度矩阵；a(t)是由机械手动力学参数组成的参数向量，它可以是时不变的对应于无负载变化，也可以是时变的对应于在机械手工作过程中负载按一定时间规律发生变化.令学习律

(8)
其中F(i-j)为正定离散矩阵核.

(9)
满足判据条件，所以σk(t)=0, 0≤t≤tf.
　　由于A(θi)＞0，故θi(t)=θd(t), i(t)=d(t),0≤t≤tf.
对应的参数自学习控制律可表示为迭代式为

(10)
其中需保证G(z)=W(z)z/(z-1)为正实离散传递函数.
　　以上我们得到了完全依赖自学习叠代的机器人参数自学习控制律，它与基于模型的机器人自适应控制［7］具有非常相似的形式和对偶关系.自适应控制是沿时间轴t进行的，而参数自学习控制是沿r轴进行的；自适应控制必须以动力学参数的不变性为条件获得渐近稳定结论，而参数自学习控制可以应用于动力学参数变化场合，只要这种变化在反复学习过程中可重现；自适应控制的收敛性只保证轨迹无穷远处的渐近性，而自学习控制将保证全部轨迹的渐近性，如在机械手跟踪过程特定时刻加载，则自适应控制将重新进入过渡过程伴有较大偏差出现，而自学习控制经过若干次学习后不会发生这一情况.
4　仿真结果
　　仿真实验是针对我们研制的平面两关节直接驱动异形玻璃切割机器人进行的，玻璃切割以其明显的重复作业特点，特别适合于自学习控制的应用.同时由于本机械手下刀压力采用开环方式工作，因此在所切割玻璃厚度不同时或工作台面不水平时其切割力会发生较大变化，影响切割精度，因此在不增加力传感器前提下补偿切割力的理想方法是采用自学习控制方案，所述机器人在采用托后刀头设计后［8］，切割过程仅受切割力影响，动力学模型为

其中　f=[fx fy]T=JTt, t=[tx ty]T　为切割轨线单位切向量，J为机械手Jacobian矩阵.
　　待学习量为机械手动力学参数Dij, i,j=1,2,切割力大小c.
　　对于本手两臂长均为1米，动力学参数为
D11=3.55(kg.m2), D12=1.2(kg.m2), D22=1.8(kg.m2), c=6(N).
　　令机械手以最高1m/s的梯形速度切割工作台面(0,1m)至(1m,1m)的直线，其中匀速段长度为0.5m.(10)式控制参数选取为
W=diag(600,600,600，600), T=diag(50,50).
参照自适应限界方法，取

设各参数初始值为0，即无任何先验知识，第一次控制结果如图3所示，最大误差为e1M=0.082°,e2M=0.16°.第二次学习控制，最大误差降为e1M=0.047°,e2M=0.070°.当切割10次后最大控制误差已降至e1M=0.014°,e2M=0.025°，如图4所示，达到令人满意的控制结果.


图3　第一次控制误差


图4　第十次控制误差
5　结论
　　本文根据连续过程的离散特点，提出了一种自学习控制器设计方法，适用于具有重复特征量的学习控制.这种学习不再局限于累加和形式，而可以得到其一般解――正定离散矩阵核.利用这一稳定判据，设计了机械手参数自学习控制器，它保证机械手对轨线全程的渐近收敛性.仿真结果验证了它的有效性.
1) 本文得到国家自然科学基金资助.
作者简介：蒋平　1963年生，1992年毕业于西安交通大学信息与控制工程系，获工学博士学位，现为同济大学电气系副研究员，主要研究领域机器人控制与智能机器人.
　　陈辉堂　1933年出生，1953年毕业于上海交通大学电机系，现为同济大学电气系教授、博士生导师，主要研究领域机器人控制与智能机器人.
　　王月娟　1935年出生，1955年毕业于上海交通大学电机系，现为同济大学电气系教授、博士生导师，主要研究领域机器人控制与智能机器人.
作者单位：同济大学电气系　上海　200092
参考文献
［1］　Arimoto S,Kawamura S,Miyazaki F.Bettering operation of robots by learning.Journal of Robotics System,1984,1(2):123―140.
[2] Kawamura S,Miyazaki F,Arimoto S.Realization of robot motion based on a learning method.IEEE Trans on SMC,1988,18(1):126―134.
[3] Kuc T,Nam K,Lee J S.An iterative learning control of manipulators.IEEE Trans on Robotics and Automation,1991,7(6):835―841.
[4] Kuc T,Lee J S.An adaptive learning control of uncertain robotic systems.Proc of the 30th Conf on Decision and Control,1991,1206―1211.
[5] Jeon D,Tomizuka M.Learning hybrid force and position control of robot manipulators.IEEE Trans on Robotics and Automation,1993,9(4):423―431.
[6] Landau Y D.Adaptive control――the model reference approach.New York:Marcel Dekker,1979.399―402.
[7] Slotine J J E, Li W.Adaptive manipulator control――a case study.IEEE Int Conf on Robotics and Automation,1987,1392―1400.
[8] 蒋平，陈辉堂，王月娟.玻璃切割机器人刀头控制方法研究.机器人，1996，18(3)：167―172.
收稿日期　1995-01-04
