信息与控制
INFORMATION AND CONTROL
1999年 第28卷 第2期 Vol.28 No.2 1999



一类新型自学习控制器及其在气动
伺服系统中的应用
王淑莲　陆璐　史维祥
　　摘要　设计了一种新的学习控制律，它通过沿学习轴递推辨识学习增益矩阵以改善控制效果，并分别针对连续系统及离散系统设计了学习控制律，给出了相应的收敛性证明结果，同时考虑了系统存在噪声干扰及初始误差不为零时学习控制器收敛性条件，最后把它用于气动伺服系统位置控制，给出了相应仿真结果，结果表明本文提出的控制算法能达到很高控制精度．
　　关键词　学习控制，收敛性，气动伺服系统
A NEW LEARNING CONTROLLER AND ITS APPLICATION
TO PNEUMATIC SERVO SYSTEM
WANG Shulian
(Department of Mechanical Engineering, Shenyang Architectural and Civil Engineering Institure, Shenyang 110015)
LU Lu　SHI Weixiang
(Department of Mechanical Electrical Engineering,Xi'an Jiaotong University, Xi'an 710049)
　　Abstract　This paper presents a new learning control law which can obtain learning gain matrices from a recursive identifier alone the learning axis. The controller is designed respectively in continuous and discrete time dynamic system, the system convergence is proved, and it is spread when there exists disturbances in the system and its initial error isn't zero in every iteration. Finally it is applied to pneumatic servo control system, the simulation results show its validity.
　　Key words　learning control, convergence, pneumatic servo system
　　1　引言
　　近些年来很多学者在研究迭代学习控制算法[1,2]，迭代学习控制器对于处理这样一类重复性强的任务是一种非常有效的算法，它对系统模型参数要求不高，它根据当前的系统输入输出对下次学习的输入进行调整．目前学习算法主要采用固定学习因子，仅仅根据学习误差调整控制输入，这样学习稳定性与收敛性证明充要条件与学习因子选取有关，而学习因子选取依赖系统参数，当系统参数不知道时学习算法很难保证这些条件成立，这就和学习控制在应用时假设被控对象结构与参数未知形成了矛盾，因此必需解决在实际应用中判断学习稳定与修正学习增益相统一的算法．文献［3,4］提出了在线辨识系统参数修正学习因子的方法．该算法计算量大，特别是当不知道系统阶次和时延，这时对系统辨识工作将很困难，同时在实际系统中不可避免地存在各种扰动，当扰动存在时如何保证辨识精度也是一个值得探讨的问题．文献［5,6］提出沿学习轴辨识学习因子的方法是一条选择学习因子的新思路，但文[5]要求系统模型必需化为Rossel模型，文[6]仅对连续定常线性系统且系数矩阵均可逆时学习控制收敛性才能保证，且两者都没考虑系统外来干扰，而实际过程中外来干扰是不可避免的．本文首先在考虑外在干扰时对连续时间系统提出一种动态辨识学习因子的新算法，它不论系统阶次如何，仅需辨识二个学习因子矩阵，且该辨识过程是一个沿学习轴辨识过程，为了计算机实现方便，本文同时给出离散系统相应的学习算法，给出了该学习算法收敛性条件，并提出了一种闭环学习算法去克服系统初始误差，最后将该算法用于可重复运动的气动伺服系统位置控制，仿真结果表明该算法具有跟踪精度高，收敛速度快的特点．
　　2　连续系统学习控制器设计
　　考虑如下连续时间动态系统
　　　　　　　　　　　　　　　　　　　　　　　　(1)
这里x(t), u(t)分别为n*1维状态矢量和m*1维控制矢量，ξ(t)为n*1维外部干扰，系统矩阵A(t), B(t), C(t)满足
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　(2)
这里T为一次学习时间，N为正整数，0≤t≤T,且外部干扰（这里j为学习次数），是一有界正常数，∞及λ范数分别定义为
　　　　　　　　　　　(3)
为简化起见，下面用A,B,C来代替A(t),B(t),C(t),当不考虑外部干扰时由(1)知
　　　　　　　　　　　　　(4)
　　　　　　　　　　　　　　　　　　　　　　　　(5)
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　(6)
由(4),(5),(6)得
　　　　　　　　　　　　　　　　　　　　　(7)
这里C+，C+分别表示B,C的广义逆．当考虑使用如下学习控制律
　　　　　　　　　　　　　　　　　　　　　(8)
将(8)写成离散形式，k1(i,j),k2(i,j)可采用如下递推算法求出
　　　　　　　　　　　　　　　　　　　　　　　(9)
　　　　　　　　　　　　　　　　　　　　　　　(10)
　　　　　　　　　　　　　　　　　　　　　　　　　(11)
　　　　　　　　　　　　　　　　　　　　　　　　　　(12)
由递推最小二乘得增益阵k(i,j)估计为
　　　　　　　　　　　　(13)
　　评论　这种递推算法不同于一般的最小方差参数估计，式(13)的估计是沿学习轴迭代进行的，而不是通常的学习轴，所以可以不象自适应算法那样在线求解估计值，而是在两次学习间隔上离线地运算．正因为这种特点，较为复杂的递推最小二乘的运算时间对控制效果没有影响，算法可以推广到运算速度较慢的微机上实现，而且在这种算法基础上可发展出更为复杂的算法．下面定理给出了该学习控制律收敛性的必要条件．
　　定理1　考虑(1)式的线性时变系统，若满足每次迭代初始误差为0，(即ej(0)=0)，且满足‖I-CBk2‖∞＜1，则采用(8)式学习控制律将保证该系统输出yj(t)当j→∞时收敛于yd(t)．
　　证明
　　　　　　　(14)
　　　　　(15)
将(15)代入(14)得
　　　(16)
上式两端同乘exp(-λt)，再取‖.‖λ范数得
　　(17)
当‖I-CBk2‖∞＜1，可取足够大λ使且‖I-CBk2由此结合(17)得当j→∞时，‖ej(t)‖λ→0当t∈[0,T]成立，即系统(1)收敛．且由(17)知当‖I-CBk2‖∞=0即k2=(CB)-1，且令
得
k1=-B+AC+
由此得当k1=-B+AC+, k2=(CB)-1，时系统收敛速度最快．
　　推论1　如果外部扰动是周期性干扰即ζj(t)=ζj+1(t),0≤t≤T则类似上述证明可很方便地得到‖ej(.)‖λ→0当j→∞.
　　以上是针对连续系统推导的学习控制律，考虑到实际控制系统是以离散形式进行控制的，则可把上述控制律推广至如下离散形式．
　　3　离散系统学习控制律的设计
　　考虑如下离散时间动态系统

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　(18)
同样满足　　　　　　　　　　　　　　　(19)
则有如下定理成立．
　　定理2　对(18)离散时间系统采用如下学习控制律
　　　　　　　　　　　　　　(20)
当‖I-k2B‖∞＜1时，该系统学习误差满足,即该算法收敛．
　　证明
　　(21)
　　　　　　　　　　　　　　(22)
　　　(23)
将上述结果写成矩阵形式为(0≤i≤N)
　　　　　　(24)
则当　　　　　　　　　　　(25)
当j→∞,Δu(j,i)→0,即y(j,i)→yd(i).
同理当k2收敛至B+(i), k1收敛至-B+(i)A(i)时该系统收敛最快．
　　评论　该算法优越性是对系统先验知识要求不高，无需知道系统阶次和时延，且该辨识过程沿学习轴进行，不需在线辨识系统参数．由于学习过程本质上是一个向逆系统逼近的过程，学习因子k1(j,i)k2(j,i)中包含了设定轨迹逆动力学系统的信息，该学习控制器不仅可以学习某一种设定轨迹yd(t), 还可以在此基础上较快地学习另一种相似的设定轨迹yd(t), 从而表现为某种类似人类的智能．
　　以上都假设系统初始误差为零，当系统初始误差不为零时下述推论保证学习控制收敛性．
　　推论2　同样考虑(18)的离散时间动态系统，当初始误差不为零但能保证渐进趋于零（即→0时)，采用如下的学习控制律能保证学习控制收敛．
　　　　　　　　　　　　(26)
特别地当k1,k2,k3辨识结果分别收敛至-B+A,B+,B+A时，该学习过程收敛最快．该推论证明过程与定理2类似，这里从略．
　　评论　该算法提示我们当系统初始误差不为零但能渐近趋于零时，该学习控制律是成立的，这在实际系统中可认为(ε是一给定界限）．这时可保证系统输出跟踪期望输出，它不仅用到了上一次学习误差，还用到了本次学习误差，因此本质上它是一个闭环学习过程，这个推论收敛性条件与定理2相比放宽了．
　　4　仿真结果
　　这里采用如下气动伺服系统模型进行仿真［7］
　　　　　　　　　　　　　　(27)
　　其中a1,a2,a3,b1如图1,2所示．(注：通常阀控缸型气动伺服系统最高响应频率为3-5HZ，本实验中气动伺服系统主频为1.91HZ，采样周期T取为0.06s)．图3, 图4是跟踪三角波和正弦函数仿真曲线，经过6次学习后能较好跟踪期望曲线，图5是在图3基础上，即当实现对三角波函数完全跟踪时，这表明k1,k2的辨识结果已收敛于系统参数值，这时它已学会系统动力学特性，让它转而跟踪另一斜率的曲线时，经一次学习后即可与期望曲线完全重合，这时学习控制的智能性被充分体现出来．因此对可重复运动的场合，学习控制的意义在于：先对系统进行学习，以后在实际运行过程中把学好的控制量直接加于系统，则一次即可实现对期望曲线的完全跟踪，这充分体现了学习控制的实用性．图6是采用本算法(曲线2)和文［1,2］中固定学习因子的PID型学习算法控制效果(曲线1)相对误差曲线比较结果，从图6可看出，本算法误差减少较快(相对误差指标为
为学习次数）．


图1　系统参数曲线

图2　系统参数曲线

图3　跟踪三角波仿真曲线

图4　跟踪正弦仿真曲线

图5　变斜率跟踪三角波仿真曲线

图6　相对误差曲线
　　5　结论
　　本文提出这类二维变因子自学习控制律，它不需在线辨识系统参数，利用学习过程是一个沿时间轴和学习轴的二维过程，采用沿学习轴动态递推辨识以修正学习矩阵，分别从连续域和离散域角度给出了学习过程收敛性条件，并考虑在存在干扰噪声及初始误差时学习控制收敛性条件，同时把它应用于模型较为复杂的气动伺服系统位置控制中，仿真结果表明该控制律具有较好的跟踪精度，这种算法不需人为固定学习因子，在满足收敛性条件下对这类具有可重复性运动的系统具有较为理想的控制效果．
作者简介：王淑莲，女,54岁,副教授，硕士生导师.研究领域为电液伺服系统计算机控制,非接触检测,智能控制等.
　　　　　陆璐, 男,26岁,博士生. 研究领域为非线性控制,学习控制， 智能控制等.
　　　　　史维祥, 男,69岁,教授,博士生导师. 研究领域为电液伺服系统计算机控制, 智能控制等.
作者单位：王淑莲：沈阳建筑工程学院机械工程系　沈阳　110015
　　　　　陆璐　史维祥：西安交通大学机械电子工程系　西安　710049
参考文献
　1　Arimoto S, Kawamura S,and Miyazaki F. Bettering Operations of Robots by Learning. Journal of Robotic Systems. 1984, 1(2):123～140
　2　Arimoto S, Kawamura S, Miyazaki F,and Tamaki S. Learning Control Theory for Dynamatic Systems. Proceedings of 24th Conference on Decision and Control. December,1985
　3　Sang-Rok oh, Zeungnam Bien. An Iterative Learning Control Method with Application for the Robot Manipulator.IEEE Journal of Robotics, Automatic. October, 1988,4(5)
　4　Hwang D H, Z Bien.S.-R.oh. Iterative Learning Control Method for Discrete-time Dynamatic Systems. IEE Proceeding. 1991,138(2)
　5　Zheng Geng,Robet Carrol and Jahong Xie. Two--dimensional Model and Algorithm for a Class of Iterative Learning Control Systems. INT.J. Control,1990,52(4):833～862
　6　甘澄宇. 智能控制理论及其在压差控制中的应用，西安交通大学硕士论文，1995
　7　陆　璐.学习控制理论及其在气动伺服系统中的应用，西安交通大学硕士论文，1996
1998-09-28收稿
