　自动化学报
ACTA AUTOMATICA SINICA
1997年 第23卷 第3期 vol.23 No.3 1997



预防阈值控制策略及其实现1）
涂生　宋东平　Sheldon XC Lou
　　摘　要　对机器故障为一般概率分布的不可靠制造系统，提出一种预防阈值控制策略和实现这一控制策略的参数优化方法.应用扰动分析法得到性能指标对控制参数的灵敏度估计，并证明了估计的无偏性，又利用随机逼近技术优化控制参数.仿真结果验证了控制策略的有效性.
　　关键词　制造系统，扰动分析，无偏估计，随机逼近.
PREVENTIVE HEDGING POINT CONTROL AND ITS REALIZATION
TU FENGSHENG
(Dept. of Computer and System Science, Nankai Univ., Tianjin 300071)
SONG DONGPING　SHELDON XC LOU
(National Lab. of Ind. Control Tech., Zhejiang Univ., Hangzhou 310027)
(California State University)
　　Abstract　We consider a failure-prone machine whose up and down times follows general probability distributions. A policy called preventive hedging point control, as well as a parameter optimization algorithm, is proposed. Using perturbation analysis technique, the sensitivity estimate of the performance index with respect to control parameters is derived, and it is proved that the estimate is unbiased. Then, the stochastic approximation method is applied to determine the optimal control parameters. Simulations examples show the effectiveness of the policy.
　　Key words　 Manufacturing system, perturbation analysis, unbiased estimate, stochastic approximation.
　　1　引言
　　近年来，已有不少学者研究了不可靠制造系统的生产控制问题［1－3］，它们假设机器的不可靠性由一个有限状态的Markov过程刻划，即机器的故障率和修复率均为恒定常数.文献［2］证明了对一台机器两个机器状态只加工一类产品的系统，阈值(hedging point)控制策略是最优的，且导出了控制参数的精确解.通常，当机器的故障率和修复率均为恒定常数时，等价于机器每次处于因故障而进行维修的时间和机器每两次相邻故障之间的正常时间都服从参数恒定的负指数分布.本文将考虑机器每次因失效而维修的时间和机器每两次失效之间的时间分别服从同一随机变量的概率分布，但不要求这两个随机变量为指数分布.对这类比较一般的系统，本文将说明HP控制策略并不是最优的，并推广HP策略得到预防阈值(PHP)控制策略.其控制效果明显优于HP策略，同时给出了实现PHP策略的一种简单算法.
　　2　模型与控制策略
　　考虑一台机器只加工一类产品的制造系统.机器是不可靠的，它每次处于正常、故障的时间分别服从随机变量为ξ,η的分布，且0＜Eξ=α＜∞,0＜Eη=b＜∞.机器的生产率记为u(t)，当机器正常时，它可以在［0,U］内任意调整，其中U为最大生产率.产品的需求率是恒定的，记为d;生产累积量与需求累积量之差记为x(t).则系统可用Flow Rate Control Model［1］描述如下：
x(t)=u(t)-d,　　　　　　　　　　　　　　　　　(1)
0≤u(t)≤α(t).U　　　　　　　　　　　　　　　　(2)
其中 α(t)=1,当机器正常时；α(t)=0，当机器故障时.目标函数为长期平均费用
　　　　　　　　　(3)
其中x+(t)=max(x(t),0),x-(t)＝max(-x(t),0),常数c+,c-分别是产品库存和欠缺的费用系数.这样，问题就化为寻找控制策略u(t)，使得目标函数J达到最小.为使问题有意义，假定系统在长期运行下有足够的生产能力，即满足
a.U＞(a+b).d.　　　　　　　　　　　　　　　　(4)
文［1］提出的HP策略如下：如果α(t)=1,则
　　　　　　　　　　　　　　(5)
其中h为控制参数，称为阈值.推广后可得到如下预防阈值(PHP)控制策略：
　　如果α(t-0)＝0，且α(τ)=1,τ∈［t0,t］，则
　　　　　　　　　　(6)
其中h,s为控制参数.在每一个机器正常的时间段内，区间［t0,t0+s］称为阈值控制阶段，t>t0+s称为预防控制阶段.
　　说明.
　　1)如果s=∞，则PHP策略退化成为HP策略，因此，PHP是HP的推广；不管ξ,η为什么分布，对PHP策略的控制参数h，s进行最优化后，其控制效果必定不次于HP策略，代价是控制参数搜索空间的增大.
　　2)如果ξ≡a,η≡b，这时系统变成确定性的.在性能指标(3)和条件(4)下，不难导出最优控制规律就是PHP策略，且h=0,s=a-bdc-/(U-d)(c-+c+).
　　3)当ξ，η为一般的概率分布时，其最优控制策略应该是反馈形式的，并能预测随机事件的发生，即为带预测的反馈控制.而PHP策略中的预防控制部分事实上起到了预估故障发生的作用.本文没能给出PHP策略最优性的证明，但因为PHP策略在更大范围内搜索，包含有预估的思想，因此比HP策略更接近于最优控制形式.
　　3　参数优化实现PHP策略
　　设系统在t=0的初值条件为 x(0)=0,α(0)=1.在PHP策略控制下，系统的采样路径x(t)由随机过程α(t)和控制参数θ=(s,h)唯一确定，如图1所示.

图1　系统在PHP策略下的一次采样路径
　　一次采样路径的目标函数记为,因此有JT(θ)=ELT(θ，α(t)).如果能够求出梯度JT(θ)，则可以优化参数θ=(s,h).扰动分析法(PA)［4］的优点是基于一次采样路径就能给出JT(θ)的估计.但其可行的前提是要求估计的无偏性.
　　定理1.系统(1)，(2)在PHP策略控制下，以JT(θ)=ELT(θ，α(t))为目标函数，则有

　　为了证明定理1，先给出下列事件的定义
　　1)机器故障――α(t－)=1,α(t)=0;
　　2)机器修复――α(t－)=0,α(t)=1;
　　3)机器阈值阻塞――机器正常时，x(t)从不等于h变为等于h；
　　4)机器预防生产――从机器每次修复开始计时，当超过时间s时，称为发生机器预防生产事件；
　　5)S=｛ω:在［0，T］时间内，存在某一时刻，同时发生上述不同的两个或两个以上事件｝，其中ω为系统在PHP策略控制下的样本试验.
　　记［0，T］中的事件数为N，设事件发生的时刻为｛t0=0,t1,t2,…，tN=T｝，称为事件点.则有以下引理.
　　引理1.如上定义的N是一个ω的非负随机变量，且P｛ω｜N=∞｝=0.
　　引理2.满足条件S的概率为零，即P｛ω｜ω∈S｝=0.
　　固定参数h，让s作微小扰动变为s+Δs，其中Δs为充分小的正数.图2给出了满足ωS且N＜∞的某次采样过程的标称路径x(t)的扰动路径x′(t).因为试验ωS且N＜∞，所以对充分小的Δs，总可以保证标称轨迹x(t)与扰动轨迹x′(t)的确定性相似.显然，两相邻事件之间的扰动量是不变的.记Δxi为第i个事件与第i+1个事件之间x(t)的扰动量，即Δxi=x′i(.)-xi(.)，并置初值Δx0=0，则可得s作微小扰动时系统的扰动规则如下：

图2　s扰动前后的路径
　　性质1. 1)设ti为预防生产事件发生的时刻，如果x(t-i)=h，则x(t)将叠加产生扰动－Δs(U-d),即Δxi＝Δxi-1-Δs(U-d);如果x(t-i)＞h，则Δxi=Δxi-1-Δs.U；如果x(t-i)＜h,则Δxi＝Δxi-1. 2)设ti为阈值阻塞事件发生的时刻，则Δxi=0. 3)若ti为其它事件发生的时刻，则Δxi＝Δxi-1.
　　从上述规则可知，扰动量Δxi(i=1,2,…，N)是Δs的线性函数，即Δxi/Δs(i=1,2,…，N)与Δs无关.因为预防生产事件发生的条件为机器连续保持正常的时间超过s，所以在［0,T］中预防生产事件发生的累加次数不超过［T/s］.因而，存在常数const，使得｜Δxi｜＜const.Δs对ω一致成立.由性质1和标称轨迹与扰动轨迹的相似性，不难得到
　　　(7)
其中(ti-ti-1)+为(ti-1，ti)中x(t)≥0的区间长度，(ti-ti-1)-为(ti-1，ti)中x(t)＜0的区间长度，且上式与Δs无关.
　　引理3.系统(1)，(2)在PHP策略控制下，有
　　a.s.,　(8)
其中由(7)式给出，且0(Δs,α(t))满足
　　　　　　　　　　　　　(9)
　　证明.　由引理1和引理2，只需考虑N＜∞和不满足条件S的样本.此时，如果先给定ω，则(7)式显然成立，亦即
　　　　　　　　　　　(10)
如果Δs先给定，我们总可以写成(7)和(8)式的形式，但不能保证(10)式对ω一致成立.一致性遭到破坏的原因在于两个相邻事件的时间间隔可能小于Δs(导致x(t)扰动产生的不充分或扰动消失的不完全).令,记为Ω的补集，则有另一方面，尽管(10)式的一致性遭到破坏，注意到｜Δxi｜＜const.Δs对ω一致成立，所以对N＜∞和不满足条件S的ω一致地有｜0(Δs,α(t))｜/Δs≤C,其中C为一个常数.于是
　　　　　(11)
证毕.
　　固定参数s,让h扰动为h＋Δh，其中Δh为充分小的正数.定义I为从机器首次发生阈值阻塞直到T的区间.记，其中i｛.｝为示性函数.类似可得到如下性质2和引理4.
　　性质2.从机器首次发生阈值阻塞直到T的时间区间内x(t)扰动量都为Δh，其它时间为0.
　　引理4.系统(1)，(2)在PHP策略控制下，有
　a.s.,　(12)
其中
　　　(13),(14)
　　定理1的证明.将(8)式两边同除以Δs，取数学期望，再让Δs→0，立即得到结论(a);而(b)可由(7)式直接得到.对(12)，(13)式类似处理可证关于控制参数h的结论.　　　　　　　证毕.
　　设α1(t),α2(t),…，αk(t)为α(t)的一系列采样，用蒙德卡罗法作估计，由强大数定律和定理1得因此T/θ是JT/θ的无偏估计.既然得到了目标 函数对于控制参数的梯度估计，就可以用随机逼近技术优化参数.一般的随机逼近最优化算法如下［5］：
　　设JT(θ)=ELT（θ,α(t)),θk+1＝θk-βkdk.其中dk为JT(θk)的一个估计；｛βk｝为一列非负的步长系数，当k→∞时，有βk→0.对于本文给出的系统，用扰动分析法得到了JT（θk）的一致无偏估计，即dk＝T=(T/h,T/s)就可以逐步优化参数h,s，实现PHP策略.
　　4　仿真例子和结论
　　采样数k=100，T=360，U=2,d=1，c+=1，c-=5.记.则有表1仿真结果.
表1　PA法优化PHP和HP仿真结果

例PHPHP
shT/sT/hThT/hT
18.330-0.00800.67550.277010.01391.1625
216.51-0.0069-0.03561.80291.30.01791.8437
37.8500.00810.53680.76841.10.01281.5198
4＋∞1.7--0.00513.34311.7-0.00513.3431

注.表中例1为ξ=10,η=2的确定性分布.例2为ξ-U(0,20),η-U(0,4)的均匀分布.例3为截尾正态分布，即ξ′-N(10,1),η′-N(2,1)为正态分布.其中ξ，η定义为ξ=0,当ξ′＜0;ξ=ξ′,当ξ′∈［0，20］；ξ=20,当ξ′＞20.η=0，当η′＜0；η=η′，当η′∈［0，4］；η=4,当η′＞4.例4为ξ―0.1e-0.1t,η-0.5e0.5t的指数分布，此时PHP退化成HP策略，即s=+∞.
　　仿真结果表明，PHP策略明显优于HP策略，特别是当系统的随机性不太严重时，如例1和例3.用PA法估计参数灵敏度，然后优化控制参数的方法，广泛适用于一般的随机系统，而且比单纯的仿真法节约了大量的工作量，但PA法必须要求T＜∞.
1)得到国家自然科学基金和国家教委博士点专项基金资助.本文曾在12th IFAC World Congress (Sydney, 1993)上宣读.
作者简介：涂生　简介见本刊第21卷第6期.
　　　　　宋东平　1967年生.1992年在南开大学计算机与系统科学系获硕士学位，现为浙江大学工业控制技术国家重点实验室讲师，在职博士生.感兴趣的研究方向有柔性生产系统、离散事件动态系统.
作者单位：涂生：南开大学计算机与系统科学系　天津　300071
　　　　　宋东平：浙江大学工业控制国家重点实验室　杭州　310027
　　　　　Sheldon XC Lou:美国加州大学
参考文献
　［1］Kimemia J G, Gershwin S B. An algorithm for the computer control of production in flexible manufacturing systems. IIE Trans., 1983, 15(4):353-362
　［2］Bielicki T, Kumar P R. Optimality of zero-inventory policy for manufacturing systems. Operations Research, 1988, 36(4):532-541.
　［3］Sharifnia A. Production control of a manufacturing system with multiple machine states. IEEE Trans., Automat. Contrl. 1988, 33(7):620-625
　［4］Ho Y C, Cao X R. Pterturbation analysis of discrete-event dynamic systems, Boston:Kluwer, 1991.
　［5］Rubinstein R Y. Monte carlo optimization, simulation and sensitivity of queuing networks. Wilay & Sons, 1986.
收稿日期　1995-09-07
