中国体育科技
CHINA SPORT SCIENCE AND TECHNOLOGY
1999年 第35卷 第11期  Vol.35 No.11 1999



列序聚类法和最小变化拟合在体育选材中的应用
李燕　徐雄杰
摘要： 本文应用列序聚类法和最小变化拟合于运动员选材。介绍了这种方法的基本步骤，给出了计 算程序和得到解的迭代过程。结果表明，这种方法在运动员选材中是非常有效的。
关键词：列序聚类法∥最小变化拟合∥选材∥迭代过程
The Application of Clustering Method by Order Listing
and Minimal Variation Fits in Sports Talent Selection
Li Yan, Xu Xiongjie
Abstract:In this paper, the author uses a new method-the clustering method by order listing and minimal variation fits for talent selection, and introduces t he elementary procedure of this method, presents the program to compute and the iterating algorithm to get solution. The result shows that this new method is very useful to talent selection.
Key words:clustering method by order listing∥minimal variation fits∥talent selection∥it erating algorithm
1　引言
　　如何对从同一起点开始训练的运动员择优挑选，以便有针对性地进行定向培养，已成为当前 体育科研中亟待解决的重要课题。本文拟以列序聚类和最小变化拟合的方法，为探讨解决这一问题提供新的途径。
　　通常的聚类方法仅能对样品进行分类，并不对各个类的拟合值进行估计，Hartigan考虑过聚 类的同时，对由差的绝对值和差平方定义的距离进行最小突变拟合的方法。1987年，郭大伟、王济生又提出了先列序聚类，然后用迭代法最小变化拟合的方法，并以此对物种进行分类估计。但运动员的发展方向和运动水平的提高毕竟不同于物种的变化，为此，我们在列序类和拟合的基础上，进一步给出用于选材的科学方法。
　　鉴于体育训练早期阶段的成绩指标一般差于后期指标的特点，我们基于迭代后的类指标值和类间欧氏距离，给出类的修正值。从而建立了基于聚类的结果和类的修正值的判别方法。对于任何一个运动员，如果其与我们已考察过的成员属于同一总体，我们可以依据其训练一段时期的前后成绩值判断其属于哪一类(即有无培养前途)，而对于我们已考察过的运动员应 进行何种方向的训练提出有益的建议，对其今后的运动水平做出合理的预测。
　　本文的方法适宜于那些由于各种原因仅知道其经过一段时期训练后的成绩值而对训练前及训 练中的成绩皆然无知的情况。我们编制了运用此法的计算机程序，并用此程序在“APPLE- Ⅱ”微机上对所有参加1993年高等学校体育专业入学考试的芜湖市的31名男生的体育成绩 做出分析，并利用此结果，对芜湖市某校报考体育专业的男生进行预测，经过其后的高考实 践，结果是满意的。

2　列序聚类法和最小变化拟合的过程
　　在本文中，我们不打算论述列序聚类法的原理，而仅陈述其具体步骤。
　　设样品有N个，每个样品有n个指标，则整个的运算过程如下：
2.1　列序与数据的标准化
　　对数据标准化，标准化后的数据记为Ai=(i=1，…，N)，再计算出所有Ai和Aj间的距离Aij(i＜j)，并将这N(N-1)／2个Aij按从小到大顺序排成一列L。
2.2　并类过程
　　首先，将距离最近的两个样品(比方说A1，A2)合并成类B1，然后考虑距离次近的两个样品，如这两个样品中有一个已经并类(不妨设为A1)，则将另一个样品与B1并类，成为B2，并将L中未考察的项中所有与A2有关的项删去。若这两个样品皆未并类，则只要将这两个样品合并成类B2即可。如此下去，直到所有的样品合并成一类为止。
2.3　迭代求最小变化拟合
　　通过上述聚类过程我们得到了运动员成绩的变化树，每个运动员的成绩称为树的端点，最后 的那个称为树的根部，而所有的A1……An和B1……Bn-1皆称为树的节点。在聚 类的同时，我们给出了每一节点的估计值。越接近根部的节点，我们认其时期 越早，两不同邻节点，称为直接先期(后期)类。若要使各估计值与其后期指标值的距离之和 最小，则为最小变化拟合。当E为R′时，以上聚类产生最小变化拟合。但对于多维实空 间中常用的欧氏距离，求最小变化拟合常常是很困难的。为此， 我们用迭代法求最小变化拟合的局部最优解。
　　迭代过程归结为对给定的D1k，D2k和D3k∈Rn，求Dk，使S(X)=d(D1k，X)+d(D2 k，X)+d(D3k，X)，X∈Rn取到最小值。由郭大伟、王济生文知，可利用标准正交变换 将以上 求X的过程转化为求平面上的一点X到该平面上已知三角形的三个顶点X1、X2和X3的 距离之和为最小的极值问题。该文已证明：若该三角形的每个内角皆小于120°，则X 0为三角形内使得X0X1、X0X2和X0X3两两夹角皆为120°的点。若此三角形内 有一内角不小于120°，则此角的顶点即为X0。
　　迭代是收敛的，它可以进行到满足预先给定的任何精度。
3　对拟合值的修正及建立判别方法
　　我们基于选代后的类的指标值给出类的修正值。其方法如下：
3.1　对拟合值的修正
　　我们考虑这样一种分类原则，即分成K(K2)类。每类中元素的个数不少于N／K2，记K类中成绩最差的类为Bk，并且假定。
　　指标集E为n维欧氏空间，对于田赛指标其指标值越大，对应的成绩越好；对于径赛指标，其 指标值越小，对应的成绩越好。样品集中每个样品Ai的观察值为
　　f(Ai)=f0(Ai)=(ai1，…，ain)　i=1，…，N
　　节点Bj经过有限步迭代后得到的拟合值为
　　f(Bj)=(bj1，…，bjn)　其中Bj=｛Aj1，…，Ajnj ｝　1＜j1，…，jn1＜N
3.2　对报考体育专业的学生进行预测
　　为了进行预测，我们仅考虑分成两类Bk0，Bk1(差，好)的情况，且这两类中每 类的样品个数不小于N／4，这两类有一个共同的早期类Bw，对于不在这两类中的样品则暂 不予考虑。
　　基于运动员在开始训练时有一个基本上是共同的起点成绩的假定，设修正后的指标为f*(B r)，则我们可以这样给出f*(Br)。设Xj为N个样品和我们所考察的一批运动员中第j个指 标的最差值。若我们已知运动员在开始训练时第j个指标的起点值，则令此值为bwj， 否则可令bwj=Xj。
　　现在对树的末端的每一Ai，考虑Ai至Bw的最短通路，设此通路上的节点Bio，B i1……Bini，这里Bi0=Ai，Bini=Bw，而ni+1是此通路上 节点的个数。
　　令　f*(Br)=(b*r1，b*r2，…，b*rn)
则　
　　i=1，…，N，1≤K≤ni，1≤j≤n，对于不在此通路上的Br，则令
　　
　　这里N(r)为通过Br的上述通路的条数。这样，我们就可对两类中的每一个节点和它们的共同早期类都给出一个修正值。
3.3　对新成员的预测
　　设每个运动员，我们知道其开始训练时的成绩为y0=(y01，…，y0n)，训练P 个月后的成绩为y1=(y11，…，y1n)。令y=y1-y0，则我们可按如下步骤 来对该运动员在训练期满后成绩情况进行预测。设完整的训练期为h个月。
　　1.考虑y0与Bw和差类中除端点外的所有节点的修正值f*(Br)的距离，与y0的距离最近者记为f*(Bu0)。
　　2.设Br1，Br2为Br的两个直接早期类，M(Br)为过Br的通路的边的平均条数，这里，边的平均条数是这样计算的，在此Br早期的每个节点处皆将其早期类的边的条数平均后再加上1进入下一个节点的平均，直到Br为止，然后，再将此平均值加上Br和B w的边的条数而得到M(Br)。
　　3.考虑y0与Bw和好类中所有节点的修正值f*(Br)的距离，其最近者记为f*(Bu1)。
　　4.令
　　
　　令w(y)=d(Z0，y)-d(z1，y)
　　若w(y)＜0，则认为该运动员预期成绩值属差类；若w(y)＞0，则认为该运动员预期成绩属好 类(注：若在好类中与y0最近的节点是端点，则即可判定该运动员成绩属于好类)。

4　对考生体育成绩的分析及预测情况
　　我们用列序聚类法对芜湖市1993年报考体育专业的所有(31名)考生(男)的身体素质成绩进行 了列序聚类，并根据同年安徽师大附中准备报考体育专业的8名高一男生的身体素质的前后 成绩进行了预测，其结果与实际情况是吻合的。
　　1.根据计算机输出的聚类及拟合数据，得到聚类图(略)(考虑到安师大附中8名同学中无5 0×2往返跑成绩，故我们仅用了其中另外3项的数据)。由此，我们做出以下分析：
　　--图中距离靠近的点应属于相同的类。我们分成B22和B21两类(图示略)。 这两类的平均身体素质成绩分别是72.6和80.4，显见前者是差类，后者是好类。
　　--距离愈是接近的学员，他们所具备的身体素质等情况愈是相近。因此，他们在从事以这 些 条件为基础的体育项目时的能力是相近的。若以V2为界，可见A8、A5和A30同 在一组，可以认为他们身体素质条件基本相同。由31名男子身体素质成绩可知，A5和A 3 0的足球单项成绩较好，而A8的200 m跑单项成绩较差。因此，A8当初改200 m跑为足 球作为专项，其单项成绩将会好得多。
　　--考分相近的运动员，并不属于相同的类型。例如：A6和A10的总分分别为81.96
