【 文献号 】3-4813
【原文出处】广州体育学院学报
【原刊期号】199802
【原刊页号】41～45
【分 类 号】G8
【分 类 名】体育
【复印期号】199810
【 标  题 】体育测量评价若干问题的研究
【英文标题】StudyofProblems in PhysicalEducationEvaluation Measurement
    Peng Longhui
    (Guangzhou Institute of Physical Education,Guangzhou510076)
【 作  者 】彭龙辉
【作者简介】彭龙辉  广州体育学院统测教研室  广州510076
【内容提要】在对测量结果进行分析和评价时，人们常常要利用各种指数来对测量的难度、辨别力和可靠性等作出定量科学的分析。但这些指
数的计算方法不止一种，实践证明用不同方法计算的指数将有所不同。本文从理论上对这些方法的理论公式作了详细的数学推导，比较了它们
存在的共性和区别以及应用的局限性。为使一些方法具有更大的适用范围，对某些公式作了必要的修正。为我们在实际应用中采用合适的正确
的方法提供了理论指导。
【英文摘要】When analyzing and evaluating the measurments' results,some indexes areoftenusedtoanalyze the difficulties,the d
ifferentiation and the reliability of themeasurement in quantity.But therearenot onlyone method foranindex,different results
 will be gained withdifferent method.The theoretic formula ofthese methodarededuced implicitly,and their commons,distinguish
ments and limitations are compared.some fomula are necessarily corrected in order to expand their application area.
【关 键 词】测量分析评价/方法/局限性/修正analysing and evaluating method limitation correction
【 正  文 】
    对任何一次测量的分析评价一般都要计算难度指数、辨别指数和信度指数，但这些指数的计算方法有多种，实际资料表明，在对测量结果
进行分析的过程中，各人所采用的公式不尽相同。那么这些公式本身是否完全等价？各自又有怎样的适用范围和应用条件呢？这些是我们应该
解决和澄清的实际问题，否则如果我们在实际应用中采用的方法不当，将会对分析评价的结果产生或多或少的影响，甚至得出与实际不符的结
论。另外，在应用公式S[2]=pq时应注意这一等式其实是非恒等的。本文将就上述问题作一些理论和实际的研究。
            1  研究对象与方法
    本文的研究对象是评价测量情况的三类指数的几种不同的计算方法：
    目前的理论考试，就其评分而言归纳起来主要有三类题目：
    第一类题：其得分只能是0分和1分
    第二类题：其得分只能是0分和a分（a≠1，如a=2）
    第三类题：其得分为x(x∈[0,a])
    一般情况填空题、选择题、判断题属于第一类和第二类，简答题、综合题属于第三类。对这三类问题计算上述指数的方法主要有：
    ①难度指数p：是反应题目的难易程度的指标，其方法主要有两种：
    ●第一种是计算该题目的答对人数与测试总人数之比：
                   m
                p=─                                   (1.1)
                   n
    （n―测试的总人数，m―答对该题目的人数）
    ●第二种是计算某道题目的平均得分与该题的分数之比：
                   x
                p=─                                   (1.2)
                   a
    （x―所有测试者该题的平均得分，a―该题的满分）
    ②辨别指数Dr，其方法有三种：
    ●第一种方法是先将考试成绩（样本卷面分数）从高到低排列，取高分组和低分组各L人，计算高分组该题答对人数与低分组答对人数之差
除以人数L，其公式为：
              k[,1]-k[,2]
        Dr=──────                              (2.1)
                  L
    L=高分组的人数＝低分组的人数=n*27%（四舍五入取整）
    ●第二种方法是计算高分组该题总得分与低分组该题总得分之差除以总的人数n与该题分数a之积：
               L   L
              ∑xi-∑yi
              i=1  i=1
         Dr= ──────                             (2.2)
                  La
    ●第三种方法是计算所有考生该题得分与其成绩的相关系数，其计算公式为：
             n        -        -
          Dr=∑(x[,i]-x)(y[,i]-y)/n・s[,x]・s[,y]         (2.3)
             i=1
    x[,i]、y[,i]分别是第i个样本的试卷得分和某题的得分，
    -              -
    x=∑x[,i]/n    y=∑y[,i]/n
    ③信度指数r，除了用平行测验法、折半法计算的相关系数来说明试题的可靠性外，还有反映各试题间内部一致性的两种方法：
    ●第一种方法是利用各题的难度指数来计算的，其公式为：
                k       ∑pq
            r=──(1- ────)                         (3.1)
               k-1       s[2]
    ●第二种方法是利用各题的方差来计算的，其公式为：
                k      ∑s[2,i]
            r=──(1- ─────)                       (3.2)
               k-1      s[2]
    说明：上面两种方法的求和号∑是对所有题目求和，p是难度指数，q=1-p,s[2,i]是所有样本第i道题的方差，s[2]是所有样本成绩的方差
，k是试题数。
    本文还采用文献资料法、实验检验法和数学分析法进行对比和研究。
            2  结果与分析
2.1  研究结果
    以广州体院体教专业94级1系6班14人的某次体育统计学考试中的三道题（代表上述三类）的得分为示例数据（表1）进行检验，计算各有关
参数（表2）。对上述三类问题的有关指数采用不同方法的比较结果归纳如表3。
    附图  {图}
2.2  对三种指数的分析比较
2.2.1  从难度指数看：第一题和第二题均有p[,1]=p[,2]，但第三题p[,1]≠p[,2]，由此可知只要某题的评分为零分和满分，则采用(1.1)和(1.2)两种方法所计算的难度指数相等，因此对第一类和第二类问题可采用这两种方法中的任意一种，而对第三类问题则应采用方法(1.2)，试想若第三题所有人的得分为7分，那么p[,1]=0,p[,2]=0.47
    将公式(1.2)作一些变形：  -
                           p=x/a
                           =(∑x/n)/a=(∑x/a)/n
    所以  p=∑(x/a)/n                                (4.1)
    对前两类问题，x=0或x=a（或1），都有x/a=0（表示答错）或1（表示答对），由此可以看出(4.1)等价于(1.1)，所以在实际应用中无论是
对答案明确唯一的选择题、判断题还是对陈述性的题目，我们都可用公式(1.2)来计算题目难度指数。
2.2.2  从辨别指数看：采用三种方法对三类问题的辨别指数的计算结果表明，对第一类和第二类问题方法(2.1)和(2.2)的结果相同，但都不同于方法(2.3)的结果；对第三类问题三种方法的计算结果都不同。其原因主要有三点：a.对公式(2.2)作一简单推导即知它和方法(2.1)对前两类问题本质上是等价的，因为：
        L       L         L      L
       ∑x[,i]-∑y[,i]    ∑x[,i]/a-∑y[,i]/a
       i=1    i=1         i=1    i=1             k[,1]-k[,2]   Dr=──────── = ────────── = ───────
            La                    L                    L
    b.对第三类问题其评分不仅只有零分和满分，所以无法区分对和错，严格说是不能采用方法(2.1)或(2.2)计算。
    c.前两种方法虽然简单，但所涉及的数据只占样本的54%，其余46%的人的得分情况与之无关，因此其计算结果不能全面地反映试题质量和
考试情况，如表1的第二题，假设高分组(1～4)和低分组(11～14)的得分不变，将中间6人的得分改为(2,2,0,0,0,0)，此时用(2.1)和(2.2)计算
的结果将不会有任何改变，这显然与实际情况是不相符的；而第三种方法反映的是所有样本的成绩和某题得分的相关程度，因此它能充分利用
样本数据对试题的辨别力作出比较全面的分析。
2.2.3  从信度指数来看：比较一下关于信度指数的两个公式(3.1)和(3.2)即知，要使两者等价，必须有如下关系式：
          ∑s[2,i]=∑pq
    用x表示任一样本试卷某题的得分，样本含量为n，下面就上述三类问题对上式中s[2,i]-pq进行理论考证：
    (1)对第一类问题即得分只有0分和1分，且为大样本，则有
    s[2,i]=pq（表2），因为：
    对大样本，某题的方差s[2,i]=∑x[2]/n-(∑x)[2]/n[2]=∑x/n-(∑x/n)[2]=(∑x/n)(1-(∑x/n))=p(1-p)=pq
    (2)对第二类问题即得分只有0分和a分，此时s[2,i)≠pq（表2），但对大样本方差公式有s(2,i)=a[2]pq，因为：
    s[2,i]=∑x[2]/n-(∑x)[2]/n[2]│x-ay=a[2](∑y/n-(∑y/n)[2])=a[2](∑y/n)(1-(∑y/n))=a[2]p(1-p)=a[2]pq
    附图  {图}
    (3)对第三类问题即得分x∈[0,a]（a为该题满分），同样有
    s[2,i]≠pq（表2），但对大样本方差公式有s[2,i]=a[2]pz,0≤z≤p，因为：
    s[2,i]=∑x[2]/n-(∑x)[2]/n[2]│x=ay=a[2](∑y[2]/n-(∑y/n)[2])=a[2](∑y/n)(∑y[2]/∑y-(∑y/n))=a[2]p(∑y[2]/∑y-p)
    =a[2]pz其中  z=∑y[2]/∑y-p=∑y[2]/∑y-1+q  ∵y=x/a∈[0,1],∴0<∑y[2]/∑y≤1,0<z≤q，所以
        s[2,i]≤a[2]pq                    (4.2)
另外，要使(4.2)的等号成立，就必须有∑y[2]/∑y=1，从而有y=0或1，即x=0或a，因此我们得到结论：
    a.评分只有0分和1分是a[2,i]=pq成立的充分必要条件。
    b.s[2,i]=a[2]pz(z=∑y[2]/∑y-p)对上述三类问题普遍适用。
    附图  {图}
            3  结论
    经过实例检验和详细的理论推导，我们可以看出：
3.1  计算难度指数的两种方法对答案明确唯一的选择题等题目都适用，但对简答题、综合题等陈述性试题则应采用第二种方法，为简单起见，本人建议一律采用第二种方法。
3.2  从辨别指数的作用来看，由于辨别指数是用来说明题目区分不同水平的考生的指标，所以如果题目的辨别力好，则考生的水平（即试卷总分）越高，该题目的得分也应越高，即考生的水平与该题得分是正相关的，而第三种方法正是说明考生的水平与题目得分的相关性，另外该方法包含了所有的样本数据，能全面反映样本特征，所以
3.3  计算信度指数的两种方法对第一类问题都适用，对后面两类问题，第一种方法不适用，如果一份试卷包括上述三类问题，则应采用第二种方法，若对第二种方法作如下修正：
                  k          ∑s[2,i]/a[2]
             r= ─── (1- ────────)        (3.2)′
                  k-1           s[2]′
    则(3.2)′相似于(2.1)。该公式对上述三类问题都适用，建议在分析信度时采用(2.2)或修正公式(3.2)′。
3.4  对任何试题，其大样本方差恒满足：s[2]=a[2]pz(z=∑y[2]/∑y-p),s[2]=pq可认为是它的特例，仅适用于评分为0分和1分的试题。由此我们仍然可知试题的方差与其难度存在相依变动关系，对于第一类型的试题，中等难度试题（或项目）产生最大的方差，而对其它类型的题难度越接近中等难度且得分越趋近零分或满分，则方差（无
3.5  上述结果帮助我们在对测量结果进行分析评价时采用正确的方法提供了理论指导。
【参考文献】
    1  【美】B・S・布卢姆著，邱渊、王钢、夏孝川等译，教育评价
    2  彭建军。试卷质量多维测量评价系统的研究。武汉体育学院学报，1995,(3):78～81
    
    
    
 
