计算机应用研究
APPLICATION RESEARCH OF COMPUTERS
2000　Vol.17　No.5　P.11-14



多通道模糊指称及其可用性研究
方志刚　葛列众
摘  要  多通道用户界面强调以充分性代替精确性，允许用户在人机交互过程中使用不精确通道输入不精确信息。针对多通道用户界面对于实现不精确性目标选择的需要，运用模糊模式识别方法，提出一种根据不精确输入信息进行目标选择的算法。可用性测试表明了运用该算法实现的多通道用户界面所具有的优越性。
关键词  多通道用户界面  多通道整合   目标选择  模糊模式识别
1  引言
　　多通道用户界面(Multimodal user interface)研究强调[1]多个通道以并行、协作的方式工作及强调充分性代替精确性即允许不精确的输入信息。允许不精确输入进行人机交互过程是多通道用户界面的显著特征之一，意味着可以消除不必要的精确性，从而大大降低用户的认知负担，实现自然人机交互。然而，目前国内外提出的多通道整合算法[1,2]在处理手段和算法实现方面基本上沿用传统的精确方式，使得问题空间和方法空间的配合存在较大的不一致。本文提出一种利用模糊数学理论解多通道用户界面整合中目标指称这一重要问题，并通过可用性测试[３]证明可以更好地实现对不精确信息的整合。
2  多通道模糊目标选择算法实现
　　多通道用户界面的目标选择可以使用不同的指称技术，基本的指称技术有：①描述式(Descriptive)，如“长度为25，宽度为15的矩形”；②直指式(Deictic)，如用手指着屏幕上的矩形并说“这个(this)”；③指代式，如“它(it)”可指代曾经提到的矩形。可是，传统人机交互技术中使用的指称技术不仅单一，而且基本是基于精确方式的。例如，Pausch[４]使用“属性空间”距离判据来实现不精确输入的目标选择。该方法将具有不同量纲和范围的属性特征参数归一化后，求得与用户输入的未加工的输入流的一组“描述属性”值的加权或不加权的距离，并选择其中最小距离者作为匹配目标。这种方法存在的问题是：(1)从某种意义上说它是一种“绝对”选择，因为按照这种方法通常总会有目标被选中，即使相比用户的意图是明显不合理的，例如在所有“大的”长方形中选择“小的”长方形。原因在于它对人的自然表达包含的日常知识未予关心；(2)通常“描述属性”(如用户说“小的”)是离散值，而“目标属性”(如目标大小)却是连续值，此时应如何归一化“描述属性”？似乎只有牺牲“描述属性”的模糊性，将其“量化”为确定值从而演变为精确匹配。
　　由于模糊数学理论能够将用户日常经验和知识反映到交互过程中，因此可望借之解决多通道输入的模糊匹配问题，避免机械的数学变换。目标选择可被看作针对属性参数所作的模式识别问题。存在两种情形的模糊模式识别：(1)最大隶属度原则I。确定目标X1，X2，...，Xn中哪一个最接近模糊集A；(2)最大隶属度原则II，确定目标X属于模糊集A1，A2，...，An中的哪一个。识别算法的一般步骤包括：(1)特征抽取和模式生成；(2)隶属函数建立；(3)识别判决。常用原则有：(a)最大原则，(b)阈值原则，(c)混合原则。其中(b)适用目标复选，而(a)，(c)用于目标单选。运用模糊模式识别原理的目标选择采用最大隶属度原则I算法，即以用户对目标的“描述属性”作为模糊子集，分别计算交互场景中所有目标隶属于该模糊子集的隶属度，并选择最大者。具体算法描述如下：
　　Step 1  特征选择和提取   目标的选择可分为应用无关的和应用相关的两类特征。应用无关的特征如：(1)空间位置，(2)尺寸大小，(3)名称，(4)位序等。应用相关的特征如颜色、形状、重量、密度等。现以应用无关特征为例进行讨论，如：(1)位置模糊集：如“上，下，左，右，左上角，中央”等等；(2)大小模糊集：如“大，小，中等大小”等等；(3)名称模糊集：名称本为精确而唯一的特征，但自然语言中常有些不确切的表达如拼写错误，不完全名，缩写以及重名等；(4)位序模糊集：传统用户界面中目标的位序是确定的，如用Tab键遍历目标，或用箭头键遍历菜单项。而自然的交互风格应支持对用户使用模糊词汇如“下一个”，“上一个”，“前面的”，“后面的”，“附近的”进行遍历；(5)颜色模糊集：包括日常生活中常用的各种颜色，通常只使用有限的几种，这对于非专业应用领域已经足够了；(6)直指模糊集：这是一类非语言的属性模糊子集，来自指点手势或视线等输入通道，反映用户在交互场景中的“感兴趣区域(AOI-Area Of Interest)”。
　　Step 2  隶属函数的确定   模糊数学理论关于隶属度的确定有多种方法，包括统计法，主观评价法等。我们以几个应用无关特征为例加以说明：(1)位置：位置特征的隶属函数可采用以目标的中心点为自变量的分段函数，分别考虑二维和三维空间的情形。首先对交互场景或当前视窗进行分割，并找出特定位置(如“左上角”)的典型坐标，然后计算目标中心点与此位置的几何距离，并以该距离为自变量选择一种标准的隶属函数(如f(x)=e-k(x-a)2)。对于远远偏离该位置的(如“右下角”)目标，则令f(x)=0；(2)形状大小：隶属函数的确定与位置特征相似，先找出参照标准，再确定目标的实际指标与该标准值之间的函数关系。例如，对于“大的”、“小的”等特征模糊集，比较的指标可以是几何形体的面积(二维)或体积(三维)；对于“长的”、“方的”、“扁的”等特征，比较的指标可以是长宽比或宽高比等等；(3)位序特征用离散模糊集，如“附近的”，可表示为Anear={(-1)/0.9+(1)/0.9 +(-2)/0.7+(2)/0.7+(-3)/0.4+(3)/0.4+(-4)/0.1+(4)/0.1}。其中(-i)表示前面的第i个，(i)表示后面的第i个；(4)颜色：颜色的名称是人们约定俗成的，虽然每种颜色在色度图上占据一点位置，但对人的视觉而言实际是一个范围，颜色在该范围内的变化对人的视觉是等效的。而一般人在日常生活中能分辨的颜色数目更是有限。我们可以在CIE色度图上为典型的颜色选取一个中心点，然后计算目标的颜色(一般用RGB颜色系统表征)与该中心点的欧氏距离，并以该距离为自变量选择一种标准的隶属函数；(5)直指：手势或视线输入不能像鼠标器这样的精确指点设备精确控制到屏幕象素一级，只能反映具有一定范围的所谓“兴趣区域(Area Of Interest―AOI)”，而且这个范围的界限是模糊的。假设“兴趣”所指具有一定的概率分布(比如为正态分布)，反映了直指存在一个兴趣中心。
　　Step 3  描述模式生成   由于用户描述目标属性时常常组合各种属性，有时会加上修饰词如“最”，“很”，“比较”等。因此根据“描述属性”生成“描述模式”需借助模糊集合运算，包括：(1)求并(or)，C=A∪B，两种属性取其一即可；(2)求交(and)，　 C=A∩B，两种属性同时具备；(3)求补(not)，C＝Ac，不具备指定属性；(4)平方，C=A2，加强属性；(5)开方，C=A1/2，削弱属性。
　　Step 4  指称范围的确定   目标选择可以有单选和复选两种，视不同交互任务而不同。三种典型的目标选择范围是：①特定单选，要求描述无歧义，使用“这个”、“那个”(“the”、“this”、“that”)等限定词，或使用“最”(“most”)等修饰词；②非特定单选，允许描述存在多义性，可从中选取任一满足条件的目标即可；③复选，使用“这些”、“每个”、“所有”(“all”、“those”、“these”、“every”)等限定词。
　　Step 5  识别判决算法  目标选择的过程是根据用户的语言(或文字)描述的属性或手势指点的方位等模糊信息确定当前场景中符合这些属性及其组合的目标。根据不同的交互任务可有单选和复选两种形式。我们采用“最大隶属度原则I”完成目标识别算法，从交互场景的可达目标中找出与用户描述最佳匹配的目标。具体步骤：(1)根据用户描述的属性信息分析并选取有关特征，形成目标模式(target pattern)。根据“描述属性”中的形容词确定模糊集；根据程度修饰词确定对该模糊集的基本隶属函数的变换，如集中运算(平方)、散漫运算(开方)等；根据连接词确定不同模糊集之间的运算，如并(或)、交(和)、补(非)以及笛卡尔积等；根据范围限定词确定判决类别为单选(single selecting)或复选(multiple selecting)。由于允许用户组合各种属性，而为不同属性建立的模糊子集属于不同的论域，因此必须求出这些属性模糊子集的笛卡尔积。对于用户没有提及的属性则予以忽略，换言之，该属性不对本次识别提供约束信息；(2)根据目标模式的隶属度函数计算交互场景中每个目标在“描述属性”中所涉及的属性模糊子集的隶属度；(3)根据“描述属性”中包含的逻辑关系(与、或、非)和程度修饰词(很、比较等)计算目标的组合隶属度；(4)若为目标复选，则使用“阈值原则”判决，选择出隶属度高于阈值的所有目标；(5)若为目标单选，则综合使用“阈值原则”和“最大原则”判决，即在要求隶属度高于阈值的前提下，选择隶属度最大的目标。在单选情形下，有可能发生选择失败，其原因可能是由于输入的描述信息不充分(上溢)，也可能由于不存在满足约束属性的目标(下溢)。
3  关于多通道模糊目标选择算法的实验评价
　　我们在多通道用户界面研究中实现了上述算法，并进行了可用性测试[5]，本文引用的数据是该实验的一部分。实验采用一个类似游戏的拼图作业来测试和比较多通道用户界面和传统的基于鼠标器的图形用户界面之间的交互效率的差异。选择鼠标器和语音做可用性测试实验是由于考虑到如下原因：①鼠标器和语音在当前是两种典型的交互通道，两者的配合也最为典型；③鼠标器是目前使用最为广泛的交互设备之一，而近年来语音识别技术也正走向实用，很可能在不久的将来成为常用的交互手段。显然，鼠标器是典型的精确指点设备，而语音在某种程度上具有自然语言的模糊性。
　　本实验被试共有18名，为电子工程系和心理学系本科生和研究生，年龄在19岁~23岁。所有被试视力正常或矫正视力正常，无色盲和色弱，均为右利手，普通话基本准确，基本能被语音识别系统正确识别，鼠标器操作技能一般。被试被分成鼠标组和语音鼠标组两个实验组。在拼图作业中，被试首先执行目标选择任务，进而执行后续拼接动作。目标大小以屏幕象素为单位，分为1×1、3×3、5×5、7×7及大于9×9等五个级别。语音鼠标组被试可自愿以两种方式之一执行目标选择任务：①将鼠标器光标置于待选目标上，单击左键以选中目标；②将鼠标器光标置于待选目标附近的相应位置，口述“这个”、“上”、“下”、“左”、“右”等以选中目标。鼠标组被试只能用鼠标器选择目标。与目标选择有关的实验结果如下(以下数据处理结果由SSPSWIN软件包完成，反应时以秒为单位)。
3.1  不同交互通道对目标选择的影响
　　表1和图1为鼠标器操作方式和语音操作模式下被试完成目标选择的平均反应时。其中不同操作方式下操作反应时有明显差异(P均为.000)，由此可见，被试的语音操作绩效明显优于鼠标器操作。
表1 不同操作方式下目标选择反应时的比较

鼠标操作语音操作t检验
5.5342.9007.38(P<.000) 

3.2 不同的目标大小对目标选择的影响
　　本实验中目标大小有5个等级，经统计检验，除最小的目标等级(1×1)，其余4个等级之间被试各种操作绩效没有显著差异(P大于.05)，所以我们仅对最小和最大这两个等级的被试操作绩效进行分析。表2和图2即为1×1和9×9以上两个等级目标大小条件下，被试完成目标选择的平均反应时。在不同目标大小条件下，各实验组之间被试的操作反应时都有明显差异(P均小于.05)。 
表2 不同目标大小条件下目标选择反应时的比较

目标大小1×19×9以上
操作方式鼠标组标语音鼠组鼠标组语音鼠标组
选择反应时18.3204.1092.9852.154
t检验8.18(P<.000)2.11(P<.05)

3.3 被试对不同交互通道的偏爱
　　表3和图3为1×1和9×9以上两个等级目标大小条件下，语音鼠标组被试在完成目标选择时所选用操作方式的次数。在不同目标大小条件下，被试明显偏爱使用语音操作方式(P均小于.000)。特别在小目标时，几乎毫无例外地选用了语音操作方式。在大目标条件下，虽然被试明显偏爱使用语音操作方式(P均为.000)，但是与小目标条件相比，被试较多地选用了鼠标操作方式。例如，在小目标条件下，被试一律选用语音操作方式；而在大目标条件下，被试有36次(占总操作次数的18%)采用鼠标操作方式。由此可见，被试明显偏爱使用语音操作方式，但是这种偏爱受到特定操作任务类型(如对大小目标的定位)的影响。 
表3 不同目标大小条件下语音鼠标组被试

目标大小1×19×9以上
操作方式鼠标组标语音鼠组鼠标组语音鼠标组
选择次数020036164
x2检验非常显著81.92(P<.000)

3.4 讨论
　　本研究的实验数据证明，多通道人机交互方式明显优于单通道人机交互方式，其内在机制主要与多通道用户界面的通道负荷水平和通道互补性有关。
　　所谓通道负荷水平是指在进行人机交互过程中用户使用该通道时的负荷大小。在人机交互过程中，用户使用不同交互通道具有不同的通道负荷水平。这种通道负荷水平与任务的性质有很大关系，通常可以根据输入信息的精确程度，将人机交互大体上分为精确和非精确两种方式。用户在精确交互时负荷水平较高，而在进行非精确交互时负荷水平较低。例如，在本实验中鼠标定位操作相对于语音定位操作是精确操作，负荷水平较高，作业绩效相对较低。这种情形在小目标定位操作时尤为明显，鼠标操作为18秒，语音操作为4秒（如表1、2和3所示）。表3中被试对语音操作和鼠标操作的偏爱选择数据从另外一个侧面说明，可能由于语音操作负荷较低，被试更多选择语音操作方式。当然，在定位大目标时，由于鼠标操作方式的负荷水平相对降低，被试也较多地选择了语音操作方式(达36次，占总操作次数的18%)。综上所述，在多通道人机交互中，用户可以在多种通道的交互方式中进行选择，采用非精确交互代替不必要的精确交互，从而降低人机交互过程的整体负荷水平，使人机交互过程更为自然，提高了人机交互的效率。 

图1不同操作方式下目标选择反应时的比较

图2不同目标大小条件下目标选择反应时的比较

图3不同目标大小条件下语音鼠标组被试对不同操作方式的偏爱选择次数
　　所谓通道互补性(Complementary)是指由于多通道用户界面中不同交互通道之间存在特异性，即不同通道适合执行不同特点的交互任务。因而在人机交互过程中，各交互通道操作之间可以相互补充。对于任一通道来说，并不存在一种普遍的优越性。也就是说，没有一种通道对所有任务的操作都是最优的。如表2所示，尽管在不同目标大小条件下，被试的语音操作绩效都明显优于鼠标操作，但是在大目标条件下，被试的鼠标操作绩效相对小目标时较好，在不同目标大小条件下，鼠标操作与语音操作的选择反应时差异值在小目标时为14.21秒；大目标时为0.83秒。这说明鼠标操作对于大目标的定位操作有一定的优越性，语音操作相比鼠标操作对小目标的定位操作有显著的优越性，两者相互补充达到最优组合，使操作效率达到最佳。这种情形在被试的偏爱选择上也有所反映。如表3所示，在小目标条件下，被试定位操作一律选用语音操作方式，而在大目标条件下，被试有36次(占总操作次数的18%)采用鼠标操作方式。尽管实验数据已经证明语音通道在对目标选择具有明显的优越性，但是，当语音识别系统的识别率因种种原因(环境噪音、积累误差等)而下降时，为保证继续执行任务，被试虽不情愿，但还是临时使用鼠标器代替本来可由语音完成的任务，直到语音认别系统恢复正常。这是独立的语音通道难以胜任的，也正说明通道互补性对提高多通道人机交互效率的重要作用。
4 结束语
　　我们在多通道用户界面研究中运用了本文提出的多通道模糊目标选择算法。可用性测试表明，使用在目标选择算法中使用模糊模式识别技术可使整合结果更好地符合用户的交互意图。根据实验结果和分析，我们可以得出如下结论：采用模糊目标选择算法的多通道用户界面在总体效率上优于单通道用户界面，比依赖欲精确目标选择方式的单通道用户界面具有更广泛的任务适应性。 致谢 本文得到浙江大学心理学系主任、博士生导师王坚教授的帮助，在此表示衷心感谢。
本文获得国家自然科学基金资助
本文获得浙江省自然科学基金资助
方志刚(浙江大学CAD&amp;CG国家重点实验室  杭州 310027)
葛列众(浙江大学心理学系  杭州 310028)
参考文献
1，M. Chen, J. Luo & S. H. Dong. Task-Oriented Synergistic Multimodality. In Proc. of the First International Conference on Multimodal Interface (ICMI' 96), Beijing, 1996
2，L. Nigay & J. Coutaz. A Generic Platform for Addressing the Multimodao Challenge. In Proc. CHI' 95 Human Factors in Computing System. ACM New York, Denver, 1995
3，L Nigay, et al. Four Easy Pieces for Assessing the Usability of Multimodal Interaction: The CARE Properties. In: Proc. CHI' 95 Human Factors in Computing System. ACM New York, Denver, 1995
4，R. Pausch & R. Gossweiber. Application-Independent Object-Selection from Inaccurate Multimodal Input. In: M. M. Blastner & R. B. Dannenberg. eds. Multimedia Interface Design. Massachusetts Addison-Wisley, 1992
5，方志刚, 葛列众. 多通道用户界面的可用性测试. 人类工效学, 1999, 1
收稿日期：1999-12-17
