微型机与应用
MICROCOMPUTER & ITS APPLICATIONS
2000 Vol.19 No.2 P.50-52




索引软件与语料库语言学
陈明瑶
摘 要： 索引软件的工作原理、主要功能以及索引软件在计算机语料库中的应用，包括在语言学、英语教学研究中的应用。
关键词： 索引软件 语料库 词形检索
　　索引软件是用于开发与分析计算机语料库的计算机程序。语料库是指存放原始语言材料的数据仓库。语料库语言学就是利用计算机语料库的原始素材对语言的某个方面进行研究，或对现有的语言学理论进行批评、修正。现代语料库语言学得以迅速发展，索引软件的作用功不可没。1959年，R． Quirk着手建立的“英语用法”语料库及1961年N． Francis和H． Kucera为首的一批语言学家和计算机专家共建的布朗语库即是现代语料库索引软件的发祥地。
1 索引软件的原理与功能
1．1 索引、索引大全、索引软件
　　索引（index）一般是全书的一小部分，附在书后，将著作中主要词语按字母顺序排列，并注明在书中出现的页码。索引大全（concordance）与索引的不同之处在于索引大全同时提供中心词所在的上下文的一部分。如果要查找具体的引证，则索引大全要有用得多，但同时也需要更多的篇幅，因此索引大全通常是独立的著作。索引软件可将语料库中各词形出现的全部场合在屏幕上显现出来或打印出来。索引软件与索引大全有几个显著的不同：
　　（1）索引软件所检索到的信息是动态的，内容是可以扩展的。它不但能检索出输入到计算机中的文本所含的全部词形，而且其出现频率以及在原文中的地址也一目了然。确定查找某一词形的上下文时，该词形所在的行就在屏幕上同时显示。要更深入地观察某一同现行的上下文时，该词形所在的原文又可扩展到原句、原段并显现出来。
　　（2）查到所需要的内容后，处理方便。既可在屏幕上观察，又可打印出来进一步研究。还可以存盘再处理，或写到其它的文件中去，节省了许多抄写、再生的环节。
　　（3）计算机所能处理和储存的信息量很大。对输入的语料不需要删略语法功能词或高频词。不但可以查词和词语，还能查语法结构、语法类型，扩大了研究的范围。
1．2 工作原理
　　建立计算机语料库，输入的文本一般为很简单的形式：一串字母、空格或标点，这些统称为字符，保留大小写的区别。页号与行号也保留，作为参考。排版格式、字体号等内容则删掉。
　　索引软件对1个词的定义，在英文里以符号串之间的空格作标志。每2个空格之间的字符串称为1个标形（token）。相同的标形被视为同一类型（type），即词形（form）。词尾的变化一般不归入某一词的原形之下。例如come一词，它的几种形式（come comes came coming）被作为4个词形对待。对同形异义词，在没加词类标记或语法标记的语料库中，被作为同一词形对待。用分割号隔开的一些省略用法，如you＇d we＇ll can＇t等，均被作为单一的词形对待。这在实际分析语料时很有用。
　　输入到语料库中的文本通常以ASCII码形式储存。
　　文本被数字化以后，程序可以自动给文本的每一个标形建立1个索引数据，并把每一个标形与它所在的上下文中的地址（address）联系起来，把与每个标形共同出现的索引行确定或产生出来待查。索引程序将建立的索引数据的文本按一定顺序重新分类排序，以便查找。
　　发出检索某一词形的指令后，由索引软件辨认出构成该词形的所有标形及地址，把与这些标形同现的索引行并写在一个外部文件上。并将索引出来的行分类该文件每行长度最多可达130个字符。根据需要可集中显示或打印出来。
　　要完成上述检索，借助数据库的SQL指令即可以得到解决。SQL中最重要的指令之一是SELECT，其基本格式为：
　　SELECT〈选择项目〉
　　FROM〈数据库｛，数据库｝〉
　　[WHERE〈选择的条件〉］
　［ORDER BY〈递升排列｜递降排列〉］
　［GROUP BY 〈域名〉］
　　HAVING〈入选组的条件〉
　　虽然DBMS技术本身已经很成熟，但在语料库处理中运用时，还应按语言学的实际需要加以选择，并进行必要的修改，才能收到令人满意的效果。例如，面向语料库数据检索的SELECT指令可定义为：
　　CSELECT〈选择项目〉
　　FROM〈语料库｛，语料库｝〉
　　WHERE〈语言现象条件〉
　　［ORDER BY 〈排序要求〉］
　　［GROUP BY 〈归组要求〉］
　　［HAVING〈入选组的条件〉］
　　该语料库信息检索语句叫做CSELECT（CSELECT是CORPUS SELECT的简称）。下面逐条加以解释。
　　“WHERE〈语言现象检索条件〉”子句由关键词“WHERE”和表示目标语言现象的条件的参数组成。这种条件可以是（出现）某个单词、短语或句型等，也可以是这些简单条件（或它们的数学函数）的逻辑表达式。
　　为了提高语言现象的表达能力和实际应用上的方便性，可直接采用UNIX，Windows和DOS等广泛使用的大家所熟悉的字符统配符“？”和“*”。 
　　在分词连写的语料库中，单独1个“*”会匹配1个词，而“a*”或“大*”将匹配以英文字母“a”或汉字“大”开头的词。为了进一步满足语言学研究的需要，可以增加1个表示单词串和短语的统配符“＃”，用来匹配以分词符号（常为空格）分开的单词串（不含标点符号）。
　　统配符加自然数（1、2、3、…）则表示统配符变量。如“＃1”和“＃2”是2个单词串变量，“*1”和“*2”表示2个单词变量，而“？1”和“？2”则表示2个单字符变量。因此，下面的中文和英文短语类型：从…经…到…，from…via…to… 可方便地表示为：
　　从1经＃2到＃3，from＃1via＃2to ＃3。还可以像DBMS一样，通过数学函数和逻辑运算将这些表示词、短语或句型的简单条件结合成为表达力更强的语言现象表达式，例如：
　“（*1er）AND （LENGTH（*1）Q4）”表示以英语er结尾，长度等于或小于4个字母的词。可供语料库处理直接使用的数据库函数有：COUNT（表示某语言现象的实例的个数） LENGTH （词或词串的长度）AVERAGE（平均值）等，常用的逻辑运算有：AND（与） OR（或） NOT（非）等等。
　　“CSELECT〈选择项目〉”子句用来表示对于目标语言现象在语料库中的每次出现，应抽取多大范围的上下文来组织索引表。常用的〈选择项目〉有：
　　±N：满足条件的语言现象及其左右各N个字符
　　line：语言现象所在的文字行
　　sentence：语言现象所在的整个句子
　　根据语料的结构〈选择项目〉也可用某些模式（pattern）来表示，如
　　［…］：包括目标语言现象的最小方括号及其内容
　　［NP…］：包括目标语言现象的最小名词短语及其内容
　　这对于做了语法标注的语料库检索来说是很有用的。〈选择项目〉中也可采用数学函数，对查出的语言现象作统计处理。如
　　SELECT COUNT（大*）
　　表示输出目标词形“大*”的出现次数。
　　“FROM”子句用语指定语料库查寻范围。这可能包括语料库中的特定部分，也可能包括整个语料库或一组语料库。
　　“ORDER BY”子句规定如何将检索出来的索引项目加以排列。一般是按某种语言特征作正序或倒叙排列。
　　“GROUP BY”子句规定如何将检索出来的索引项目分组，如按某个词的词形进行分组。
　　最后1个子句，即“HAVING”子句，给出合格组别的选择条件是对“GROUP BY”子句的处理结果的进一步筛选。
　　我们还可以像传统的数据库那样，通过建立检索索引（indexes），进一步提高语料库系统的效率。这样，语料信息检索就可以分2步来做：
　　（1）通过索引表（可由计算机自动产生），找到含有目标语言现象的文本文件；
　　（2）遍历这些文件找出所要的语言信息。
1．3 主要功能
　　利用索引软件所进行的最简单形式的索引是位置索引。它指明构成某个词形的各个标形在文本中的出现位置。同时也能提供该词形的出现频率。第二种是以行的形式索引。它适合诗歌、诗歌剧的文本。其各行长度相仿，一行足以表明某词的作用。
　　最有用也是最常用的索引形式，是关键词带上下文的定位行索引（Key Word in Context 简称KWIC）。要考察的关键词形与其上下文同时出现。上下文的长度可以根据需要调整设定。如＋6表示左右各有6个词。最有用的是在关键词的右边，按字母顺序排列各同现行的下文。这种排法突出了中心词引起的词组。另一种排序法，是将关键词左边的上文按最末一个字母的顺序排列。当中心词是动词时，这种排序法常能迅速地找出动词的主语，从而为了解主谓搭配和篇章的主题提供有用的线索。上下文也可以按照出现的频率从高到低排列，把与关键词最常出现的词形首先集中同现。这对研究英语词语的搭配极其有用。
　　对语料库中的高频词，可以用取样索引的方法，缩小样本。例如索引某词时将参数定为每10行索引一处，就将该词的索引样本缩小到原来的1／10。
　　利用通配符（*）可查找与某一词的原形有关的其它词形。
　　利用组合逻辑（Combination Logic）和“with／n”操作符，还能检索出与词组，短语，词的搭配以及关键词有关但被其它词隔开的上下文。有些索引软件，还可以进行布尔组合式检索（Boolean Combination），即逻辑性检索。例如，将2个反义词（hot／cold fire／water等）各自所在的全部句子同时检索出来加以对比，或将具有逻辑关系的词（如and／or）连同上下文同时检索出来加以分析。还有的索引软件可以检索各类词缀。
　　对加了词类标记或语法标记的语料库，索引软件可以查找在未分析过的语料库中无法查找到的一些语法现象。如不带to的不定式结构，各种从句，同位语结构等，为研究语法提供了方便。
2 索引软件的应用
　　借助于计算机的强大计算与信息处理能力，索引软件可以快速地从计算机语料库中检索到所需要的内容，并可将它与所在的语言环境一起观察，或与相关的语言现象对比研究，有巨大的使用价值，在文学、语言学和英语教学等方面得到了越来越广泛的应用，产生了丰富的成果。
2．1 在语言学研究方面的应用
　　Leech［3］指出，以计算机为基础进行研究的最简单、用得最广的工具，就是索引程序。典型的范例是：
　　（1）词汇学研究。辨明某词汇项在上下文中的含义和与该词用法有关的其它特征，如句法、文体、语用特征。 
　　（2）归纳型语法研究。辨认并归纳出某语法项或结构在句法、语义、语用、语体方面的典型例子。标有词类和句法的语料库更适合这一目的。
　　词汇学方面，Fillmore2研究了risk一词的用法。方法是：（1）比较10本英语词典的解释，归纳出risk的3种得到解释的用法。（2）从1个含2500万词的英语语料库中，检索出含有risk一词的全部例句（1743句）并分析研究，发现了词典中没有解释到的risk与in on to连用的例子。
　　辞典学方面，Atkins和Levin［1］比较了牛津英语语料库1个5000万词分库里1组与shake有关的同义词（shake quake shiver shudder tremble vibrate）的用法，然后将归纳出来的结果，与3本重要的英语辞典（OALD LDOCE Cobuild）的解释作了比较。发现：（1）被认为无例外地作不及物动词用的5个词（quanke quiver shiver shudder tremble）都至少在语料库中用作及物动词一次以上。（2）这3种词典对这7个同义词的解释缺少系统性。
　　词语搭配方面，Cobuild搭配词典的出版，是利用索引软件和统计软件研究语料库中词语的搭配的突出范例。另外，Sinclair4在对of一词搭配的研究的基础上，对它的词类归属提出了质疑，认为不应该将它归为介词。因为其它的介词一般位于名词前，构成起从句修饰作用的介词短语。而of则对于它前面的名词更敏感。
　　句法方面，用索引出来的上下文，归纳关键词所在句子的句法结构相当便利。
2．2 在英语教学方面的应用
　　在英语教材编写方面，Biber等人曾对“名词＋后置修饰语”的结构进行了研究。他们先统计了80年代的4本英语语法书中对这一结构的处理篇幅，发现各书重点相同，均把关系从句作为中心，讨论的篇幅合计60页。“名词＋介词短语作修饰语”的结构最不受这些书的重视，篇幅合计不足5页。
　　用索引软件对LOB英语库和1个含有11．5万词的私人信函库的检索却表明，“名词＋介词短语作修饰语”的结构，比“名词＋从句”的结构的使用频率高得多：每千词中二者的比例是23．4：5．5，而且已有研究表明，“名词＋介词短语”的结构对英语学生是一种困难结构。
　　这说明教学性的语法书对语言现象轻重缓急的处理，常常不符合实际使用情况。在编写这类教材时，不但应该考虑语言现象的难易程度和可教性，而且应该把它在实际使用中的情形考虑进去。
3 结 论
　　索引软件毕竟只是一种工具，计算机化的语料库才是基础。语料库的大小与取样的代表性，直接影响并决定索引结果。Fillmore在研究risk一词的用法时，尽管从含2500万词的1个语料库中得到了全部例句，却没能说明run the risk与take the risk的区别的例句。他用想象的例句才说明了二者的区别。因此语料库只能提供材料，索引软件极大地便利提取材料的过程，当然决不能代替语言学家自身的思考与分析。
陈明瑶（宁波大学外语学院315211）
参考文献
1，Atkins B T S，Beth L．Building on a Corpus： A Linguisitic and Lexicographical Look at Some Near Synonyms．In－ ternational Journal of Lexicography， 1995；8（2）：85
2，Fillmore Charles J． Corpus Linguistics or Computer－ aided Armchair Linguistics．in Jan Svaetvik （ed） Directions in Corpus LinguisticsMouton De Gruyter，1992：35
3，Leech G． Corpura and Theories of Linguistic Perfor－ mance， in Jan Svartvik （ed） Directions in Corpus Linguistics， Mouton De Gruyter，1992：105
4，Sinclair J，1991．Corpus，Concordance，Collocation． Oxford，1991
收稿日期：1999－10－12
