计算机应用
Computer Applications
1999年 第19卷　第8期 Vol.19　No.8 1999



基于多级内码的信息服务系统
――谈多级内码理论在信息领域的应用
刘功申　吴胜远　
　　摘　要　多级内码理论是一种新型的汉字处理理论，其独特的优点使其具有广阔的发展前景。录音和人工方式一直是信息台不可逾越的障碍。基于多级内码的信息服务系统，巧妙地运用了MMC理论，解决了这方面的问题，填补了国内外空白。本文介绍了多级内码的分词方法的应用，以及信息服务系统的组成和功能，说明了系统的发展前景。
　　关键词　多级内码，数据库处理平台，信息机系统，MCTI
THE INFORMATION SERVICE SYSTEM BASED ON MMC
Liu Gongshen　Wu Shengyuan
Department of Computer Science, Sandong University of Industry, Sandong．Jinan 250061
　　Abstract　Theory of multilevel machine code is a new theory of Chinese information-handle which has great prospect with its special advantages. Recording mode and manual mode are always the unoversteping handicap. The information service system based on MMC, uses the theory skillfully, overcomes these problems, and fills up domestic and overseas blank. This paper introduces the application of MMC words segmentation, the construct and function of the information service system, illuminates the future of the system.
　　Keywords　MMC(Multilevel Machine Code), Processing platform of database, Information machine system, MCTI(Multilevel Computer Telephone Integration)
1　信息服务现状
　　目前，传统的160、168等信息服务业务都是采用两种方式：用录音文件来应答用户的请求；值班业务员应答用户的信息查询及请求。然而，在现实生活中，大量的信息都是以数据库的方式存在。并且，我们知道，这些数据库都是普通文本数据库。虽然，TTS技术已相当成熟，但由于分词不能精确的自动完成，传统的声迅台都不能提供数据库文本信息的语音服务。基于多级内码的语音处理技术恰好解决了分词方面的问题，该技术与数据库处理平台相结合，使得数据库文本信息的语音服务成为现实。
2　系统的概貌
　　在高速发展的信息时代，以PC机为终端的计算机通信网和以电话机为终端的电话网，几乎覆盖了人类生存的各个角落。近几年来，随着Internet的发展，多媒体、ATM、IP、语音处理技术和程控交换技术的进步，使两大通信网在高层次上融为一体成为可能，这就是近几年迅速发展的CTI，即计算机电话语音集成技术。CTI技术在组建客户服务信息网络中起着核心作用。
　　MCTI是基于多级内码理论的CTI。基于多级内码的信息服务系统是MCTI的实际应用。由于多级内码的编码特殊优点，所以在MMC为基础的CTI中，不必预先录制发音信息，可直接按照多级内码的编码方式播放，大大减少了信息的维护量，节省了系统的存储空间和处理时间；又由于采用ODBC技术，可对任意种类的数据源进行处理，使其可方便灵活地对现有的信息进行处理，大大增强了系统的通用性。
　　整个系统是一个基于Windows NT的局域网。系统通过信息机与公众电话网（PSTN）进行交互，给用户提供语音服务；通过处理机与信息源相连，挖掘信息，并进行多级转换处理。信息源主要指远程的数据库。
　　系统主要由四个组成部分：信息机系统，它主要负责接受外部通讯网的信息，负责监听、调度座席，并把经过座席处理的信息发送给用户；数据库处理平台，主要负责普通数据库（通常的文本数据库）转换为多级内码编码；坐席系统的任务是通过服务器实现信息机与座席的信息交互，或直接实现客户与坐席服务员的通信；服务器是系统所有资源的存储器。提供给用户查询的相关数据库、系统管理数据库、系统语音数据、用户语音数据都存储在服务器上。


图1　基于多级内码的CTI系统
3　信息机系统
　　信息机主要由语音板卡、PC机和软件构成，它的构成类似于传统的声讯台组成结构。其中，语音板卡采用DIALOGIC公司的D300或D41E等。语音卡直接插在计算机的扩展槽上，占用一个中断地址。计算机CPU通过中断响应控制语音卡完成摘机、挂机、录音、放音、自动拨号、DTMF接收识别等功能。所有语音查询系统的设计都可以采用这一模型。通过软件和语音卡的配合，实现信令处理、流程控制、业务处理以及结束呼叫处理和系统退出等过程。它的功能主要有：
　　电话公告功能　该功能可以将公告文本转换成正确的语音流，供电话用户查询信息。当用户拨通系统的特服号后，依照系统提示拨相应的公告号码，系统就会将该信息号对应的公告文本转化后回放给呼叫者。
　　录音和回放及扩展功能　根据不同用户的要求，系统采用数字化方法可以录制歌曲、股评，留言等信息存放在磁盘上。用户可以利用系统的回放功能收听上述信息。在此基础上，可以建立语音邮箱或录音电话系统。该录音电话系统具有保密性，用户凭密码访问，可以方便的对自己的邮箱进行更改密码、重复提取、清空、设置邮箱容量等操作。
　　数据库管理功能　系统的数据来源比较广泛，而且更新速度比较快，对此系统提供了相应的数据库接口以实现数据库管理功能。该模块采用ODBC接口，保证了系统的通用性。
　　坐席的转接　根据用户的不同，判断是否将呼入用户转入座席服务员。由座席服务员完成信息的查询，然后，按照自动或半自动两种方式将信息反馈给用户。
　　质检席(班长席)的设置　作为为社会公众服务的信息查询系统，同样涉及到服务质量的问题。系统设置了质检席，从质检席可以选择监听任一话务员的服务。还可以将其服务过程记录在质检席的磁盘中，以便进行服务后的核对检查。
　　电子邮件信箱的设置　系统的这种功能使用户仅仅拨一个电话，就能收听到自己最新的电子邮件。
4　数据库处理平台
　　数据库处理平台是一个处理软件，它运行于处理机上。由于处理的信息多为数据库信息，所以叫数据库处理平台（实际上，该平台不仅仅是对数据库处理）。其功能主要是把数据库（各种数据库：SYBASE、ORACLE、DB2、VFP、SQL SERVER等等）的文本信息处理成多级内码信息，以便于该种信息的电话访问。
　　平台的其他功能包括：对未经处理的文本进行多向转换；在电子邮件信箱功能中，接收电子邮件，加以转换；对系统进行管理，在系统不停机的状态下，加入或修改业务流程;实现与服务器和座席的信息交互。这些功能可以集中在一台处理机上，也可以由若干台处理机分别处理，以便减轻单台机器的处理强度。处理机的配置是相当灵活的。
　　该平台负责单级和多级信息之间的转换，并在服务器上维护相应的信息库，信息库内存放的是经过多级内码技术处理过的信息。该信息的特点是，包括了分词信息、音调信息、音律信息等等。并且，根据远程数据库的更新，能实时更新信息库的内容；另一方面，实现信息机与处理平台对服务器上的信息库的并行访问，信息机可以同时访问多个信息库。
4.1　对数据库字段的分词处理
　　对某一数据库字段进行分词处理的特点如下：
　　字段内的文字是分类的(姓名字段都是人名，地址字段都是地址)。因此，可以在对字段进行分词处理时用专门的分词算法；
　　字段内最复杂的是单句的处理，单句的信息一般不会受上下文语境的影响。也就是说一个单句可以表达一个清晰的含义而不受上下文的影响；
　　延迟处理。(如果万一有含有歧义的句子，在信息的自动化处理阶段，可以标记而等到人工后期的检测处理阶段。)
4.2　数据的实时更新
　　服务器上存放着数据源的一个映像库。数据源可以是本地的，也可以是远程的；映像库存放的是经过处理机处理后形成的多级内码信息。当数据源有添加，删除，更新等操作时，我们希望服务器上的信息也能动态更新，或者在一个很小的时间延迟内进行更新。也就是所谓的数据一致性问题。
　　经过考察我们知道：对于大型数据库应用系统，总是存在日志文件。在日志文件中， 记载了添加，删除，更新等操作的内容。可做一个监控程序，对日志文件进行监控，提取有关信息，让处理机对映像库进行实时更新。
　　对于小型数据库应用程序，可以有两种方法：首先，有些比较正规的应用程序都有用户自己开发的日志文件，处理方法等同于大型数据库的处理方法；其次，若没有用户自己开发的日志文件，由于数据量一般不多，可以在数据源端开发一个监控程序，用逐个检测的方法解决。
4.3　异种数据库的访问
　　对于异种数据库，采用ODBC进行连接，实现极为灵活的数据源处理功能，包括动态选择数据源，动态选择数据表，动态选择表中的字段，动态确定处理的记录，保证了对异种数据库的信息处理能力和应用程序的通用性，并且提供多个数据库的同时访问，具有实时性好的优点。采用多级内码分词理论，实现数据表中的内容的多向转换。
5　座席系统
　　信息机负责接受外部通讯网的信息，负责监听调度座席，并把经过座席处理的信息发送给用户；座席终端的功能主要是给话务员提供人工查询的平台, 实现对由信息机传来的信息进行关键字的结果查询，把结果传给用户。坐席系统在整个MCTI系统中完成座席的查询功能及信息发送，其实现中采用的技术主要有：使用ODBC技术完成对信息的动态处理和动态查询,通过多级内码的单向转换（多级到单级的转换）算法确定回传信息。其回传方式有两种：
　　人工方式　把座席服务员的声音直接播放给用户；
　　半自动方式　坐席服务员把查询结果传给信息机，由信息机按照文本播放合成后的语音信息。
6　应用和意义
　　该系统可广泛应用于证券、金融、广告、交通等行业的信息查询系统、语音信箱系统等。对于一个企事业机构来说，将客户和企业有机的结合在一起，不断地增加使客户感到满意的服务，这是一个企业在当今市场取得成功的重要因素。该系统的作用就是在企业和客户之间架起连接的桥梁，使企业为客户提供上乘服务。
　　考虑到多级内码存储量小（人以正常语速一秒所描述的信息，以多级内码格式存储，仅仅需要几个字节。）、中国的电话普及率比电脑普及率要高的多（山东省几乎村村通电话，有一些大学校园更是每个宿舍都普及了电话。）、特殊环境下电话（包括无线电话）的优点（交通警察值勤时电话总比电脑方便）。特别是，大量的信息来源于数据库，像图书馆信息、科技情报检索、考试成绩信息、电话费信息等等，这些都以文本的形式存储于数据库。运用该系统后，仅用电话，就可以查询你想要的信息。可见，系统的应用前景是充满希望的。
作者简介：刘功申　硕士研究生。　吴胜远　教授,硕士生导师。研究方向：中文信息处理、计算
　　　　　机电话集成技术。
作者单位：刘功申　吴胜远　山东工业大学计算机科学技术系　山东．济南（250061）
参考文献
　［1］　吴胜远.多级内码理论及应用效果.计算机应用，1995;(9):68-70
　［2］　(美)Raj Rajagopd, Subodh P.Monia,著. Windows NT4 高级程序设计.前导工作室，译.北京：机械工业出版社
　［3］　付　军,杨学君，郭　杰.一种基于语音卡的通用电话查询系统的设计.计算机工程与应用,1998,11:67-69
收稿日期:1999-02-28
