计算机研究与发展
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
1999年 第36卷 第8期 Vol.36 No.8 1999



WWW上的信息挖掘技术及实现
邹　涛　王继成　朱华宇　金翔宇　张福炎
摘　要　随着Internet应用的逐渐普及，WWW已经发展成为一个巨大的分布式信息空间，为用户提供了一个极具价值的信息源.但因Internet所固有的开放性、动态性与异构性，又使得用户很难准确快捷地从WWW上获取所需信息.文中将数据挖掘的思想引入WWW信息处理领域来解决网上信息有效获取的问题，讨论了在WWW上进行信息挖掘所采用的算法和策略，最后简要介绍了一个采用向量空间模型和改进Robot技术的网络信息挖掘系统的设计与实现.经实验表明，系统能够较好地解决WWW上的信息自动获取问题.
关键词　信息挖掘，数据挖掘，VSM，WWW
中图法分类号　TP391
THE TECHNOLOGY IMPLEMENTATION OF INFORMATION MINING ON WWW
ZOU Tao, WANG Ji-Cheng, ZHU Hua-Yu, JIN Xiang-Yu, and ZHANG Fu-Yan 
(Department of Computer Science and Technology, Nanjing University, Nanjing 210093)
(State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093)
Abstract　With the development of Internet, World Wide Web has become a huge distributed information space, which provides users a massive and valuable information resources. But with Web's rapid growth, quickly obtaining what users need on WWW is getting more difficult because of Internet's opening and heterogeneity. Information mining on WWW is a new technology that adopts data mining technology to retrieve information on Internet, and can solve the problem of rich data and poor information in WWW. Described in this paper are the method, algorithm and strategy of information mining on WWW. The design and implementation of a prototype system, which adopts vector space model and modified Robot technology, are presented. 
Key words　information mining, data mining, VSM, WWW
1　引　言
　　自从WWW(world wide web)1991年诞生以来，已经发展成为拥有近亿用户和约400万站点、3亿页面的巨大分布式信息空间，而且其信息容量仍在以指数形式飞速增长［1］.WWW是以超文本的形式呈现给用户的，包含了从技术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息，为用户提供了一个极具价值的信息源.Internet是一个具有开放性、动态性和异构性的全球分布式网络，资源分布很分散，且没有统一的管理和结构，这就导致了信息获取的困难.如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题，这也就是所谓的Rich Data Poor Information问题.本文将数据挖掘(data mining)的思想引入网络信息处理领域,讨论在WWW上进行信息挖掘所需的几项关键技术，并简要介绍了一个网络信息挖掘实例系统――IDGS的设计与实现.
2　WWW上的信息挖掘
　　网络信息挖掘技术是数据挖掘技术在网络信息处理中的应用［2］.信息挖掘是指在大量训练样本的基础上，得到数据对象间的内在特征，并以此为依据进行有目的的信息提取.网络信息挖掘与网络信息检索所采用的技术有很多相似之处，但两者又有本质的不同.现有的网络检索工具一般都是由Robot、索引数据库和查询服务3个部分组成［1］，其Robot在WWW上的漫游是无目的性的，其功能就是尽量多的发现新内容，不加区分的全部建立索引并存入检索数据库，其查询服务只是负责接收、解释用户的查询，然后根据较为简单的匹配策略（使用较多的是简单布尔模型和模糊布尔模型）在索引库中进行查找，将结果地址集反馈给用户.网络信息检索系统只能处理以关键词形式表示的简单目标，无法处理用户给出的样本形式的复杂模糊目标，而信息挖掘系统则能够从样本中提取出目标信息的特征，然后根据目标特征在网络中进行有目的的搜寻，将搜寻到的文档提交给用户.网络信息挖掘系统主要由特征提取、信息采集和特征匹配3部分构成，以下对相关的技术问题进行讨论.
2.1　目标表示与特征匹配
　　目标表示是指以一定的特征项（如词条或描述）来代表目标信息，在信息挖掘时用这些特征项评价未知文档与用户目标的相关程度，目标表示的构造过程就是挖掘模型的构造过程.目标表示模型有多种，常用的有布尔逻辑型、向量空间型、概率型等.近年来应用较多且效果较好的目标表示法是向量空间模型（vector space model ，VSM）法［3］.
　　在VSM中，将文本文档看作为是由一组词条构成，对于每一词条Ti，都根据其在文档中的重要程度赋以一定的权值Wi.我们可以将其看成一个n维坐标系，为对应的坐标值，因此每一篇文档都可映射为由一组词条矢量张成的向量空间中的一个点.对于所有用户目标或未知文档都可用词条特征矢量表示，从而将文档信息的匹配问题转化为向量空间中的向量匹配问题处理.假设用户目标为U，未知文档为V，两者的相似程度可用向量之间的夹角来度量，夹角越小说明相似度越高，相似度计算公式如下：

2.2　特征提取
　　目标表示中词条T及其权值的选取称为特征提取，特征提取是挖掘目标共性与规则的提取过程，其采用策略的优劣将直接影响到挖掘工具的效果.
　　词、词组和短语是组成文档的基本元素，并且在不同内容的文档中，各词条出现频率有一定的规律性，因此可根据词条的频率特性进行目标特征提取.不同的词条在文档中的作用是不同的，常用词（例如“的”、“the”）在所有文档中都有很高的出现频数，无法体现目标内容，而冷僻词在所有文档中出现的次数都很少，其词频统计特性很难确定，这两类词都不能作为特征项.还有一些词在所有文档中出现的频率都基本相同，区分性差，也不能作为特征项.一个有效的特征项集，必须具备以下两个特征：
　　（1）完全性：特征项能够确实表示目标内容；
　　（2）区分性：根据特征项集，能将目标同其他文档相区分.
　　根据以上两条特征可得，词条对文档内容的贡献正比于词条的文档内频数，反比于样本文档中出现该词条的文档频数.因此我们可构造词条权值评价函数：

其中表示词条Tk在文档Di中的出现频数，N表示全部样本文档总数，nk表示词条Tk的文档频数.
　　网络信息挖掘所处理的对象一般都是HTML文档，HTML文档中存在很多标记信息，这些标记信息往往对文档的内容有很高的概括性，因此可利用这些标记信息提高特征提取精度.在特征提取时，可设置CofTitle，CofLinkText，CofH1，CofH2等一系列针对HTML文档中的等域文本的加权系数，对出现在不同域的词条赋以不同的频率加权系数.
2.3　文本信息的预处理
　　在对文档进行特征提取前，需要先进行文本信息的预处理，这主要包括英文文档的Stemming处理和中文文档的词条切分.
　　从英文单词的多种形式中提取出其基本词干的过程被称作Stemming.英文单词在具体使用时，可以有现在时、过去时等多种形式，如“walk”，“walked”，“walker”，“walking”，还有的单词有名词、形容词、副词等多种形式，如“use”，“useful”，“usefulness”，“usefully”等，但它们的词干是相同的，因此在进行词频统计时应该作为相同的词处理.实现Stemming一般的方法是建立单词前缀、后缀表和特殊形式表，用匹配方式实现.
　　中文同英文不同，句子中各词条间没有固有的分隔符（空格），进行中文文档的词频统计前，首先需要对中文文档进行分词处理.中文文本的分词就是在中文文本的各词条间加入分隔符，将中文文本的连续字流形式转化为离散的词流形式.中文文本的分词方法有很多种，各种方法适用的情况也不同，网络信息挖掘对分词处理要求有较高的实时性，但对分词的准确度不太敏感，容许一定的分词错误率，因此可以采用较为简单的基于词典的正向匹配、逐词遍历分词方法.
2.4　源信息采集
　　WWW是以超文本的形式存储信息并提供信息服务的，在WWW上进行源信息采集，需要通过Robot程序实现［4］.Robot是一个能沿着Web页面中的超链接进行自动漫游的程序，并且能够通过HTTP等标准协议下载所漫游到的页面.WWW是一个网状结构的信息空间，我们可将其作为一个有向图处理：将页面作为图中的节点，页面中的超链接作为图中的有向边.因此我们可以使用有向图遍历算法（深度优先算法和广度优先算法）对其进行遍历.
　　源信息采集是进行网络信息挖掘的重要环节.网络中存在的信息量非常巨大，为了提高挖掘的效率，在源文档采集阶段就应对信息源进行一定的过滤.在进行挖掘前，应先根据挖掘目标，在Yahoo，AltaVista等网络资源检索系统中进行源地址查询，取各站点返回结果的交集（如需要扩大采集范围，可以取并集）为系统采集源地址.为提高采集效率，可对每一站点运行一个Robot，并行采集文档.在采集过程中，还应构造适当的启发（heuristic）策略，来指导Robot的路径选择和采集范围，以减少文档采集的盲目性.
2.5　非文本信息处理
　　在WWW中，有很多图像信息和以PDF，PS等格式存储的文档，如果采用图像处理和OCR的方法对其进行内容分析和特征提取，将会使系统变得很十分庞大和低效.考虑到WWW中的非文本信息一般都是采用“链接-文件”对的形式呈现给用户的，每个文件都有一段链接文本（关于链接的描述文本，如出现在〈A〉，〈/A〉标记对间的文字）与其对应，而这些链文本往往都是对所链接的非文本对象的高度概括描述，所以可以采用非文本文件的链文本对其进行特征提取，从而将非文本信息转化为文本信息进行处理.
2.6　评价指标
　　挖掘系统的验证一般采用测试集和交叉验证的方法，并用查全率（recall）和精度（precision）来衡量信息挖掘系统的效果.查全率为挖掘到的文档数与实际相关文档数之比，精度为结果集中的相关文档数与结果集文档数之比.一个优秀的信息挖掘系统应同时具有较高的查全率和精度.
3　实例系统的设计与实现
3.1　IDGS系统设计与工作流程
　　IDGS系统(information discovering and gathering system)是为了在WWW上自动进行中英文技术资料的搜集而设计开发的，IDGS能够根据用户提交的挖掘目标样本，在WWW上自动查找用户所需的信息.IDGS系统采用了向量空间模型（VSM）和基于词频统计的权值评价技术，由特征提取、源站点查询、文档采集、模式匹配等4部分组成（如图1所示）.


图1　IDGS系统结构图
IDGS系统的工作流程如下：
　　（1）特征提取：对用户提交的挖掘目标样本进行特征提取，生成挖掘目标的特征矢量；
　　（2）站点查询：在特征矢量中取权值最大的3～10个特征项作为查询关键字，向多个资源索引系统发送查询请求，将返回的结果URL作为文档采集的起点；
　　（3）信息采集：运行Robot程序从查询到的源URL开始进行文档采集；
　　（4）模式匹配：提取出源文档的特征矢量，并进行特征匹配，把符合阈值条件的文档提交给用户.
3.2　关键问题的处理
　　(1) 词频统计
　　IDGS系统设计应用领域为计算机方面的技术文档，技术文档的特征项一般都是专业词汇，所以在进行特征提取时无需对普通词汇进行切分和词频统计.为了提高系统的实时性和运行效率，我们舍弃了大型的通用切分统计词表，仅建立了专业词典用于中文文档的词频统计和英文文档的Stemming.专业词典中只包含在本领域中可能出现的专业词条而未收录大量的普通词汇，因而能在保证特征提取准确性的前提下大幅度提高系统运行效率.
　　(2) 词典设置
　　为解决VSM模型中要求特征词条相互独立与自然语言多样性之间的矛盾，我们建立了3个词典：主词典、同义词词典和蕴含词词典用于词频统计，其中主词典中的词条要求在含义上保持尽可能的独立.进行词频统计和特征提取时，以主词典中的主词条为表示词条进行处理，其中词条频数统计公式为

式中：TMf为主词典词条词频数；TTf为同义词词条词频数；TIf为蕴含词词条词频数；e为扩展系数，其取值根据挖掘范围和精度确定，取值区间为［0，1］.即表示词条在文档中的出现频数是由主词条、同义词词条、蕴含词词条3部分的词频数加权累计得到.设置同义词词典和蕴含词词典既可以解决自然语言多样性问题，又可以同时完成对英文文本的Stemming处理（将单词的其他形式作为同义词处理）.在实际应用中还可以根据需要设立相应的近义词词典和关联词词典等以提高查全率.
　　(3) 特征提取与匹配
　　IDGS系统采用词频统计和VSM模型的方法进行特征提取和模式匹配.在对HTML文档进行特征提取时，IDGS中设置了CofTitle，CofH1，CofH2，CofH3，CofBold，CofStrong，CofEM，CofLinkText，CofNearText，CofImageAlt等多个格式加权系数，在计算特征项权值的过程中，对出现在不同格式区域的词条词频数都乘以相应的加权系数，以利用HTML文档中的格式信息.此外还设置了CofHead，CofTail两个文档区域系数，适当抬高出现在文档起始区域和终止区域的词条权值.文档内容间的相似度通过计算目标特征矢量与源文档特征矢量的夹角余弦值确定，相似度阈值一般取经验值0.45.
　　此外，在实际应用中组成特征向量的特征项的个数也不宜过多，可以只保留权值较高的项，否则会大大降低系统的处理速度.经实验表明，前30项（按权值由高至低排序）的模值一般占全部特征项模值的85％以上，第80项以后的项对整个向量的影响很小，它们所具有的模值和只占到总模值的4%～7%左右，因此在对实时性要求较高的情况下，特征向量长度取30～80即可达到较好的效果.
　　(4) Robot的改进
　　准确性和时效性是网上信息挖掘的两个关键性要求.在WWW上进行信息挖掘时，系统需要将源文档下载到本地后再进行处理，盲目的文档采集会耗费大量的网络传输资源，并将大大降低系统的挖掘效率和信息挖掘的时效性，因此必须对Robot进行适当的改进，使源文档的采集具有较强的目的性，以减少网络传输量并提高挖掘的时效性.在IDGS中，我们提出并采用了一种兴趣漫游模型，对文档采集模块中的Robot进行了改进.


图2　Web页面链接示意图
　　兴趣模型是模拟人在网上浏览时的兴趣心理所设计的一种Robot启发策略，下面以图2所示的Web页面链接结构说明采用兴趣模型进行深度优先的漫游步骤：① 预先设定一个兴趣阈值IT和兴趣基准IB；② 计算出起始页面A1的目标相关度IA1作为页面A1的兴趣值，并设定当前兴趣值I=IA1；③ 如果I≥IT，则继续漫游后续页面B1，否则结束漫游；④ 漫游B1页面，计算出页面B1的相关度IB1，令此时的兴趣值为I=I+(IB1-IB)；⑤ 如果I≥IT，则继续漫游后续页面C1，否则返回A1，取I=IA1，开始漫游B2分支；⑥ 按照上述步骤，直至漫游完A1的全部页面分支.经实验表明，采用兴趣模型能够大幅度提高文档采集的有效性，并可通过调整兴趣基准来控制Robot的漫游范围.
3.3　系统测试
　　IDGS系统是采用Visual Basic和Lotus Domino在Windows NT环境下实现的，并以Access数据库的形式保存词典、词频信息、训练文本索引和Robot采集状态参数.在测试阶段，我们建立了10个分类目标，整理出大约1000篇样本文档和3000个代表词条用于特征提取.经过对算法和阈值的调整，系统达到了较好的运行效果.我们以《计算机世界》报网络版（http://www.computerworld.com.cn）进行了测试，表1为采集到的100篇中文HTML文档的识别结果，并与美国麻省大学（UM）信息检索实验室的文档检索与导向系统――INQUERY的结果参数（对普通中文文档的导向结果）［4］进行了比较.因系统运行时间受网络负载的影响很大，表中未列出耗费时间.经测试，特征向量长度取40的情况下，处理局域网环境（10M共享以太网）中包含1M左右文本信息的站点，只需5～15分钟.
表1　IDGS系统与INQUERY系统结果参数比较

查全率(%)IDGS：系统精度(%)INQUERY：系统精度(%)
1210071.3
2510060.1
4185.347.6
8378.329.8
1007214.5
平均87.141.7

　
　　IDGS是针对计算机领域的技术资料进行实现的，因技术文档的特征较为明显，所以测试结果明显优于面向普通文档的INQUERY系统，但也表明IDGS取得了较好的挖掘效果. 
4　结束语
　　网络信息挖掘是数据挖掘技术中的一个新的分支，它涉及到网络技术、数据挖掘技术、多媒体技术、文本处理技术、人工智能技术等多个领域.本文利用基于统计的特征提取技术和启发式Robot技术对WWW上的文本信息挖掘及其实现作了初步的探讨，并取得了初步的成果，一定程度上解决了Internet环境中的资料自动获取问题，但还有许多技术问题有待于进一步的研究与提高.
基金项目：本课题得到江苏省科委“九五”科技攻关项目基金资助(项目编号DE96017)
作者简介：邹涛，男，1970年11月生，博士研究生，研究方向为网络信息发现、Agent技术.王继成，男，1973年5月生，博士研究生，研究方向为网络信息发现、多媒体信息服务.朱华宇、金翔宇，硕士研究生，参与了系统的具体实现.张福炎，教授，博士生导师，主要研究方向为多媒体技术、计算机图形学、数据挖掘、中文信息处理.
作者单位：邹　涛　王继成　朱华宇　金翔宇　张福炎　南京大学计算机科学与技术系　南京　210093　南京大学计算机软件新技术国家重点实验室　南京　210093
参考文献
1　Gudivada V N. Information retrieval on the World Wide Web. IEEE Internet Computing, 1997, 1(5): 58～68
2　李水平. 数据采掘技术回顾. 小型微型计算机系统, 1998, 19(4): 74～81
(Li Shuiping, Review of data mining. Mini-Micro Systems (in Chinese), 1998, 19(4):74～81)
3　Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of ACM, 1975, 18(11): 613～620
4　张晓辉. WWW上的信息发现与搜索引擎技术. 小型微型计算机系统, 1998, 19(6):66～71
(Zhang Xiaohui. Information discovery and search engine for World Wide Web. Mini-Micro Systems (in Chinese), 1998, 19(6): 66～71)
5　John Broglio, Callan James P. INQUERY system overview. http://www.cs.umass.edu/～croft
收到日期：1998-10-06
修改日期：1999-05-17
