加载清华领域词典，并使用停用词
全部类型 dict_keys(['IT', '动物', '医药', '历史人名', '地名', '成语', '法律', '财经', '食物'])
THUOCL是自然语言处理的一套中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。
[('THUOCL', 'eng'), ('自然语言处理', 'IT'), ('一套', 'm'), ('中文', 'nz'), ('词库', 'n'), ('词表', 'n'), ('来自', 'v'), ('主流', 'b'), ('网站', 'n'), ('社会', 'n'), ('标签', '财经'), ('搜索', 'v'), ('热词', 'n'), ('输入法', 'IT'), ('词库', 'n')]
一些词语被赋予特殊类型IT,而“是”等词语被筛出。
