05基于类别概念的中文文本分类研究王琳毕业论文

资源描述

精心整理密级：保密期限：硕士探究生学位论文题目：基于类别概念的中文文本分类探究学号： 035008 姓名：王琳专业：电路与系统导师：方勇学院：电信工程学院年月日精心整理声明独创性或创新性声明本人声明所呈交的论文是本人在导师指导下进展的探究工作及取得的探究成果。尽我所知，除了文中特殊加以标注和致谢中所陈列的内容以外，论文中不包含其他人已经发表或撰写过的探究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而运用过的材料。与我一同工作的同志对本探究所做的任何奉献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料假设有不实之处，本人担当一切相关责任。本人签名：日期：关于论文运用授权的说明学位论文作者完全了解北京邮电大学有关保存和运用学位论文的规定，即：探究生在校攻读学位期间论文工作的学问产权单位属北京邮电大学。学校有权保存并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或局部内容，可以允许采纳影印、缩印或其它复制手段保存、汇编学位论文。保密的学位论文在解密后遵守此规定本学位论文不属于保密范围，适用本授权书。本人签名：日期：导师签名：日期：精心整理基于类别概念的中文文本分类探究摘要网络技术的开展和Internet的开放性使它逐步成为一个全方位的资源宝库，越来越多的信息通过互联网被传送到世界各地，互联网中也积聚了越来越多的信息，从开展的趋势来看，网络必将成为人们获得信息的主要来源。但互联网的组织杂乱，缺乏必要的条理，多且杂的信息使得人们从中获得自己感爱好的内容变得越来越困难。从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体，随着互联网的快速开展，文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的根底和核心。文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的，这种方式缺点很多，如周期长、费用高、效率低、须要大量专业人员以及分类结果的一样性低等。20世纪90年头以后，基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式，它具有周期短，效率高，节约人力资源，分类结果一样性高等优点。但文本自动分类探究开展以来，准确率始终不能到达令人满足的效果。在Internet信息急剧膨胀的今日，为文本分类供应了广袤的开展空间，文本自动分类面临前所未有的机遇和挑战，如何提高分类准确率成为探究热点。向量空间模型是文本自动分类应用最广泛的模型之一，以向量空间模型为根底，我们探究发觉，对文本的合理向量表示是实现正确分类特别关键的前提，而传统分类方法中，特征选择算法各有优劣，选择出的特征不能很好地代表文本，这在很大程度上制约了文本分类的准确率。我们以此为启程点，分析特征项应当具备的条件，并提出了基于类别概念的特征选择方法。区分于传统的特征选择方法只考虑文本词语的外在形式的做法，它以分析词语的语义概念为主，并且考虑特征的类别信息，选取单类别指示意义强的特征项，建立特征空间。在试验中，我们对一样的数据集，在同一种分类算法上，对传统特征选择方法和我们提出的特征选择方法分别试验，试验数据说明我们的特征选择算法能够得到较高的准确率和召回率。关键词：文本分类向量空间模型知网类别概念A Study on Category Conception in Text ClassificationAbstractThe development of network and the opening of the Internet make it a omnidirectional resource storehouse step by step. More and more information are delivering to everywhere of the world, and more and more information are congregated in internet. At the viewpoint of developmental trend, network will be the main source from which people get information. But the Internets organization is very disordered, the informations hugeness and confusion make it more and more difficult to get interesting information from it.The task of data mining is mining useful information from a mass of data. Texts mining is becoming one of the focuses of data mining with the rapid development of the Internet because that text is the main information carrier of web pages. The text classification is the base and center of texts mining.Text classification include manual method and automatic method. Conventional text classification based on manual mode has a lot of shortcomings, such as long period, high charge, low efficiency, the requirement of large numbers of professional people and low consistency of the results et. The automatic method of text classification based on machine learning was becoming mainstream after 1990s stage by stage. Compared with manual, it has short period, high efficiency, and high consistency of the results. Though automatic text classification has so many merits, the accuracy of its results is not satisfied till now. Text classification gets a wide stage in the age of the information in Internet increasing rapidly. It is confronted with opportunities and challenges, and the study focuses how to improve the accuracy of the text classification result.Vector space model is one of the models that are used far and wide in text classification field. Based on vector space model, we discovered that the vector of texts is a key precondition for accuracy. But in many conventional text classification systems, each one of the feature selection methods has its strong point. The features can not primely express the texts, then restrict the improvement of accuracy. Our study got going from this point, proposed a new feature selection method based on category concept after analyzing the conditions that the features should have. Conventional feature selections take the extrinsic form of the words in texts into account only. Know from them, our feature selection method mainly analyzing the immanent conception of the words, and take the classificatory information of features into account synchronously. It selects the conceptions which has strong single class meaning as its feature space. In our experiment, we made compassion between conventional feature selection methods and our method in the same conditions that include the same corpus and the same class arithmetic. The result showed that the feature selection method based on category concept we proposed could get comparatively high accuracy and recall.Key Word：text classification VSM Hownet category concept精心整理目录摘要1Abstract3第一章绪论21.1 探究背景及意义21.2 数据挖掘3 数据挖掘的由来3数据挖掘的定义4数据挖掘探究的内容和本质4数据挖掘的功能6数据挖掘将来的探究方向71.3 文本挖掘8文本挖掘的定义8文本挖掘的分类91.4本文组织101.5本章小结10其次章文本分类技术112.1文本分类简介11文本分类开展及应用112.1.2 文本分类定义132.1.3 文本分类类型132.1.4 文本分类模型132.1.5 基于VSM的文本分类142.2特征提取技术15文本频率152.2.2 信息增益162.2.3 互信息162.2.4 CHI17词条权17期望穿插熵18几率比18文本证据权182.3 分类技术19简洁距离向量分类法19基于TFIDF的Rocchio算法202.3.3 朴实贝叶斯模型20 K最近邻居算法22决策树222.3.6神经网络23支撑向量机252.3 本章小结26第三章基于类别概念的特征选择方法273.1 问题分析273.2 知网283.2.1 知网简介28概念排歧29同义词303.3 类别概念313.3.1 定义31类别概念特征的选择方法323.3.3 类别概念特征的有效性分析333.2.2 类别概念特征加权343.3 本章小结35第四章系统设计与试验结论364.1支撑向量机36现状介绍364.1.2 SVM定义374.1.3 SVM优点38SVM原理介绍38SVM在分类中的应用424.2 试验424.2.1 系统框架构造424.2.2 试验设计434.2.3 数据集434.2.4 试验结果与分析444.3 本章小结47参考文献48致谢51攻读硕士学位期间担当的科研任务与主要成果52精心整理符号说明：第个特征项：在第篇文本中出现的次数：在全部文本中出现的次数：在第类文本中出现的次数：在第类文本中出现的文本总数：出现的文本总数：第类文本包含的文本总数：语料库文本总数：分类体系类别数第一章绪论1.1 探究背景及意义人类社会已经步入一个信息化的时代，人们在日常生活中无时无刻不在获得信息、分析信息，并以此来决策自己的行为。从某种程度上来说，信息的拥有量已经成为确定和制约人类社会开展的重要因素。获得信息的途径有很多，人类可以凭借自我的分析实力人工获得信息，在不远的过去，我们也都是这样做的。但自从计算机诞生以来，人们获得信息的手段在不断地变更，人们对把握信息快捷、准确的要求也越来越高。近年来，Internet快速开展，互联网上在线发布的网页达亿数量级1，并以每天百万网页的速度增长。其中包含了几乎囊括了人类社会政治、经济、军事、生活、消遣、体育等各个方面的内容，逐步成为一个全方位的资源宝库。从大量的数据中挖掘出有用的信息是数据挖掘的任务。数据挖掘技术23自90年头产生以来，其探究已经相当深化，探究范围涉及到关联规那么挖掘、分类规那么挖掘、聚类规那么挖掘、趋势分析等方面。然而这些探究根本上是基于构造化数据，比方事物数据库，却很少有工作探究异质、非构造化数据。互联网正在成为人们获得信息的主要来源。惋惜，Internet并不是组织严密条理清晰的数字信息库，而是一个杂乱无章的信息仓库。因此，扩大数据挖掘探究对象的范围，更多的探究非构造化数据，如文本、网络页面、Email等，成为数据挖掘的一个新的探究方向，网络挖掘4、文本挖掘、多媒体挖掘便应运而生。由于Internet的信息主要以文本形式存在，所以从文本中获得潜在的学问就成为学问发觉领域中的重要方面。数据挖掘的几个热点，包括网站的数据挖掘Web site data mining、生物信息或基因Bioinformatics/Genomics的数据挖掘及其文本的数据挖掘Textual mining中的一个。其中，文本挖掘是一门涉及数据挖掘技术、文本处理技术、人工智能技术的综合学科。从功能上看，文本挖掘可以分为总结、分类、聚类、趋势预料等多种。其中文本分类是指遵照预先定义的分类体系，将文本集合中的每个文本归入某个类别。这样，用户不但能够便利阅读文本，而且可以通过限制搜寻范围来使文本的查找更为简洁。目前，有的门户网站中仍旧是通过人工对Web文本进展分类，这大大限制了其索引页面的数目和覆盖范围。可以说探究文本分类有着广泛的商业前景和应用价值。此外，文本分类也是信息检索的重要课题。对信息检索系统而言，它必需操纵大量的数据，其文本信息库可能是相当浩大的，同时，用来表示文本内容的词汇数量又是成千上万的。在这种状况下，假如为文本集供应良好的组织与构造，就能大大简化文本的存取和操纵。文本自动分类系统的目的就是对文本集进展有序组织，把相像的、相关的文本组织在一起。它作为学问的组织工具，为信息检索供应了更高效的搜寻策略和更准确的查询结果。其中，高效性来自于用户可以首先确定查询的可能类别，以减小须要进一步匹配的文本数量。有效性在于相像的文本很可能与一样的查询相关。这样，检索的准确率和召回率都得到了提高。数据挖掘、文本挖掘、文本分类、信息检索是休戚相关的。在文本分类方面，网络信息的激增增加了对快速、自动文本分类需求的迫切性，另外也为基于机器学习的文本分类方法打算了充分的资源。电子化信息的自动分类处理技术正更加显示着其优越性，文本自动分类及其相关技术的探究也正日益成为一项探究热点。1.2 数据挖掘数据挖掘，顾名思义就是从大量的数据中挖掘出有用的信息。随着计算机应用的越来越广泛，每年都要积累大量的数据，在这些数据当中，我们可以运用数据挖掘技术找出一些有用的东西来。下面首先从历史和开展方向等方面为数据挖掘做个概述。1.2.1 数据挖掘的由来我们此时此刻已经生活在一个网络化信息化的时代，通信、计算机和网络技术正变更着整个人类和社会。大量信息在给人们带来便利的同时也带来了信息过量，难以消化的问题。人们起先考虑:“如何才能不被信息沉没，而是从中刚好发觉有用的学问、提高信息利用率？”面对这一挑战，数据开采和学问发觉Data Mining and Knowledge Discovery DMKD技术应运而生，并显示出强大的生命力。另一方面，随着数据库技术的快速开展以及数据库管理系统的广泛应用，人们积累的数据越来越多。激增的数据背后隐藏着很多重要的信息，人们盼望能够对其进展更高层次的分析，以便更好地利用这些数据。但目前的数据库系统无法发觉数据中存在的关系和规那么，缺乏挖掘数据背后隐藏的学问的手段，导致了数据爆炸但学问贫乏的现象。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进展查询和遍历，并且能够找出过去数据之间潜在的联系。此时此刻，支持数据挖掘的三种技术已经开展成熟，他们是:海量数据搜集，强大的多处理器计算机和数据挖掘算法。数据挖掘的核心模块技术历经了数十年的开展，其中包括数理统计、人工智能和机器学习等。今日，这些成熟的技术，加上高性能的关系数据库引擎以及广泛的数据集成，让数据挖掘技术在当前的数据仓库环境中进入了管用阶段。1.2.2数据挖掘的定义数据挖掘Data Mining是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和学问的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这里的学问是广义范畴的，包含概念、规那么、模式、规律和约束等。原始数据可以是构造化的，如关系数据库中的数据；也可以是半构造化的，如文本、图形和图像数据；或是分布在网络上的异构型数据。发觉学问的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。因此，数据挖掘是一门穿插学科，涉及到数据库技术、人工智能技术、数理统计、可视化技术、并行计算等多个探究领域。数据挖掘与传统的数据分析如查询、报表、联机应用分析不同，其本质区分是数据挖掘是在没有明确假设的前提下去挖掘信息、发觉学问。数据挖掘所得到的信息应具有先未知、有效和管用三个特征。但数据挖掘不是为了替代传统的统计分析技术。相反，它是统计分析方法学的延长和扩展。大多数的统计分析技术都基于完善的数学理论和超群的技巧，预料的准确度还是令人满足的，但对运用者的要求很高。数据挖掘就是利用了统计和人工智能技术的应用程序，把这些高深困难的技术封装起来，使人们不用自己驾驭这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。1.2.3数据挖掘探究的内容和本质随着DMKD探究逐步走向深化，数据挖掘和学问发觉的探究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。目前DMKD的主要探究内容包括根底理论、发觉算法、数据仓库、可视化技术、定性定量互换模型、学问表示方法、发觉学问的维护和再利用等。数据挖掘所发觉的学问5最常见的有以下五类:(1)广义学问Generalization 广义学问指类别特征的概括性描述学问。依据数据的微观特性发觉其表征的、带有普遍性的、较高层次概念的、中观和宏观的学问，反映同类事物共同的性质，是对数据的概括、精练和抽象。广义学问的发觉方法和实现技术有很多，如数据立方体、面对属性的归纳等。数据立方体方法的根本思想是实现某些常用的代价较高的聚集函数的计算，诸如计数、求和、平均、最大值等，并将这些实现视图存储存在多维数据库中。另一种广义学问发觉方法是加拿大Simon Fraser大学提出的面对属性的归纳方法。这种方法以类SQL语言表示数据挖掘查询6，收集数据库中的相关数据集，然后在相关数据集上应用一系列数据推广技术进展数据推广，包括属性删除、概念树提升、属性阈值限制、计数及其他聚集函数传播等。(2)关联学问Association 关联学问反映一个事务和其他事务之间依靠或关联的学问。假如两项或多项属性之间存在关联，那么其中一项属性值就可以依靠其他属性值进展预料。最为闻名的关联规那么发觉方法是R.Agrawal提出的Apriori算法。关联规那么的发觉可分为两步,第一步是迭代识别全部的频繁工程集，要求频繁工程集的支持率不低于用户设定的最低值的规那么。识别或发觉全部频繁工程集是关联规那么发觉算法的核心，也是计算量最大的局部。(3)预料型学问Prediction 预料型学问依据时间序列型数据，由历史的和当前的数据去推想将来的数据，也可以认为是以时间为关键属性的关联学问。目前，时间序列预料方法有经典的统计方法、神经网络和机器学习等。1968年Box和Jenkins提出了一套比拟完善的时间序列建模理论和分析方法，这些经典的数学方法通过建立随机模型，如自回来模型、自回来滑动平均模型、求和自回来滑动平均模型和季节调整模型等，进展时间序列的预料。由于大量的时间序列是非平稳的，其特征参数和数据分布随着时间的推移而发生变更。因此，仅仅通过对某段历史数据的训练，建立单一的神经网络预料模型，还无法完成准确的预料任务。为此，人们提出了基于统计学和基于准确性的再训练方法，当发觉现存预料模型不再适用于当前数据时，对模型重新训练，获得新的权重参数，建立新的模型。也有很多系统借助并行算法的计算优势进展时间序列预料。(4)偏差型学问Deviation 偏差型学问是对差异和极端特例的描述，提醒事物偏离常规的异样现象，如标准类外的特例，数据聚类外的离群值等。这些学问可以在不同的概念层次上被发觉，并随着概念层次的提升，从微观到中观、到宏观，以满足不同用户不同层次决策的须要。(5)分类学问Classification&Clustering 分类学问反映同类事物共同性质的特征型学问和不同事物之间的差异型特征学问。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树，是一种有指导的学习方法。该方法先依据训练子集又称为窗口形成决策树。假如该树不能对全部对象给出正确的分类，那么选择一些例外参加到窗口中，重复该过程始终到形成正确的决策集。最终结果是一棵树，其叶结点是类名，中间结点是带有分支的属性，该分支对应当属性的某一可能值。最为典型的决策树学习系统是ID3，它采纳自顶向下不回溯策略，能保证找到一个简洁的树。算法C4.5和C5.0都是ID3的扩展，它们将分类领域从类别属性扩展到数值型属性。分类还有统计、粗糙集RoughSet、线性回来和线性区分分析等方法。这里不作过多介绍。1.2.4数据挖掘的功能数据挖掘通过预料将来趋势及行为，做出基于学问的决策。数据挖掘的目标是从数据中发觉隐含的、有意义的学问，主要有以下五类功能。(1)自动预料趋势和行为数据挖掘自动在大型数据库中找寻预料性信息，以往须要进展大量手工分析的问题如今可以快速干脆由数据本身得出结论。一个典型的例子是市场预料问题，数据挖掘运用过去有关促销的数据来找寻将来投资中回报最大的用户。(2)关联分析数据关联是数据库中存在的一类重要的可被发觉的学问。假设两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简洁关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。(3)聚类数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增加了人们对客观现实的相识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年头初，Mchalski提出了概念聚类技术，其要点是，在划分对象时不仅考虑对象之间的距离，还要求划分出的类具有某种内涵描述，从而幸免了传统技术的某些片面性。(4)概念描述概念描述就是对某类对象的内涵进展描述，并概括这类对象的有关特征。概念描述分为特征性描述和区分性描述，前者描述某类对象的共同特征，后者描述不同类的对象之间的区分。生成一个类的特征性描述只涉及该类对象中全部对象的共性。生成区分性描述的方法很多，如决策树方法、遗传算法等。(5)偏差检测数据库中的数据常有一些异样记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的学问，如分类中的反常实例、不满足规那么的特例、观测结果与模型预料值的偏差、量值随时间的变更等。偏差检测的根本方法是，找寻观测结果与参照值之间有意义的差异。1.2.5数据挖掘将来的探究方向当前，DMKD探究方兴未艾，其探究与开发的总体水平相当于数据库技术在70年头所处的地位，迫切须要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导，以便使DMKD的应用得以普遍推广。预料DMKD的探究还会形成更大的高潮，探究焦点可能会集中到以下几个方面:(1)发觉语言的形式化描述，即探究特地用于学问发觉的数据挖掘语言，或许会像SQL语言一样走向形式化和标准化；(2)寻求数据挖掘过程中的可视化方法，使学问发觉的过程能够被用户理解，也便于在学问发觉的过程中进展人机交互；(3)探究在网络环境下的数据挖掘技术Web Mining，特殊是在Internet上建立DMKD效劳器，并且与数据库效劳器协作，实现Web Mining;(4)加强对各种非构造化数据的开采Data Mining & Audio & Video，如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采；(5)交互式发觉；(6)学问的维护更新。就目前来看，数据挖掘将来的几个热点主要包括网站的数据挖掘Web Site Data Mining、生物信息或基因Bioinformatics的数据挖掘及其文本的数据挖掘Textual mining。下面就这几个方面加以简洁介绍。（1）网站的数据挖掘在对网站进展数据挖掘时，所须要的数据主要来自于两个方面；一方面是客户的背景信息，此局部信息主要来自于客户的登记表；而另外一局部数据主要来自阅读者的点击流Click-stream，此局部数据主要考察客户的行为表现。但有的时候，客户对自己的背景信息特别珍重，不愿把这局部信息填写在登记表上，这就会给数据分析和挖掘带来不便。在这种状况下，就不得不从阅读者的表现数据中来推想客户的背景信息，进而再加以利用。就分析和建立模型的技术和算法而言，网站的数据挖掘7和原来的数据挖掘差异不是特殊大，很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一局部来自于点击流，和传统的数据库格式有区分。因而对电子商务网站进展数据挖掘所作的主要工作是数据打算。（2）生物信息或基因的数据挖掘生物信息或基因的数据挖掘那么完全属于另外一个领域，例如，基因的组合千变万化，得某种病的人的基因和正常人的基因究竟差异多大？能否找出其中不同的地方，进而对其不同之处加以变更，使之成为正常基因？这都须要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比，无论在数据的困难程度、数据量还有分析和建立模型的算法而言，都要困难的多。从分析算法上讲，更须要一些新的和好的算法。（3）文本的数据挖掘无论是在数据构造还是在分析处理方法方面，文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件简洁的事情，尤其是在分析方法方面，还有很多须要探究的专题。文本的数据挖掘将在下一节中单独讲解并描述。 1.3 文本挖掘前面提到过，由于目前在Internet上大多数的信息表现形式为文本形式，对于这些非构造化的文本，不能通过传统的数据挖掘方法获得其中的学问，只有通过文本挖掘才能充分地利用这些信息资源。因此文本挖掘成为近年数据挖掘的热点之一。在1998年底，我国国家重点根底探究开展规划首批实施工程中，文本挖掘就被列为“图像、语音、自然语言理解与学问挖掘”中的重要内容。1.3.1文本挖掘的定义文本挖掘8作为数据挖掘的一个新的主题，是一个富于争议的探究方向，目前其定义尚无统一的结论，须要开展更多的探究以便进展准确地定义。但类似于数据挖掘定义，可以短暂对文本挖掘作如下定义。文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或学问的过程9。直观地说，当数据挖掘的对象完全由文本这种数据类型组成时，这个过程就称为文本挖掘。1.3.2文本挖掘的分类文本挖掘包括对大量文本集合的内容进展总结、分类、聚类、关联分析，以及利用文本集合进展趋势预料等。文本总结是指从文本中抽取关键信息，用简洁的形式对文本内容进展摘要或说明。文本分类是指遵照预先定义的主题类别，为文本集合中的每个文本确定一个类别。利用文本分类技术可以对大量文本进展快速、有效地自动分类。文本聚类与分类的不同之处在于，聚类没有预先定义好的主题类别体系，它的目标是将文本集合分成假设干个族，要求同一族内文本内容的相像度尽可能地大，而不同族间的相像度尽可能地小。Hearst等人的探究已经证明白“聚类假设”，即与查询相关的文本通常会聚类得比拟靠近，而远离与查询不相关的文本。目前，有多种文本聚类算法，大致可以分为两种类型:以G-HAC等算法为代表的层次凝合法，以k-means等算法为代表的平面划分法。关联分析是指从文本集合中找出不同词语之间的关系。像Brin提出了一种从大量文本中发觉一对词语出现模式的算法，并用来在Web上找寻作者和书名的出现模式，从而发觉了数千本在Amazon网站上找不到的新书籍。分布分析与趋势预料是指通过对Web文本的分析，得到特定数据在某个历史时刻的状况或将来的取值趋势。像Feldman等人运用多种分布模型对路透社的两万多篇新闻进展了挖掘，得到主题、国家、组织、人、股票交易之间的相对经济文章，对每天的股票市场指数进展预料，取得了良好的效果。以上功能的探究在国外探究得比拟多，但都是基于英文环境的。在国内，数据挖掘探究者对中文文本的探究还刚刚起先，如何借鉴现有中文处理技术对文本进展挖掘仍有很多问题有待解决。总之，文本挖掘是近几年来数据挖掘领域的一个新兴分支，是一门涉及数据挖掘技术、文本处理技术、人工智能技术的综合学科。文本挖掘由于它处理的是非构造化的文本，因此，确定它采纳的方法与数据挖掘不同。它经常运用的方法来自于自然语言理解和文本理解领域，如文本摘要、文本分类、文本检索等技术。其根本思想是:首先利用文本切分技术，抽取文本特征，将文本数据转化为能描述文本内容构造化文本树，并依据该构造发觉新的概念和获得相应的关系。文本挖掘发觉的学问往往不是准确的数据，而是定性的规那么。而对于中文文本的文本挖掘有一些特殊的地方，表达为汉语分词问题，建立完整的汉语概念体系的困难和汉语语法、语义和语用分析的困难。1.4本文组织本文提出了基于类别概念的特征选择方法。全文共分为四章介绍。其中，其次章首先从宏观上对文本分类作了简要介绍，然后介绍了文本分类中常用的几种技术，主要介绍了常用的特征选择方法和分类算法。第三章是从分析制约VSM准确率的瓶颈启程，提出了解决方案，具体阐述了基于类别概念的特征选择方法。第四章简要介绍了我们试验的框架构造、试验数据集以及对试验结果的具体分析等内容。最终是参考文献、致谢和硕士探究生期间发表的论文。1.5本章小结本章介绍了文本分类的探究背景及其意义，并从开展历史、应用的角度对文本分类作了概括说明。其次章文本分类技术本章将在对文本分类作简要介绍的根底上，以特征提取算法和分类模型为主，介绍一些相对成熟、常见的文本分类技术。2.1 文本分类简介文本分类最早从20世纪60年头初期起先，在近三十年的时间里，文本分类的开展始终很缓慢，直到20世纪90年头初，由于文本分类良好的应用前景，同时出现了功能更强大的硬件设备，文本分类技术才获得快速开展，此时此刻文本分类已成为信息系统学科的重要的探究领域之一。2.1.1文本分类开展及应用文本分类的开展历史根本上可分为两个阶段，第一阶段是从20世纪60年头直到20世纪80年头末，在这期间最有效的文本分类系统始终是由专家人工构建的基于学问工程技术的分类系统，比方卡内基集团为路透社开发的闻名Construe新闻自动分类系统就是由专家定义一系列逻辑规那么10，这些规那么包括如何把某一给定文本归类为某一预先指定的类别集合中的一种或几中类别。进入20世纪90年头，形势就发生了变更，基于机器学习Machine Learning方法实现文本自动分类运行效果完全超过了基于学问工程的分类方法，从而进入了文本分类的另一个开展阶段。机器学习文本分类算法通常从一个预先分类好的文本集合中，“学习”出各个类别的特性，目前这种自动分类方法所能到达的水平能与人工分类的水平相当，明显由于这种方法不再须要学问工程师和领域专家的接入，节约了大量的专家人力资源，同时加快了分类系统的建立速度。此时此刻，文本分类已被视为几乎全部基于内容的文件管理的学科的基石。国内文本分类技术的探究相对于国外的开展水平起步较晚，最早大约是从20世纪90年头初起先探究，特殊中文文献自动分类探究目前还处于开展阶段，1996年，吴菌等在中文信息学报上探讨了有关“汉语语料的自动分类”11；1998年，刘开瑛等在“中文文本中抽取特征信息的区域与技术”一文中12，探讨了如何从各种文本抽取特征信息；1999年，何新贵等发表了“中文文本的关键词的自动抽取和模糊分类方法”13，并将文本分类方法世纪应用于“全国政协提案处理”课题；南京大学软件新技术国家重点试验室的邹涛专题探讨了“Web信息的采集、文本的识别与分类”1415；2000年黄萱菁等提出了“独立于语种的文本分类方法”，探讨如何把同一种分类方法应用于不同的语种16；2004年，赵林等在通信学报上发表的“基于知网的概念特征抽取方法”一文提出了“一种以知网为语义学问库、基于语义信息的文本特征项抽取方法”，以更能表达文本的概念特征提高过滤系统的性能17。自20世纪60年头文本分类诞生以来，它在很多方面得到应用。（1）文献自动标引标引是指用一个或假设干个词来表示文献内容特征的过程。早在1956年，美国的H.P.Luhn就起先了文献自动标引的试验；60年头初，美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。从1980年以后我国在中文自动分词方面取得初步进展，中文文献自动标引方面的探究不断深化。用于标引的关键词和词组属于一个专业词典，假如把该词典的条目看成不同类别，标引的过程就是一个文本分类的过程，这种文献自动标引功能在数字化图书馆中特别重要。所以，文献自动标引对文本分类的探究也起着特别重要的作用。（2）文本过滤文本过滤通过解除掉不感爱好的文本，供应有用的信息给用户。过滤的过程可以看成是一个单一类别的文本分类，输入文本被分类成两种，相关的和不相关的。邮件过滤也是一个差不多的过程，也是一个文本分类的应用范围。（3）词义排歧词义排歧是遇到多义词时判定出适合于当前环境下的一种正确意思。把该词出现的语言环境如句子或段落作为待分类的文本，该词的几种词义作为类别，词义排歧过程就是一个文本分类的过程。而且是一种单一类别的分类。这对于在机器翻译中遇到多义词时，选择一个正确的词义是常有用的。（4）网页分类WWW目前是一个巨大、分布广泛、全球性的信息效劳中心，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务等很多方面的内容。一个好的分类系统对于网络用户来说是特别必要的，但是假如手工对上百万的网页进展分类，明显是不实际的，这就须要应用到文本自动分类技术。但是，网页分类相比拟一般的文本分类有两点特殊的地方:首先是网页超文本格式，尤其自身的格式和特点；其次是网页的类别构造是多级别的，父类下面有很多子类，不同于一般的分类都是同级类别。2.1.2 文本分类定义文本分类Text Categorization是指依据文本的内容，由计算机依据某种自动分类算法，把文本判分为预先定义好的类别。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到已经建立的类别体系中。该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联，用数学语言可以描述为:式中，A为待分类的文本集合，B为分类体系中的类别集合。文本分类的映射规那么是系统依据已经驾驭的每类假设干样本的数据信息，总结出分类的规律性而建立的判别规那么，确定文本相关的类别。文本的分类是基于它的内容来分的，不是以文本所存在的数据模式来分的，这就意味着文本与哪一类相关这个概念是主观意义上的。2.1.3 文本分类类型文本分类有两种类型，依据需求的不同，可分为单类别分类和多类别分类1819。在不同的情景需求下，分类的具体任务也各不一样。在单类别分类中1是多个文本对应一个类别的关系，分类器的功能可用函数来表示，1表示文本属于类别，0 那么反之。此时，文本分类的任务是建立起分类器，尽量模拟靠近函数。在单类别分类中，分类未知文本时通常会采纳阈值的方法，在分类器的框架建立好之后，训练的过程就是依据训练例来调整阈值的过程。分类时依据阈值判定，满足条件那么判为1，否那么判为0。单类别分类相对简洁。在多类别分类18中，是多个文本与多个类别的对应关系，而且通常一个文本只能属于一个类别。在多类别分类中，分类时通常会采纳投票法，即分类器会将文本放在全部的类别上完成一次分类过程，得到某种结果。这些结果通常代表了文本属于某个类别的可能性，可以是文本属于某类别的概率，或者是文本与某类别的相像程度等，之后再由分类器从中完成选择。多文本分类更为困难，此时文本分类的任务是建立起适用于多类别的分类器。2.1.4 文本分类模型分类模型是文本分类的核心技术，大体上文本分类模型可以分为两种1819即基于规那么的文本分类和基于统计的文本分类。在基于规那么的分类技术中，首先须要依据某种假设建立起可用于分类的规那么。该规那么包括了文本的表示方法、类别的表示方法和文本与类别的映射方式等。然后通过训练过程来完成规那么的完善和调整，训练后那么可以运用该规那么来确定文本的类别，完成分类。决策树Decision Tree, DT、神经网络Neural Network, NN、支撑向量机Support Vector Machine, SVM2021等都是数据基于规那么的分类方法。基于规那么的分类方法理论根底强，合理性高，而且分类的规那么易于为人们所理解，也易于改写成其他形式。但基于规那么的分类方法管用性差，这是因为现实中的数据集颇为浩大，在此种状况下，训练时规那么的建立调整过程效率会很低。应用规那么完成分类的效率也较差，此时基于规那么的分类方法往往显得力不从心。在基于统计的分类方法中，或者依据某种统计后得到的客观规律，或者采纳某种统计学中的定律来完成分类器的建立工作。该种方法中的训练过程多为训练集上的某种统计和计算过程，得到某些可以代表文本与类别之间关系的数据。在分类时分类器给出的通常为某种概率结果，比方朴实贝叶斯Nave Bayes模型、向量空间模型Vector Space Model, VSM、K最近邻居法K Nearest Neighbour classifiers, KNN等。基于统计的分类方法理论根底不强，但管用性强。我们会在下一章中对一些成熟的分类技术做更为具体具体的介绍。2.1.5 基于VSM的文本分类向量空间模型(Vector Space Model, VSM)是最常用的文本分类模型之一。其根本思想是以特征项作为向量空间的坐标，将文本看作向量空间中的点。特征项可以是字、词、短语、句子等意义单位。一般取词作为特征项。即是说，集合全部的特征项确定一个特征空间，假定为维空间，每一篇文本就可以用的一个向量表示，其中表示在中的权重。其中，为词或短语，对应每个，通常用权重来表示在文本中的出现状况，以区分其文本。这样，就把文本分类问题转化为向量空间的运算问题。基于VSM的文本分类模型主要包括文本预处理、文本向量表示、分类器三个模块，其框架构造如图2-1所示。中文文本预处理文本向量表示分类器分类文本图2-1VSM的文本分类框架构造其中，预处理是为特征提取做打算的。前面讲过，VSM一般取词作为特征项，为此，须要一个预处理过程将文本分割为词序列，并进展简洁的去噪，比方去掉的、地、得、也、哎、啊等无意义词。预处理过程如图2-2所示。中文文本分词去噪词序列图2-2中文文本预处理在这个过程中，分词主要通过特地的分词软件来完成，如中科院计算技术探究所的ICTCLAS系统、海量分词软件等。去噪一般是通过设定一个停用词表来完成的。文本向量表示包括特征提取和特征加权两个过程。2.2特征提取技术依据John Pierre的理论23，用来表示文本的特征理论上应具有如下特点: 数量上尽量少出现频率适中冗余少噪音少与其所属类别语义相关含义尽量明确就文原来说，最便利采纳的特征就是词或短语24。词或短语是组成文本的最小单位，选择他们作为特征具有自然的优势。受自然语言处理技术的局限，也出于，管用性的考虑，传统的特征提取方法均不涉及任何语义处理，只以单个的词或短语作为文本的特征，并且无视了他们在文本中出现的依次，即构造信息，某种程度上这也是出于管用性的考虑。下面介绍几种传统常见的特征提取算法2526，他们相互间的不同之处主要在于不同的特征重要性评价方法。2.2.1文本频率文本频率Document Frequency, DF27指训练集中包含该特征项的文本总数。所谓文本包含特征，就是指这个特征在该文本中出现，无视其在文本中的出现次数。计算公式如2-1所示。2-1DF方法提取DF值较高的特征，它的目的是去掉在训练文本集中出现次数过少的特征，保存出现到达必须出现频率，具有必须影响力的特征。在各个特征提取方法中DF方法的计算是最简洁的。2.2.2 信息增益信息增益Information Gain, IG在机器学习领域被广泛应用28。对每个词条，通过综合考虑每一类中出现与不出现该词条的文本数来衡量该词条的信息增益。计算公式2-2所示:2-2其中，表示任一篇文本属于第类的概率；表示特征项在文本集中出现的概率；表示除外的特征项在文本集中出现的概率；表示任一篇包含的文本属于第类的概率；表示任一篇不包含的文本属于第类的概率。IG值代表了特征项在整个训练集上的分布，其根本思想是分布越集中越重要。2.2.3 互信息互信息Mutual Information, MI在统计语言模型中被广泛应用29。对特定的词条和类别，和之间的互信息由2-3式计算。2-3为便利计算，可简化为2-4， 2-4为取得特征项在数据集上的整体评价，词条的互信息量度值有两种计算方法，分别如2-52-6所示。2-5 2-6其中，代表了特征和各类别的平均互信息值，代表特征与各类别互信息值中的最大值。上述公式中，表示包含词条且属于类别的文本频数，为包含词条且不属于类别的文本频数，为不包含词条但属于类别的文本频数，表示语料库中文本总数，表示分类体系中的类别数。2.2.4 CHI CHI30具有和MI法根本相像的思想，认为与类别关系越严密的特征项重要性越高。同样通过计算特征和类别间的依靠程度来完成特征提取。但二者的计算细微环节不尽一样，CHI作了更多地考虑。有种看法认为CHI是一种正规化了的MI。CHI的计算公式2-7所示。2-7与MI一样，CHI也有平均值和最大值两种方法来取得特征的整体评价，分别如公式2-82-9所示。2-82-9其中，表示语料库中文本总数，表示包含词条且属于类别的文本频数，为包含词条且不属于类别的文本频数，为不包含词条但属于类别的文本频数，表示不包含词条且不属于类别的文本频数，表示分类体系中的类别数。2.2.5词条权词条权特征提取方法基于特征在邻近相关文本中出现的概率来测试特征的强度。和是随意不同但相关的文本，特征的权值可由式2-10计算出: 2-10但是实际中发觉某些词条权值很低的特征反而是信息量比拟高的，不能从特征空间中删去，因此这种方法在某些状况下不行靠。2.2.6期望穿插熵期望穿插熵Expected Cross Entrophy, ECE没有考虑特征未出现的状况。权重计算公式见2-11。 2-11假如特征和类别强度相关，就大，假设又很小的话。那么说明该术语对分类的影响大。此时相应的函数值就大，就有可能被选中成为特征项。期望穿插熵反映了文本类别的概率分布和出现了某特定特征项的条件下的文本类别概率分布之间的距离。特征的穿插熵越大，

展开阅读全文

05基于类别概念的中文文本分类研究王琳毕业论文

最新文档