商务智能理论与应用9-文本挖掘

资源描述

大数据与数据挖掘-文本挖掘数据挖掘大部分研究主要针对结构化数据，如关系的、事务的和数据仓库数据。现实中大部分数据存储在文本数据库中，如新闻文章、研究论文、书籍、WEB页面等。存放在文本数据库中的数据是半结构化数据，文档中可能包含结构化字段，如标题、作者、出版社、出版日期等，也包含大量非结构化数据，如摘要和内容等。文本挖掘旨在通过识别和检索令人感兴趣的模式，进而从数据源中抽取有用的信息。文本挖掘的数据源是文本集合，令人感兴趣的模式不是从形式化的数据库记录里发现，而是从非结构化的数据中发现。预处理文档建模相似性计算信息检索文本分类文本聚类模型评价预处理预处理把中文的汉字序列切分成有意义的词，就是中文分词，也称为切词。“我是一个学生”分词的结果是：我是一个学生。和平民主和平、民主；和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大学生活象白纸大学、生活、象、白纸大学生、活象、白纸最大匹配分词法 S1=计算语言学课程是三个课时设定最大词长MaxLen=5 S2=（1）S2=“”；S1不为空，从S1左边取出候选子串 W=计算语言学；（2）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/”，并将W从S1中去掉，此时S1=课程是三个课时；（3）S1不为空，于是从S1左边取出候选子串W=课程是三个；（4）查词表，W不在词表中，将W最右边一个字去掉，得到W=课程是三；（5）查词表，W不在词表中，将W最右边一个字去掉，得到W=课程是；（11）查词表，W不在词表中，将W最右边一个字去掉，得到W=是三（12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时W是单字，将W加入到S2中，S2=“计算语言学/课程/是/”，并将W从S1中去掉，此时S1=三个课时；（21）S2=“计算语言学/课程/是/三/个/课时/”，此时S1=。（22）S1为空，输出S2作为分词结果，分词过程结束。停用词指文档中出现的连词，介词，冠词等并无太大意义的词。英文中常用的停用词有the，a,it等中文中常见的有“是”，“的”，“地”等。停用词消除可以减少term的个数，降低存储空间。停用词的消除方法：（1）查表法：建立一个停用词表，通过查表的方式去掉停用词。（2）基于DF的方法：统计每个词的DF，如果超过总文档数目的某个百分比(如80%)，则作为停用词去掉。文档建模文档建模特征表示是指以一定的特征项如词条或描述来代表文档信息。特征表示模型有多种，常用的有布尔逻辑型、向量空间型等向量空间模型中，将每个文本文档看成是一组词条（T1，T2，T3，Tn）构成，对于每一词条Ti，根据其在文档中的重要程度赋予一定的权值，可以将其看成一个n维坐标系，W1，W2，Wn为对应的坐标值，因此每一篇文档都可以映射为由一组词条矢量构成的向量空间中的一点，对于所有待挖掘的文档都用词条特征矢量（T1，W1；T2，W2；T3，W3；Tn，Wn）表示。向量空间模型将文档表达为一个矢量，看作向量空间中的一个点。文档的向量空间模型W权值计算方法TF-IDF 目前广泛采用TF-IDF权值计算方法来计算权重，TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF逆文档频率(Inverse Document Frequency)是全体文档数与包含词条文档数的比值。如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。在完整的向量空间模型中，将TF和IDF组合在一起，形成TF-IDF度量：TF-IDF（d,t）=TF(d,t)*IDF(t)TF度量在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语来说，它的重要性可表示为：以上式子中是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。IDF度量逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：|D|：语料库中的文件总数：包含词语的文件数目（即的文件数目）如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用关键词与网页的相关性计算在某个一共有一千词的网页中“大数据”、“的”和“应用”分别出现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。三个数相加，其和 0.042 就是相应网页和查询“大数据的应用”相关性的一个简单的度量。概括地讲，如果一个查询包含关键词 w1,w2,.,wN,它们在一篇特定网页中的词频分别是:TF1,TF2,.,TFN。（TF:term frequency)。那么，这个查询和该网页的相关性就是:TF1+TF2+.+TFN。词“的”站了总词频的 80%以上，它对确定网页的主题几乎没有用。在度量相关性时不应考虑它们的频率。删除后，上述网页的相似度就变成了0.007，其中“大数据”贡献了 0.002，“应用”贡献了 0.005。“应用”是个很通用的词，而“大数据”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到“大数据”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。应删除词的权重应该是零。如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词在个网页中出现过，那么越大，的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数”（Inverse document frequency 缩写为），它的公式为（）其中是全部网页数。假定中文网页数是亿，应删除词“的”在所有的网页中都出现，即亿，那么它的log(10亿/10亿）=log(1)=。假如专用词“大数据”在两百万个网页中出现，即万，则它的权重log(500)=6.2。又假定通用词“应用”，出现在五亿个网页中，它的权重=log(2)则只有 0.7。也就只说，在网页中找到一个“大数据”的比配相当于找到九个“应用”的匹配。利用 IDF，上述相关性计算个公式就由词频的简单求和变成了加权求和，即 TF1*IDF1+TF2*IDF2.+TFN*IDFN。在上面的例子中，该网页和“原子能的应用”的相关性为 0.0159，其中“大数据”贡献了 0.0124，而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致算例1 词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“大数据”出现了3次，那么“大数据”一词在该文件中的词频就是3/100=0.03。一个计算逆文件频率(IDF)的方法是测定有多少份文件出现过“大数据”一词，然后除以文件集里包含的文件总数。所以，如果“大数据”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。算例2 关键字k1,k2,k3与文档的相关性可用TF1*IDF1+TF2*IDF2+TF3*IDF3来表示。比如文档1所包含词汇总量为1000，k1,k2,k3在文档1中出现的次数是100，200，50。包含了 k1,k2,k3的文档总量分别是 1000，10000，5000。文档的总量为10000。TF1=100/1000=0.1；TF2=200/1000=0.2；TF3=50/1000=0.05；IDF1=log(10000/1000)=log(10)=2.3；IDF2=log(10000/100000)=log(1)=0；IDF3=log(10000/5000)=log(2)=0.69 这样关键字k1,k2,k3与文档1的相关性=0.1*2.3+0.2*0+0.05*0.69=0.2645，其中k1比k3的比重在文档1要大，k2的比重是0.文档相似性计算文档相似性计算212121),(vvvvvvsimn 根据一个文档集合d和一个项集合t，可以将每个文档表示为在t维空间R中的一个文档特征向量v。n 向量v中第j个数值就是相应文档中第j个项的量度。n 计算两个文档相似性可以使用上面的公式n 余弦计算法（cosine measure）计算步骤（1）使用TF-IDF算法，找出两篇文章的关键词；（2）每篇文章各取出若干个关键词，合并成一个集合，计算每篇文章对于这个集合中的词的词频；（3）生成两篇文章各自的词频向量；（4）计算两个向量的余弦相似度，值越大就表示越相似。文档相似性计算示例句子A：我喜欢看电视，不喜欢看电影。句子B：我不喜欢看电视，也不喜欢看电影。第一步，分词第一步，分词句子A：我/喜欢/看/电视，不/喜欢/看/电影。句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。第二步，列出所有的词第二步，列出所有的词我，喜欢，看，电视，电影，不，也。第三步，计算词频第三步，计算词频句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。第四步，写出词频向量第四步，写出词频向量句子A：1,2,2,1,1,1,0句子B：1,2,2,1,1,2,1信息检索信息检索信息检索研究的是大量基于文本的文档信息的组织和检索，如联机图书馆系统、联机文档管理系统和WEB搜索引擎。数据库系统关注结构化数据段查询和事务处理。信息检索研究的典型问题是根据用户查询（描述所需信息的关键词），在文档中定位相关文档。文本检索的基本度量查准率（Precision）是检索到的文档中的相关文档占全部检索到的文档的百分比，它所衡量的是检索系统的准确性查全率（Recall）是被检索出的文档中的相关文档占全部相关文档的百分比，它所衡量的是检索系统的全面性信息检索的度量方式 relevant：与某查询相关的文档的集合。retrieved：系统检索到的文档的集合。relevant retrieved：既相关又被检索到的实际文档的集合。查准率(precision)：既相关又被检索到的实际文档与检索到的文档的百分比。查全率(recall)：既相关又被检索到的实际文档与查询相关的文档的百分比。模型质量的评价实例nrelevant=A,B,C,D,E,F,G,H,I,J=10nretrieved=B,D,F,W,Y=5nrelevant retrieved=B,D,F =3n查准率：查准率：precision=3/5=60%n查全率：查全率：recall=3/10=30%B,D,F相关并被检索到的文档所有文档A,C,E,G,H,I,J相关的文档 W,Y被检索到的文档文本挖掘举例文档向量化查询：相关度文档间相似度（余弦定理）3.文本的维度规约对于任何一个非平凡的文档数据库，词的数目T和文档数目D通常都很大，如此高的维度将导致低效的计算，因为结果频度表大小为T*D。高维还会导致非常稀疏的向量，增加监测和探查词之间联系的难度。维度归约使用数据编码或变换，以便得到原数据的归约或“压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息，则该数据归约是无损的。如果我们只能重新构造原数据的近似表示，则该数据归约是有损的。文本挖掘方法文本挖掘功能层次关键词关键词相似检索相似检索词语关联分析词语关联分析自然语言处理自然语言处理文本聚类文本聚类文本分类文本分类文本挖掘功能层次文本挖掘功能层次（1）关键词检索关键词建立倒排文件索引，与传统的信息检索使用的技术类似。（2）相似检索找到相似内容的文本。（3）词语关联分析聚焦在词语（包括关键词）之间的关联信息分析上。（4）文本聚类和文本分类实现文本的聚类和分类。（5）自然语言处理揭示自然语言处理技术的语义，进行文本语义挖掘。关联分析挖掘在文本数据库中，每一文本被视为一个事务，文本中的关键词组可视为事务中的一组事务项。即文本数据库可表示为：文本编号，关键词集文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。关联分析挖掘可以用于找出词或关键词间的关联。关联分析挖掘输入语义信输入语义信息，如事件、息，如事件、事实或信息事实或信息提取发现的提取发现的实体实体输入是标记输入是标记的集合的集合输入是文档输入是文档中关键词或中关键词或词的集合词的集合基于关键词的方法基于关键词的方法标记方法标记方法信息提取方法信息提取方法关联分析挖掘关联分析过程：关联分析过程：对文本数据进行分析、词根处理、去除停词等预处理，再调用关联挖掘算法基于关键词的关联技术：基于关键词的关联技术：收集频繁出现的关键词或词汇，找出其关联或相互关系关联挖掘关联挖掘关联挖掘有助于找出符合关联，即领域相关的术语或短语关联挖掘有助于找出符合关联，即领域相关的术语或短语关联分析挖掘基于关键字的关联分析n 基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合，然后发现其中所存在的关联性n 关联分析对文本数据库进行预处理，生成关键字向量，根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果，然后调用关联挖掘算法文档分类分析文档分类分析自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中文档分类的关键问题是获得一个分类模式，利用此分类模式也可以用于其他文档的分类有了一个模式之后，需要进行人工标记和训练，以确定这个模式的参数，然后才能进行自动的文档分类文档分类分析应用领域门户网站（网页）图书馆（电子资料）自动分类优点：减小人工分类的繁杂工作提高信息处理的效率减小人工分类的主观性文档分类分析u步骤定义分类体系将预先分类过的文档作为训练集从训练集中得出分类模型（需要测试过程，不断细化）用训练获得出的分类模型对其它文档加以分类文档分类分析文本分类基本步骤文档分类分析文本分类过程文档分类分析特征选择方法贝叶斯分类最近邻分类相似文档具有相似文档向量，将每个文档关联到相应的类标号将文档分类看做计算文档在特定类中的统计分布文档分类支持向量机使用数表示类，构建从词空间到类变量的直接映射函数（在高维空间中运行良好，最小二乘线性回归方法区分能力较强）基于关联的、频繁出现的文本模式集对文档分类基于关联的分类删除文档中与与类标号统计不相关的非特征词文档聚类分析文本聚类是根据文本数据的不同特征，将其划分为不同数据类的过程其目的是要使同一类别的文本间的距离尽可能小，而不同类别的文本间的距离尽可能的大文档聚类分析文档自动聚类的步骤（1）获取结构化的文本集（2）执行聚类算法，获得聚类谱系图。聚类算法的目的是获取能够反映特征空间样本点之间的“抱团”性质（3）选取合适的聚类IA值。在得到聚类谱系图后，领域专家凭借经验，并结合具体的应用场合确定阈值（4）执行聚类算法，获得聚类结果文档聚类分析混合模型聚类使用潜在语义标引聚类（LSI）光谱聚类对原始数据进行维度归约，运用传统的聚类方法（如k均值，缺点是计算昂贵）对文本数据和先验知识估计模型参数，基于参数推断聚类最小化全局重构误差下，找到原文档空间的最佳子空间近似文档聚类分析使用保持局部性标引聚类（LPI）发现局部几何结构，具有更强的区分能力文档聚类分析文档自动聚类的类型平面划分法：对包含n个样本的样本集构造样本集的k个划分，每个划分表示一个聚簇层次聚类法：层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法：根据样本点临近区域的密度进行聚类，使在给定区域内至少包含一定数据的样本点基于网格的方法：采用多分辨率的网格数据结构，将样本空间量化为数量有限的网格单元，所有聚类操作都在网格上进行基于模型的方法：为每个簇假定一个模型，然后通过寻找样本对给定模型的最佳拟合进行聚类文档聚类分析平面划分法将文档集D=d1,di,dn水平地分割为的若干类，具体过程：1.确定要生成的类的数目 k；2.按照某种原则生成k个聚类中心作为聚类的种子 S=s1,sj,sk；3.对D中的每一个文档di，依次计算它与各个种子sj的相似度sim(di,sj)；4.选取具有最大的相似度的种子arg max sim(di,sj),将di归入以sj 为聚类中心的类Cj，从而得到D的一个聚类C=c1,ck；5.重复步骤24若干次，以得到较为稳定的聚类结果。该方法速度快，但k要预先确定，种子选取难文档聚类分析层次聚类法具体过程将文档集D=d1,di,dn 中的每一个文档di看作是一个具有单个成员的类Ci=di，这些类构成了D的一个聚类C=c1,ci,cn；计算C中每对类（ci,cj）之间的相似度sim(ci,cj)；选取具有最大相似度的类对arg max sim(ci,cj),并将ci 和cj合并为一个新的类ck=cicj，从而构成D的一个新的类C=c1,cn-1；重复上述步骤，直到C中只剩下一个类为止。THANK YOU!演讲完毕，谢谢观看！

展开阅读全文

商务智能理论与应用9-文本挖掘

最新文档