中文文本挖掘演示v05教材课件

资源描述

中文文本挖掘吴思博郑祥云谭紫逸主要内容文本挖掘文本挖掘概述概述1文本数据分析和信息检索2文本挖掘方法3统一的中文文本挖掘模型41.1文本挖掘的背景 1、数据挖掘大部分研究主要针对结构化数据 2、现实中大部分数据存储在文本数据库中 3、存放在文本数据库中的数据是半结构化数据1、文本挖掘概述1.2文本挖掘的定义文本挖掘(Text Mining,TM),又称为文本数据挖掘(Text Data Mining,TDM)或文本知识发现(Knowledge Discovery in Texts,KDT),是指为了发现知识,从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程。1.3文本挖掘与数据挖掘的区别数据挖掘数据挖掘文本挖掘文本挖掘研究对象研究对象用数字表示的、结构化的数据用数字表示的、结构化的数据无结构或者半结构化的文本无结构或者半结构化的文本对象结构对象结构关系数据库关系数据库自由开放的文本自由开放的文本目标目标获取知识，预测以后的状态获取知识，预测以后的状态提取概念和知识提取概念和知识方法方法归纳学习、决策树、神经网络、归纳学习、决策树、神经网络、粗糙集、遗传算法等粗糙集、遗传算法等提取短语、形成概念、关联提取短语、形成概念、关联分析、聚类、分类分析、聚类、分类成熟度成熟度从从1994年开始得到广泛应用年开始得到广泛应用从从2000年开始得到广泛应用年开始得到广泛应用1.4文本挖掘的任务n文本挖掘预处理文本挖掘预处理原始的原始的非结构化非结构化数据源数据源结构化结构化表示表示n文本模式挖掘文本模式挖掘文本挖掘系统核心功能是分析文本集合中各个文本之间文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式共同出现的模式例如：蛋白质例如：蛋白质P1P1和酶和酶E1E1存在联系，在其他文章中说酶存在联系，在其他文章中说酶E1E1和酶和酶E2E2功能相似，还有文章把酶功能相似，还有文章把酶E2E2和蛋白质和蛋白质P2P2联系起来，联系起来，我们可以推断出我们可以推断出P1P1和和P2P2存在联系存在联系n挖掘结果可视化挖掘结果可视化也就是文本挖掘系统的表示层，简称也就是文本挖掘系统的表示层，简称浏览浏览1.5文本挖掘处理过程特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集文本挖掘的一般处理过程n1.6中文文本挖掘流程1.7汉语特点与当前中文信息处理水平汉语是一种语义型语言汉语是一种语义型语言，重重“意合意合”,轻形式轻形式,而且语而且语形、语法和语义等各层面的歧义现象非常严重。形、语法和语义等各层面的歧义现象非常严重。n(1)汉语缺乏狭义的形态n(2)语法灵活n(3)语义灵活 (存在一词多义、同音词、同义词、近义词等)1.7中文文本挖掘研究现状n(1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架n(2)中文文本的特征提取与表示大多数采用“词袋”法n(3)知识挖掘的种类和深度有限1.8文本挖掘的可能应用领域包括:n(1)客户模型分析n(2)网上有害信息的发现、过滤与跟踪n(3)主动个性化信息服务n(4)公司资源计划n(5)科技文献分析n(6)网上论坛的实时监控;n(7)电子邮件分类与过滤;等等。2.1 文本检索的基本度量n查查准准率率（Precision）是检索到的文档中的相关文档占全部检索到的文档的百分比，它所衡量的是检索系统的准确性n查查全全率率（Recall）是被检索出的文档中的相关文档占全部相关文档的百分比，它所衡量的是检索系统的全面性信息检索的度量方式nrelevant：与某查询相关的文档的集合。与某查询相关的文档的集合。nretrieved：系统检索到的文档的集合。系统检索到的文档的集合。nrelevant retrieved：既相关又被检索既相关又被检索到的实际文档的集合。到的实际文档的集合。模型质量的评价实例nrelevant=A,B,C,D,E,F,G,H,I,J=10nretrieved=B,D,F,W,Y=5nrelevant retrieved=B,D,F =3n查准率：查准率：precision=3/5=60%n查全率：查全率：recall=3/10=30%B,D,F相关并被检索到的文档所有文档A,C,E,G,H,I,J相关的文档 W,Y被检索到的文档2.2 文档检索方法文本符号化文本符号化n符号化：为表示文档而标识关键词。符号化：为表示文档而标识关键词。n停用词表：看上去停用词表：看上去“不相关的不相关的”词的集合。词的集合。中文分词：中文分词：n中文分词对人名地名分解的仍然不好，大多分解成单字。中文分词对人名地名分解的仍然不好，大多分解成单字。-展示分词软件n分词效果：分词效果：zw-c(zw-c(如果你听到某人说他使用某软体，然如果你听到某人说他使用某软体，然后看看效果，有些美中不足，那就叫星光灿烂后看看效果，有些美中不足，那就叫星光灿烂吧！吧！thus do not have the texts already thus do not have the texts already stored on a hard disk,and want to save the stored on a hard disk,and want to save the text documents to disk)text documents to disk)n1 1、去停用词：、去停用词：nzwfc(zw,zj1)zwfc(zw,zj1)n1 1 听听某人某人说说使用使用软软体体看看看看效果效果美美中中不足不足星光星光灿烂灿烂 thu text thu text alreadi store hard disk save text alreadi store hard disk save text document disk time:0.109 sdocument disk time:0.109 sn2 2、不去停用词：、不去停用词：nzwfc(zw,zj1)zwfc(zw,zj1)1 1 如果如果你你听听到到某人某人说说他他使用使用某某软软体体 ,然后然后看看看看效果效果 ,有些有些美美中中不足不足 ,那那就就叫叫 ,星光星光灿烂灿烂 ,吧吧 ,thu do not have the ,thu do not have the text alreadi store on a hard disk ,text alreadi store on a hard disk ,and want to save the text document and want to save the text document to disk time:0.0 sto disk time:0.0 s文档建模n词频：指词t在文档d中出现的次数，即freq(d，t).n(加权的)词频矩阵TF(d,t)：用来度量词t与给定文档d之间的关联度。-展示相关度实验展示相关度实验文档建模n词频矩阵词频矩阵n行对应关键词行对应关键词t，列对应文档列对应文档d向量向量n将每一个文档视为空间向量将每一个文档视为空间向量vn向量值反映单词向量值反映单词t与文档与文档d的关联度的关联度表示文档词频的词频矩阵表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t430140702011635基于相似性的检索n余弦计算法（余弦计算法（cosine measurecosine measure）文档间相似性计算举例文档向量化-展示相关度实验展示相关度实验查询：相关度-展示相关度实验展示相关度实验文档间相似度（余弦定理）3.文本挖掘方法n文本挖掘功能层次关键词关键词相似检索相似检索词语关联分析词语关联分析自然语言处理自然语言处理文本聚类文本聚类文本分类文本分类文本挖掘功能层次文本挖掘功能层次3.1关联分析挖掘关联分析过程：关联分析过程：对文本数据进行分析、词根处理、去除停词等预处理，再调用关联挖掘算法基于关键词的关联技术：基于关键词的关联技术：收集频繁出现的关键词或词汇，找出其关联或相互关系关联挖掘关联挖掘关联挖掘有助于找出符合关联，即领域相关的术语或短语关联挖掘有助于找出符合关联，即领域相关的术语或短语3.1关联分析挖掘输入语义信输入语义信息，如事件、息，如事件、事实或信息事实或信息提取发现的提取发现的实体实体输入是标记输入是标记的集合的集合输入是文档输入是文档中关键词或中关键词或词的集合词的集合基于关键词的方法基于关键词的方法标记方法标记方法信息提取方法信息提取方法3.2文档分类分析3.2文档分类分析n应用领域应用领域门户网站（网页）门户网站（网页）图书馆（电子资料）图书馆（电子资料）n自动分类优点：自动分类优点：减小人工分类的繁杂工作减小人工分类的繁杂工作提高信息处理的效率提高信息处理的效率减小人工分类的主观性减小人工分类的主观性3.2文档分类分析文本分类基本步骤3.3文档聚类分析n文文本本聚聚类类是是根根据据文文本本数数据据的的不不同同特特征征，将将其其划划分分为不同数据类的过程为不同数据类的过程n其其目目的的是是要要使使同同一一类类别别的的文文本本间间的的距距离离尽尽可可能能小小，而不同类别的文本间的距离尽可能的大而不同类别的文本间的距离尽可能的大-展示相关度实验展示相关度实验3.3文档聚类分析n文档自动聚类的步骤文档自动聚类的步骤（1）获取结构化的文本集）获取结构化的文本集（2）执行聚类算法，获得聚类谱系图。）执行聚类算法，获得聚类谱系图。（3）选取合适的聚类）选取合适的聚类IA值。值。（4）执行聚类算法，获得聚类结果）执行聚类算法，获得聚类结果3.3文档聚类分析n文档自动聚类的类型文档自动聚类的类型n平平面面划划分分法法：对包含n个样本的样本集构造样本集的k个划分，每个划分表示一个聚簇n层层次次聚聚类类法法：层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类n基基于于密密度度的的方方法法：根据样本点临近区域的密度进行聚类，使在给定区域内至少包含一定数据的样本点n基基于于网网格格的的方方法法：采用多分辨率的网格数据结构，将样本空间量化为数量有限的网格单元，所有聚类操作都在网格上进行n基基于于模模型型的的方方法法：为每个簇假定一个模型，然后通过寻找样本对给定模型的最佳拟合进行聚类4统一中文文本挖掘模型UCTMFTHANK YOU!

展开阅读全文

中文文本挖掘演示v05教材课件

最新文档