文本挖掘与web数据挖掘课件

资源描述

2024/8/6第第8 8章章文本挖掘与文本挖掘与Web Web 数据挖掘数据挖掘文本挖掘 Web数据挖掘案例五：跨语言智能学术搜索系统案例六：基于内容的垃圾邮件识别2023/8/20第8章文本挖掘与Web 数据挖掘文本挖8.1 文本挖掘n8.1.1 分词n8.1.2 文本表示与词权重计算n8.1.3 文本特征选择n8.1.4 文本分类n8.1.5 文本聚类n8.1.6 文档自动摘要2024/8/68.1 文本挖掘8.1.1 分词2023/8/208.1.1 分词n分词(词切分)是指将连续的字序列按照一定的规范重新组合成词序列的过程q英文：单词之间以空格作为自然分界符，容易q中文：词没有一个形式上的分界符，难n中文分词极具挑战性的问题q歧义切分问题：研究/生物；学生会|学生会玩魔方q未登录词问题：新词(木有、凡客体)，人名等n分词法主要分为以下三大类：基于词典的方法、基于统计的方法、基于语法分析的方法2024/8/68.1.1 分词分词(词切分)是指将连续的字序列按照一定的规基于词典的分词法n正向最大匹配q从左开始算起，最大是指从一个设定的长度开始匹配，直到第一个匹配成功就切分成为一个词n逆向最大匹配q与正向最大匹配相似，区别在于从右至左匹配n例子：研究生命起源q正向匹配结果：研究生/命/起源q逆向匹配结果：研究/生命/起源n特点：简单，易实现；正确率受词典大小限制2024/8/6基于词典的分词法正向最大匹配2023/8/20基于统计的分词法n假设：词是稳定的单字组合，直观地，在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词n只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典(统计)分词法n基于统计模型的分词方法是研究热点，如基于隐马尔可夫的方法、基于最大熵的方法n特点：精度高、词性标注、命名实体识别；需要语料作支撑2024/8/6基于统计的分词法假设：词是稳定的单字组合，直观地，在上下文中基于中文语法的分词方法n通过让计算机模拟人对句子的理解，达到识别词的效果n其基本思想就是在分词的同时进行句法、语义分析，利用句法和语义信息来处理歧义现象n包括三个部分：分词子系统、句法语义子系统、总控部分n特点：由于汉语语言知识的笼统、复杂性，基于理解的分词系统还处在试验阶段2024/8/6基于中文语法的分词方法通过让计算机模拟人对句子的理解，达到识常见分词工具nICTCLASq中国科学院计算技术研究所开发q采用层叠隐马尔可夫模型q中文分词，词性标注，命名实体识别，新词识别q支持C/C+/C#/Delphi/Java等主流开发语言nimdict-Chinese-analyzerqICTCLAS中文分词程序基于Java的重新实现q采用基于隐马尔科夫模型的方法q直接为Lucene搜索引擎提供简体中文分词支持2024/8/6常见分词工具ICTCLAS2023/8/20常见分词工具(续)nIKAnalyzerq采用特有的“正向迭代最细粒度切分算法”q基于Java语言开发的轻量级开源分词工具包q60万字/秒的高速处理能力n简易中文分词系统SCWSqhightman 个人开发q采用标准C开发q提供 C接口、PHP扩展(源码、WIN32的DLL文件)2024/8/6常见分词工具(续)IKAnalyzer2023/8/20常见分词工具(续)n盘古分词q基于.net Framework的中英文分词组件q中文未登录词识别、人名识别、多元分词等功能q支持英文专用词识别、英文原词输出、英文大小写同时输出等q单线程分词速度为390 KB/s，双线程分词速度为690 KB/s(Core Duo 1.8 GHz)n其它q Paoding(庖丁解牛分词)、HTTPCWS、MMSEG4J以及CC-CEDICT等2024/8/6常见分词工具(续)盘古分词2023/8/208.1.2 文本表示与词权重计算n目前文本表示主要是采用向量空间模型(Vector Space Model，VSM)n每个文本被表示为在一个高维词条空间中的一个向量n词条权重wi,j一般采用TFIDF方法来计算得到2024/8/68.1.2 文本表示与词权重计算目前文本表示主要是采用向量8.1.3 文本特征选择n文本特征选择是根据某种准则从原始特征中选择部分最有区分类别能力的特征n主要分为无监督和有监督的方法n常用的方法有以下几种q文档频率(Document Frequency，DF)q单词权(Term Strength，TS)q信息增益(Information Gain，IG)q互信息(Mutual Information，MI)q期望交叉熵(Expected Cross Entropy，ECE)2024/8/68.1.3 文本特征选择文本特征选择是根据某种准则从原始特征基于文档频率的方法n文档频率是指所有训练文本中出现某个特征词的频率n是一种无监督的方法n通常会分别设置一个小的阈值和大的阈值来过滤一些低频词和频数特别高的词n特点q优点：简单、易行q缺点：低频词有时能很好反映类别信息；忽略了特征词在文档中出现的次数2024/8/6基于文档频率的方法文档频率是指所有训练文本中出现某个特征词的基于信息增益的方法n根据某个特征词t在一篇文档中出现或者不出现的次数来计算为分类所能提供的信息量，并根据该信息量大小来衡量特征词的重要程度，进而决定特征词的取舍n信息增益是最常用的文本特征选择方法之一n特点：该方法只考察特征词对整个分类的区分能力，不能具体到某个类别上2024/8/6基于信息增益的方法根据某个特征词t在一篇文档中出现或者不出现8.1.4 文本分类n文本自动分类(简称“文本分类”)是在预定义的分类体系下，根据文本的特征(词条或短语)，将给定文本分配到特定一个或多个类别的过程n基本步骤可以分为三步：q将预先分过类的文本作为训练集输入q构建分类模型q对新输入的文本进行分类n常见的算法包括：线性分类器、k最近邻分类器、朴素贝叶斯、决策树、支持向量机分类器2024/8/68.1.4 文本分类文本自动分类(简称“文本分类”)是在预定朴素贝叶斯分类器n贝叶斯分类算法有两种模型：多变量伯努利事件模型和多项式事件模型n多变量伯努利事件模型q特征词在文本中出现则权重为1，否则权重为0。不考虑特征词的出现顺序，忽略词出现的次数n多项式事件模型q一篇文档被看作是一系列有序排列的词的集合2024/8/6朴素贝叶斯分类器贝叶斯分类算法有两种模型：多变量伯努利事件模常用基准语料nReuters-21578是最常用的公开英文语料库q21578篇新闻报道q135个类别n20 Newsgroups是重要的公开英文语料库q大致20000篇新闻组文档q6个不同的主题以及20个不同类别的新闻组nTanCorp是公开的中文基准语料库q收集文本14150篇q分为两个层次。第一层12个类别，第二层60个类别2024/8/6常用基准语料Reuters-21578是最常用的公开英文语料常用基准语料(续)n复旦大学中文文本分类语料库q测试语料共9833篇文档，训练语料共9804篇文档q包含20个类别n其它语料库还包括OHSUMED、WebKB、TREC系列和TDT系列等2024/8/6常用基准语料(续)复旦大学中文文本分类语料库2023/8/2模型评估n文本自动分类通常是不平衡的分类任务，常用的分类准确率(Accuracy)指标并不合适n一般使用每个类的F-measure值以及全部类F-measure值的平均来评估算法的性能n其中，r表示每个类的召回率(Recall)，p表示每个类的精度(Precision)，通常取值为1，也就是经常被使用到的F1值2024/8/6模型评估文本自动分类通常是不平衡的分类任务，常用的分类准确率模型评估(续)n语料上的整体性能，通常采用微平均和宏平均方法q微平均是根据所有类准确划分文本个数和错误划分文本个数来计算精度和召回率q宏平均则是计算每个类别得到的精度和召回率的平均值n在不平衡数据分类上，宏平均方法更能反映出分类器的性能。2024/8/6模型评估(续)语料上的整体性能，通常采用微平均和宏平均方法28.1.5 文本聚类n自动化程度较高的无监督机器学习方法,不需要预先对文档手工标注类别n主要任务是把一个文本集分成若干个称为簇的子集，然后在给定的某种相似性度量下把各个文档分配到与最其相似的簇中n相似性度量方法在此过程起着至关重要的作用2024/8/68.1.5 文本聚类自动化程度较高的无监督机器学习方法,不需文本相似度计算n方法主要分为两大类：基于语料库统计的方法和基于语义理解的方法n基于语料库统计的方法：基于汉明距离和基于空间向量模型的方法q汉明距离用来描述两个等长码字对应位置的不同字符的个数，从而计算出两个码字的相似度q基于空间向量模型方法是一种简单有效的方法2024/8/6文本相似度计算方法主要分为两大类：基于语料库统计的方法和基于文本相似度计算(续)n基于语义理解的方法：考虑语义信息的文本相似度计算方法q该方法主要分为三大类：词语相似度、句子相似度、段落相似度n计算词语相似度往往需要一部语义词典作为支持，目前使用频率最高的语义词典是知网n句子相似度计算要通过利用语法结构来分析n汉语句子机构相当复杂，段落相似度计算更复杂2024/8/6文本相似度计算(续)基于语义理解的方法：考虑语义信息的文本相文本聚类过程n以K-means算法详细介绍文本聚类的过程任意选择k个文本作为初始聚类中心Repeat 计算输入文本与簇之间的相似度，将文本分配到最相似的簇中更新簇质心向量Until 簇质心不再发生变化2024/8/6文本聚类过程以K-means算法详细介绍文本聚类的过程202评估指标n外部质量准则的聚类熵、聚类精度n文本分类方法的召回率、精度、F-measure值n文本聚类算法整体性能的评估q宏平均或微平均F-measure值q聚类熵2024/8/6评估指标外部质量准则的聚类熵、聚类精度2023/8/208.1.6 文档自动摘要n文档自动摘要，简称自动文摘，是指利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文n处理过程大致可分为三个步骤：q文本分析过程q信息转换过程q重组源表示内容，生成文摘并确保文摘的连贯性2024/8/68.1.6 文档自动摘要文档自动摘要，简称自动文摘，是指利用文档自动摘要的类型n按不同标准，文档自动摘要可分为不同类型：q根据文摘的功能划分，指示型文摘、报道型文摘和评论型文摘q根据输入文本的数量划分，单文档文摘和多文档文摘q根据原文语言种类划分，单语言文摘和跨语言文摘q根据文摘和原文的关系划分，摘录型文摘和理解型文摘q根据文摘的应用划分，普通型文摘和面向用户查询文摘2024/8/6文档自动摘要的类型按不同标准，文档自动摘要可分为不同类型：2相关技术n文档自动摘要技术主要有以下几种类型q自动摘录法q最大边缘相关自动文摘法q基于理解的自动文摘q基于信息抽取的自动文摘q基于结构的自动文摘q基于LSI语句聚类的自动文摘2024/8/6相关技术文档自动摘要技术主要有以下几种类型2023/8/20相关技术(续)n自动摘录法将文本看成是句子的线性排列，将句子看成词的线性排列，然后从文本中摘录最重要的句子作为文摘句n最大边缘相关法从文本中挑选出与该文本最相关的，同时与已挑选出的所有代表句最不相关的句子作为下一个代表句n基于理解的方法利用语言学知识获取语言结构，更重要的是利用领域知识进行判断、推理，得到文摘的语义表示，从语义表示中生成摘要2024/8/6相关技术(续)自动摘录法将文本看成是句子的线性排列，将句子看相关技术(续)n基于信息抽取的方法首先根据领域知识建立该领域的文摘框架，然后使用信息抽取方法先对文本进行主题识别，再对文本中有用片段进行有限深度的分析，最后利用文摘模板将文摘框架中内容转换为文摘输出n基于结构的方法将文章视为句子的关联网络，与很多句子都有联系的中心句被确认为文摘句，句子间的关系可通过词间关系、连接词等确定2024/8/6相关技术(续)基于信息抽取的方法首先根据领域知识建立该领域的相关技术(续)n基于LSI语句聚类的方法利用潜在语义索引LSI(Latent Semantic Indexing)，获得特征项和文本的语义结构表示。在语义空间考虑特征项权重不是依赖于单纯的词频信息，而是考虑到特征项对于文本主题的表现能力以及在整个文本集中使用的模式。2024/8/6相关技术(续)基于LSI语句聚类的方法利用潜在语义索引LSI相关技术(续)n以上方法普遍会面临以下三个关键问题的挑战q文档冗余信息的识别和处理q重要信息的辨认q生成文摘的连贯性2024/8/6相关技术(续)以上方法普遍会面临以下三个关键问题的挑战202性能评估n自动文摘包含标准文摘的信息比率是内部测评中对文摘内容完整性的一种重要测评n几个主流的评价方法：q单文档文摘评价系统(Summary Evaluation Environment)qROUGEqPyramidqBE(Basic Elements)方法2024/8/6性能评估自动文摘包含标准文摘的信息比率是内部测评中对文摘内容8.2 Web数据挖掘n8.2.1 Web内容挖掘n8.2.2 Web使用挖掘n8.2.3 Web结构挖掘2024/8/68.2 Web数据挖掘8.2.1 Web内容挖掘2023/88.2.1 Web内容挖掘nWeb内容挖掘是从Web页面的文本、图像、视频和组成页面的其它内容中提取信息的过程nWeb内容挖掘在Web搜索、垃圾邮件过滤、敏感信息过滤、情报分析、数字图书馆建设、网络舆情监控等方面有着重要的应用价值n文本挖掘技术可应用于Web页面的文本挖掘中n图像和视频等内容的挖掘是多媒体数据挖掘中的重要部分q主要方法也是数据预处理、分类、聚类、关联规则2024/8/68.2.1 Web内容挖掘Web内容挖掘是从Web页面的文本8.2.2 Web使用挖掘nWeb使用挖掘通过挖掘Web日志记录，发现用户访问Web页面的模式q可以识别电子商务的潜在客户q增强对最终用户的因特网信息服务的质量和交互q改进Web服务器系统性能2024/8/68.2.2 Web使用挖掘Web使用挖掘通过挖掘Web日志记数据收集nWeb使用记录挖掘中的主要数据来源是服务器日志文件，主要可分为以下四种类型数据q使用记录数据：首要的数据来源q内容数据：由文字材料和图片组成q结构数据：从设计者的角度所看到的网站内容组织结构q用户数据：包括注册用户人口统计信息(如性别、年龄、职业等)、用户对各种对象的访问率、用户的购买记录或历史访问记录等2024/8/6数据收集Web使用记录挖掘中的主要数据来源是服务器日志文件，预处理2024/8/6Web日志文件数据清理用户识别会话识别预处理结果事务识别路径补充站点结构统计访问预处理2023/8/20Web数据清理用户识别会话识别预处理Web使用模式的发现和分析n会话及访问者分析q在已预处理的会话数据中，发现访问者行为的知识n使用记录聚类分析q用户聚类：用户聚类的目的是对具有相同浏览模式的用户进行分组q页面聚类：在基于使用记录数据的聚类中，被经常访问的项目或购买记录可能被自动组织成一个个分组2024/8/6Web使用模式的发现和分析会话及访问者分析2023/8/20Web使用模式的发现和分析(续)n关联规则及相关度分析q可以找到普遍在一起被访问或被购买的页面或项目的分组q可以用在Web个性化推荐系统中n在电子商务的推荐系统中使用关联规则，目标用户的偏好是符合每个规则前项X中的项目，而在右侧的项目所符合的规则按照置信度排序，这个列表中排名靠前的N个项目便可考虑推荐给目标用户q问题：若数据集稀疏，则无法给出任何推荐n解决方案：协同过滤2024/8/6Web使用模式的发现和分析(续)关联规则及相关度分析2023Web使用模式的发现和分析(续)n导航模式分析q要发现或分析用户导航模式，一种方法是将网站中导航活动建模成Markov模型qMarkov模型：每个页面访问可以被表示成一个状态，两个状态间的转换概率可以表示用户从一个状态到另一个状态的可能性。这种表示方式允许计算一些有用的用户或网站的度量2024/8/6Web使用模式的发现和分析(续)导航模式分析2023/8/2Web使用模式的发现和分析(续)n基于Web用户事务的分类和预测q在Web使用实例中，基于用户人口统计信息以及他们的购买活动，分类技术可以将用户分成高购买倾向和非高购买倾向两类q协同过滤是Web领域分类和预测中的一个重要应用nk近邻分类器(kNN)是一种简单有效的协同过滤方法，通过计算当前用户模型和以往用户模型的相关度，预测用户访问率或购买倾向，以找到数据库中有着相似特性和偏好的用户2024/8/6Web使用模式的发现和分析(续)基于Web用户事务的分类和预8.2.3 Web结构挖掘nWeb结构挖掘就是指通过分析不同网页之间的超链接结构，网页内部用HTML、XML表示的树形结构，以及文档URL中的目录路径结构等，发现许多蕴含在网络内容之外的对我们有潜在价值的模式和知识的过程nWeb页之间的超链接结构中包含了许多有用的信息。当网页A到网页B存在一个超链接时，则说明网页A的作者认为网页B的内容非常重要，且两个网页的内容具有相似的主题2024/8/68.2.3 Web结构挖掘Web结构挖掘就是指通过分析不同网PageRank算法n目前对Web结构进行分析的主要方法是将Web看作有向图，然后根据一定的启发规则，用图论的方法对其进行分析nPageRank 算法是超链接结构分析中最成功的代表之一n搜索引擎 Google就是通过利用该算法和anchor text标记、词频统计等因素相结合的方法，对检索出的大量结果进行相关度排序，将最权威的网页尽量排在前面2024/8/6PageRank算法目前对Web结构进行分析的主要方法是将WPageRank算法(续)nPageRank算法假设q从一个网页指向另一个网页的超链接是一种对目标网站权威的隐含认可，因此，一个页面的入度越大则它的权威就越高q另一方面，指向网页自身也有权威值，一个拥有高权威值网页指向的网页比一个拥有低权威值网页指向的网页更加重要，如果一个网页被其它重要网页所指向，那么该网页也很重要2024/8/6PageRank算法(续)PageRank算法假设2023/HITS算法nWeb的链接具有以下特征q有些链接具有注释性，也有些链接是起导航或广告作用。有注释性的链接才用于权威判断q基于商业或竞争因素考虑，很少有Web网页指向其竞争领域的权威网页q权威网页很少具有明显的描述，例如Google主页不会明确给出Web搜索引擎之类的描述信息nPage Rank算法中对于向外链接的权值贡献是平均的，但根据以上Web的链接特征可看出平均地分布权值不符合链接的实际情况2024/8/6HITS算法Web的链接具有以下特征2023/8/20HITS算法(续)n康奈尔大学博士J.Kleinberg提出的HITS(Hypertext Induced Topic Search)算法q在算法中引入了另外一种网页，称为Hub网页qHub网页是提供指向权威网页(Authority)链接集合的Web网页，它本身可能并不重要，但是Hub网页却提供了指向就某个主题而言最为重要的站点的链接集合qKleinberg认为网页的重要性应该依赖于用户提出的检索主题，而且对每一个网页应该将其Authority权重和Hub权重分开来考虑2024/8/6HITS算法(续)康奈尔大学博士J.Kleinberg提出HITS算法(续)n根据页面之间的超链接结构，将页面分为Authority页和Hub页n一般来说，好的 Hub网页指向许多好的Authority网页，好的Authority网页是由许多好的 Hub网页指向的 Web网页。这种 Hub与Authority网页之间的相互加强关系，可用于Authority网页的发现和Web结构和资源的自动发现，这就是HITS算法的基本思想2024/8/6HITS算法(续)根据页面之间的超链接结构，将页面分为AutHITS算法(续)nHITS算法如下q将查询q提交给传统的基于关键字匹配的搜索引擎q从搜索引擎返回的网页中取前n(在介绍的HITS论文中采用n=200)个网页作为根集(root set)，用S表示q通过向S中加入被S引用的网页和引用S的网页将S扩展成基集Tq接着算法对基集T内部的每个网页进行处理，计算T中每个网页的Authority值和Hub值q迭代计算并输出一组具有较大Hub值的页面和具有较大Authority值的页面2024/8/6HITS算法(续)HITS算法如下2023/8/20PageRank与HITS算法的对比n处理对象和算法效率不同qPageRank算法可以离线计算每个网页的PageRank值，能对用户查询产生快速的响应qHITS算法由根集S生成基集T的时间开销很昂贵，实时性较差n传播模型不同qPageRank算法是基于随机游走类型的qHITS算法将网页分为Authority网页和Hub网页，Authority网页和Hub网页交互传播，相互加强2024/8/6PageRank与HITS算法的对比处理对象和算法效率不同2PageRank与HITS算法的对比(续)n反网页作弊能力不同qPageRank算法能较好地防止网页作弊的发生qHITS算法则没有这样好的反作弊能力，因为网页拥有者可以很容易地在自己的网页上添加大量指向权威网页的链接，进而影响HITS算法得到的Authority值和Hub值n“主题漂移”问题qHITS算法存在“主题漂移”问题qPageRank则较好地克服了“主题漂移”问题2024/8/6PageRank与HITS算法的对比(续)反网页作弊能力不同8.3 跨语言智能学术搜索系统n8.3.1 混合语种文本分词n8.3.2 基于机器翻译的跨语言信息检索n8.3.3 不同语种文本的搜索结果聚类n8.3.4 基于聚类的个性化信息检索n8.3.5 基于聚类的查询扩展n8.3.6 其它检索便利工具n8.3.7 系统性能评估2024/8/68.3 跨语言智能学术搜索系统8.3.1 混合语种文本分词28.3.1 混合语种文本分词n汉语词法分析系统ICTCLASq中文分词；词性标注；关键词提取；命名实体识别；未登录词识别q分词正确率高达97.58%(973专家组评测)；未登录词识别召回率均高于90%，其中中国人名的识别召回率接近98%；处理速度为31.5Kbytes/snLuceneq高性能文本分析器，可根据单词间的空格进行分词q大小写转换、不规则符号过滤、停用词过滤(Stop words filtering)、词干提取(Stemming)2024/8/68.3.1 混合语种文本分词汉语词法分析系统ICTCLAS2n整合ICTCLAS和Lucene混合语种分词策略：输入一个文本；采用ICTCLAS对所输入文本进行中文分词以及词性标注处理；提取标注为“x”词性字符串，采用Lucene标准分析器(StandardAnalyzer)进行第二趟分词，对输入字符串进行大小写转换、不规则符号过滤、停用词过滤、词干提取；文本是否已经处理完，如果否则转(1)；结束。2024/8/6整合ICTCLAS和Lucene混合语种分词策略：2023/8.3.2 基于机器翻译的跨语言信息检索n基于统计的机器翻译方法已经具备用户可接受的准确率nGoogle翻译是基于统计方法的机器翻译n研究结合Google翻译和元搜索技术实现基于机器翻译的跨语言学术检索2024/8/68.3.2 基于机器翻译的跨语言信息检索基于统计的机器翻译方n实现流程：用户输入查询词并选择目标语言；若目标语言与源语言(查询词所属语言)相同则转(3)，否则将查询词翻译成目标语言，作为新的查询词；将查询词提交到搜索源；返回搜索结果。2024/8/6实现流程：2023/8/208.3.3 不同语种文本的搜索结果聚类n对不同语种文本采用不同的聚类算法：q使用Lingo搜索结果聚类算法对西语西语文本进行聚类处理q采用一趟聚类算法对中文中文搜索返回结果进行增量多层聚类2024/8/68.3.3 不同语种文本的搜索结果聚类对不同语种文本采用8.3.4 基于聚类的个性化信息检索n个性化信息检索主要是通过用户兴趣模型对搜索返回结果进行个性化重排序和个性化过滤返回结果等方式实现n介绍方法的流程：q观察用户对聚类结果的点击行为，实时提取用户的兴趣偏好q生成并更新用户实时兴趣模型q采用余弦夹角公式计算兴趣模型与搜索结果相似度q按照相似度从大到小对其进行重排序，以实现个性化的检索需求2024/8/68.3.4 基于聚类的个性化信息检索个性化信息检索主要是通过8.3.5 基于聚类的查询扩展n通过查询扩展技术，搜索引擎系统能较好地理解用户的查询意图n采用基于局部分析的聚类分析方法n选取可读性强的聚类结果类标签作为扩展词n提供交互式的扩展词选择方式2024/8/68.3.5 基于聚类的查询扩展通过查询扩展技术，搜索引擎系统8.3.6 其它检索便利工具n面向文献来源网站(URL)的层次归类方法q“.com”、“.cn”n“”q“”n基于文献发表期刊或者会议的归类方法n引用文献聚类功能n按相似度排序、按时间排序、按被引用次数排序2024/8/68.3.6 其它检索便利工具面向文献来源网站(URL)的层次8.3.7 系统性能评估n系统的分词速度为111 kb/snMT CLIR(Machine Translation CLIR)的短查询词、中查询词和长查询平均准确率分别为0.4446、0.5536和0.617nMCIBC和Lingo的微平均F-Measure值分别达到了0.4917和0.5178n个性化排序方法得到了较高的P5、P10和P20值(均高于0.5)2024/8/68.3.7 系统性能评估系统的分词速度为111 kb/s20部分系统截图部分系统截图2024/8/6部分系统截图2023/8/202024/8/62023/8/202024/8/62023/8/202024/8/62023/8/202024/8/62023/8/208.4 基于内容的垃圾邮件识别n8.4.1 垃圾邮件识别方法简介n8.4.2 基于内容的垃圾邮件识别方法工作原理n8.4.3 一种基于聚类的垃圾邮件识别方法2024/8/68.4 基于内容的垃圾邮件识别8.4.1 垃圾邮件识别方法简8.4.1 垃圾邮件识别方法简介n主流的垃圾邮件识别技术可分为邮件服务器端防范技术和邮件客户端防范技术两大类n邮件服务器端防范技术：q基于IP地址、域名和“(黑)白名单”过滤技术；q基于信头、信体、附件的内容过滤技术；基于信头、信体、附件的内容过滤技术；q基于连接频率的动态规则技术；n邮件客户端防范技术：q充分利用黑名单，白名单功能；q慎用“自动回复”功能；尽量避免泄露邮件地址；2024/8/68.4.1 垃圾邮件识别方法简介主流的垃圾邮件识别技术可分为基于内容的垃圾邮件识别技术n基于内容的垃圾邮件识别技术是邮件服务器端防范技术的主流技术，以上提到的基于信头、信体、附件的内容过滤技术是典型的基于内容的方法n这类型方法的典型代表有Bayes方法、kNN、支持向量机SVM、Rocchio、神经网络等2024/8/6基于内容的垃圾邮件识别技术基于内容的垃圾邮件识别技术是邮件服8.4.2 基于内容的垃圾邮件识别方法工作原理n一封标准格式的电子邮件包含有邮件头部(mail head)和邮件体(mail body)两部分n邮件头部包括发件人，收件人，抄送人，发信日期，主题，附件等信息n邮件体包括邮件正文信息n实例图如下：2024/8/68.4.2 基于内容的垃圾邮件识别方法工作原理一封标准格式的2024/8/62023/8/20垃圾邮件过滤的基础n在不考虑附件、图片化文字等问题，只简单考虑邮件中包含的文本内容情况下，这类垃圾邮件大概占总垃圾邮件数量的80%n垃圾邮件过滤的基础是识别出所接收到邮件是正常邮件还是垃圾邮件，而这个识别过程可以看作是一种二类的文本分类文本分类问题，即正常邮件和垃圾邮件两个类别文本的识别2024/8/6垃圾邮件过滤的基础在不考虑附件、图片化文字等问题，只简单考虑识别方法的主要步骤n基于内容的垃圾邮件识别方法的主要步骤：将解码并格式化后的电子邮件视为文本；分词并使用相应的文本表示方法来表示文本，较多的方法采用向量空间模型 VSM；基于已有的垃圾邮件和正常邮件语料库，采用文本分类算法建立垃圾邮件识别模型；基于识别模型判别新收到的邮件是否为垃圾邮件2024/8/6识别方法的主要步骤基于内容的垃圾邮件识别方法的主要步骤：208.4.3 一种基于聚类的垃圾邮件识别方法n介绍的方法首先采用聚类算法学习训练语料，并建立识别模型，然后再结合kNN分类方法思想对测试语料决策分类，具有很好的识别准确度以及效率n并可以通过聚类算法增量更新模型2024/8/68.4.3 一种基于聚类的垃圾邮件识别方法介绍的方法首先采用建立识别模型n利用一趟聚类算法建立识别模型，过程如下:初始时,簇集合为空,读入一个新的文本；以这个对象构造一个新的簇，该文本的类别标识作为新簇的类别标识；若文本已被处理完,则转(6),否则读入新对象,计算并选择最大的相似度的簇；若最大相似度小于给定半径阈值r,转(2)；否则将该文本并入具有最大相似度的簇，转(3)；采用投票机制对聚类得到的簇进行标识；得到聚类结果(识别模型)，建模阶段结束。2024/8/6建立识别模型利用一趟聚类算法建立识别模型，过程如下:2023决策分类n结合kNN分类方法思想，利用识别模型对测试语料进行分类处理：q给定一个测试文本x，使用公式(1)计算模型m0的每个簇的打分，即(1)(2)q找出k1(first_k_value)个最近邻的簇，并在这些簇中查找k2(second_k_value)个最近邻的文本q基于得到的k2最近邻文本集，使用公式(2)给其打分，并将x判定为得分最高的类别2024/8/6决策分类结合kNN分类方法思想，利用识别模型对测试语料进行分模型更新n对于新添加的训练语料，采用建立模型一样的方法对新添加的训练文本进行增量式聚类，更新聚类结果，以得到新的识别模型2024/8/6模型更新对于新添加的训练语料，采用建立模型一样的方法对新添加部分算法性能测试结果部分算法性能测试结果2024/8/6部分算法性能测试结果2023/8/20Ling-Spam语料lemm版本上的十折交叉验证分类结果2024/8/6Ling-Spam语料lemm版本上的十折交叉验证分类结果2Ling-Spam上的增量式建模分类TCR值2024/8/6Ling-Spam上的增量式建模分类TCR值2023/8/2Ling-Spam上的增量式建模的簇变化情况2024/8/6Ling-Spam上的增量式建模的簇变化情况2023/8/28.5 本章小结本章小结n文本挖掘以及Web数据挖掘技术在现实生活中有着广泛的应用。本章对文本挖掘以及Web数据挖掘技术作了简要介绍，并通过两个案例深入地展示了相关技术和思想。8.5 本章小结文本挖掘以及Web数据挖掘技术在现实生活中有

展开阅读全文

文本挖掘与web数据挖掘课件

最新文档