Web挖掘基础课件

资源描述

Web挖掘基础挖掘基础知识知识WWW提纲提纲Web挖掘的概念挖掘的概念Web内容挖掘内容挖掘Web结构挖掘结构挖掘Web日志挖掘日志挖掘Web 挖掘的挑战挖掘的挑战WebWeb数据量太庞大：数据量太庞大：Server Level Collection、Client Level Collection和和 Proxy Level CollectionWebWeb数据的复杂性高于传统的文本文档数据的复杂性高于传统的文本文档WebWeb是一个动态性极强的信息源是一个动态性极强的信息源WebWeb面对的是一个广泛的用户群体面对的是一个广泛的用户群体WebWeb上的信息只有很小的一部分是相关的或有用的上的信息只有很小的一部分是相关的或有用的Web挖掘与挖掘与IRWeb上的上的IRIR是是Web挖掘的一个方面，仅是对信息有序化。挖掘的一个方面，仅是对信息有序化。Web挖掘是智能化的挖掘是智能化的IRIR，IRIR出现早，技术成熟。出现早，技术成熟。Web挖掘概念挖掘概念Web挖掘是从大量挖掘是从大量Web文档的集合文档的集合C中发现隐含的、有用的中发现隐含的、有用的模式模式P的过程：的过程：CP。Web挖掘主要处理文本、图形和图像等半结构、非结构化的挖掘主要处理文本、图形和图像等半结构、非结构化的数据，这些数据分布在数据，这些数据分布在Web文档、文档、Web服务器的日志、用户服务器的日志、用户cookies等等。Web挖掘分类挖掘分类 Web挖掘类挖掘类项目项目Web内容挖掘内容挖掘Web结构挖掘结构挖掘Web日志挖掘日志挖掘处理数据处理数据类型类型IR方法：无结构数据、半结构数据方法：无结构数据、半结构数据Web结构数据结构数据用户访问用户访问Web数据数据主要数据主要数据自由化文本、自由化文本、HTML标记的超文本标记的超文本Web文档内及文档文档内及文档间的超链间的超链Serverlog,Proxy serverlog,Client log表示方法表示方法词集、段落、概念、词集、段落、概念、IR的三种经典模型的三种经典模型图图关系表、图关系表、图处理方法处理方法统计、机器学习、自然语言理解统计、机器学习、自然语言理解机器学习、专有算机器学习、专有算法法统计、机器学习、统计、机器学习、关联规则关联规则主要应用主要应用分类、聚类、模式发现分类、聚类、模式发现页面权重页面权重分类聚类分类聚类模式发现模式发现Web站点重建，商站点重建，商业决策业决策Web内容挖掘内容挖掘基于网页内容或其基于网页内容或其描述中抽取知识的描述中抽取知识的过程。过程。Web内容挖掘主要内容挖掘主要包括文本挖掘和多包括文本挖掘和多媒体挖掘两类，其媒体挖掘两类，其挖掘对象包括文本、挖掘对象包括文本、图像、音频、视频图像、音频、视频和其他各种类型的和其他各种类型的数据。数据。日志的预处理日志的预处理IP AddressTime/DateMethod/URIReferrerAgent202.120.224.415:30:01/2-Jan-01GET Index.htmhttp:/ok.edu/link.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET 1.htmhttp:/ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET A.htmhttp:/ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:37:09/2-Jan-01GET E.htmhttp:/ex.edu/C.htmMozilla/4.0(IE5.0W98)202.120.224.415:33:04/2-Jan-01GET Index.htmhttp:/ok.edu/res.phpMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET 1.htmhttp:/ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET A.htmhttp:/ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET B.htmhttp:/ex.edu/A.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET C.htmhttp:/ok.edu/A.htmMozilla/4.0(IE5.0W98)Web文本挖掘文本挖掘 Web文本挖掘针对包括文本挖掘针对包括Web页面内容、页面结构和用户访问页面内容、页面结构和用户访问信息等在内的各种信息等在内的各种Web数据，应用数据挖掘方法发现有用的知数据，应用数据挖掘方法发现有用的知识帮助人们从大量识帮助人们从大量Web文档集中发现隐藏的模式。文档集中发现隐藏的模式。Web文本挖掘的方法文本挖掘的方法文本概括：从文本（集）中抽取关键信息，用简洁的形式总结文文本概括：从文本（集）中抽取关键信息，用简洁的形式总结文本（集）的主题内容。例如搜索引擎在向用户返回查询结果时，本（集）的主题内容。例如搜索引擎在向用户返回查询结果时，通常需要给出文本摘要。通常需要给出文本摘要。文本分类文本分类：把一些被标记的文本作为训练集，找到文本属性和文：把一些被标记的文本作为训练集，找到文本属性和文本类别之间的关系模型，然后利用这种关系模型判断新文本的类本类别之间的关系模型，然后利用这种关系模型判断新文本的类别。召回率和精度。别。召回率和精度。文本聚类：根据文本的不同特征划分为不同的类。文本聚类：根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。未来的情况预测。Web文本挖掘的应用文本挖掘的应用搜索引擎领域：利用搜索引擎领域：利用Web文本挖掘可以更合理地组织搜文本挖掘可以更合理地组织搜索结果：按照页面之间的相似程度分为若干簇。索结果：按照页面之间的相似程度分为若干簇。自然语言理解领域：结合自然语言处理技术和自然语言理解领域：结合自然语言处理技术和Web文本文本挖掘技术。挖掘技术。文本挖掘在垃圾邮件过滤中的应用文本挖掘在垃圾邮件过滤中的应用Web多媒体挖掘多媒体挖掘 Web多媒体挖掘是从大量多媒体数据中通过综合分析多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义，发现隐含的、有价值的和可理解的视听特性和语义，发现隐含的、有价值的和可理解的模式，得出事件的趋向和关联，为用户提供决策支持。模式，得出事件的趋向和关联，为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。别。多媒体挖掘系统的结构多媒体挖掘系统的结构多媒体挖掘的典型应用多媒体挖掘的典型应用视频挖掘：从电影、监控录像等视频数据中提取视频场视频挖掘：从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化，并在景内容和其中运动对象的特征及其时空位置变化，并在此基础上发现场景的内容特征，运动对象的行为模式和此基础上发现场景的内容特征，运动对象的行为模式和事件模式等。事件模式等。在线诊疗系统：对新产生的医学图像进行分类，从而对在线诊疗系统：对新产生的医学图像进行分类，从而对病人进行疾病的诊断。病人进行疾病的诊断。Web结构挖掘结构挖掘有用的知识不仅存在于有用的知识不仅存在于Web页面间的链接结构和页面间的链接结构和Web页页面内部结构，而且也存在于面内部结构，而且也存在于URL中的目录路径结构（页中的目录路径结构（页面之间的目录结构关系）。面之间的目录结构关系）。Web结构挖掘是指挖掘结构挖掘是指挖掘Web链接结构模式，即通过分析链接结构模式，即通过分析页面链接的数量和对象，从而建立页面链接的数量和对象，从而建立Web的链接结构模式。的链接结构模式。Web结构挖掘主要方法结构挖掘主要方法PageRank算法算法HITS算法算法WebLogIndexSESpiderSpamFreshnessQuality results20M queries/dayBrowser800M pages?24x7SESEPageRank算法算法PRi：the PageRank value of page iPRj:the PageRank value of page jkj：number of the pages j refer tod：a parameter ranging 0,1.Web结构挖掘的应用结构挖掘的应用信息检索信息检索社区识别社区识别网站优化网站优化 Web日志挖掘日志挖掘 Web日志挖掘是从用户访问日志（包括日志挖掘是从用户访问日志（包括搜索引擎日志等搜索引擎日志等）中）中获取有价值的信息，即通过分析获取有价值的信息，即通过分析Web日志数据，发现访问者日志数据，发现访问者存取存取Web页面的模式。页面的模式。理解用户的行为，改进站点结构，发现潜在用户，为用户提理解用户的行为，改进站点结构，发现潜在用户，为用户提供个性化的服务，增强网站的竞争力。供个性化的服务，增强网站的竞争力。Web日志挖掘的应用日志挖掘的应用获取用户访问模式信息，理解用户的意图和行为获取用户访问模式信息，理解用户的意图和行为分析用户的存取模式，为用户提供个性化的服务分析用户的存取模式，为用户提供个性化的服务确定网站的潜在客户群，合理制订网络广告策略等确定网站的潜在客户群，合理制订网络广告策略等改进改进WebWeb站点的结构，使网站点随时间、用户需求的变化而不断调站点的结构，使网站点随时间、用户需求的变化而不断调整整对日志数据进行多种统计，包括频繁访问页、单位时间访问频度、对日志数据进行多种统计，包括频繁访问页、单位时间访问频度、访问量的时间分布等访问量的时间分布等利用关联规则确定相关利用关联规则确定相关Web查询（查询修正）查询（查询修正）隐私保护数据挖掘隐私保护数据挖掘数据挖掘可能会违反用户的隐数据挖掘可能会违反用户的隐私私在原始数据库中，类似于标识在原始数据库中，类似于标识符、姓名、地址和喜好等数据符、姓名、地址和喜好等数据作为用户的隐私应该被保护。作为用户的隐私应该被保护。对用户的敏感的原始数据进行对用户的敏感的原始数据进行变换，以便数据的使用者不能变换，以便数据的使用者不能对用户的原始数据进行查看，对用户的原始数据进行查看，以此保护用户的私有数据。以此保护用户的私有数据。病人原始病历编号编号姓名姓名性别性别年龄年龄是否发热是否发热呼吸困难呼吸困难淋巴细胞数淋巴细胞数(10(109 9/L)/L)1张三男40是是1.22李四男25否是0.63王五女29是是0.8转换后的病历信息00865046920212459792007116488001534717950248929060001652869100000000120267625744000000016801501852800150185280000250012600000000160267625744000000010803256545750150185280000250010200000000200000000124015018528001501852800002500112医疗数据挖掘隐私保护医疗数据挖掘隐私保护

展开阅读全文

Web挖掘基础课件

最新文档