Web挖掘基础课件

上传人:仙*** 文档编号:209549156 上传时间:2023-05-14 格式:PPT 页数:27 大小:1.04MB
返回 下载 相关 举报
Web挖掘基础课件_第1页
第1页 / 共27页
Web挖掘基础课件_第2页
第2页 / 共27页
Web挖掘基础课件_第3页
第3页 / 共27页
点击查看更多>>
资源描述
Web挖掘基础挖掘基础知识知识WWW提纲提纲Web挖掘的概念挖掘的概念Web内容挖掘内容挖掘Web结构挖掘结构挖掘Web日志挖掘日志挖掘Web 挖掘的挑战挖掘的挑战WebWeb数据量太庞大:数据量太庞大:Server Level Collection、Client Level Collection和和 Proxy Level CollectionWebWeb数据的复杂性高于传统的文本文档数据的复杂性高于传统的文本文档WebWeb是一个动态性极强的信息源是一个动态性极强的信息源WebWeb面对的是一个广泛的用户群体面对的是一个广泛的用户群体WebWeb上的信息只有很小的一部分是相关的或有用的上的信息只有很小的一部分是相关的或有用的Web挖掘与挖掘与IRWeb上的上的IRIR是是Web挖掘的一个方面,仅是对信息有序化。挖掘的一个方面,仅是对信息有序化。Web挖掘是智能化的挖掘是智能化的IRIR,IRIR出现早,技术成熟。出现早,技术成熟。Web挖掘概念挖掘概念Web挖掘是从大量挖掘是从大量Web文档的集合文档的集合C中发现隐含的、有用的中发现隐含的、有用的模式模式P的过程:的过程:CP。Web挖掘主要处理文本、图形和图像等半结构、非结构化的挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在数据,这些数据分布在Web文档、文档、Web服务器的日志、用户服务器的日志、用户cookies等等。Web挖掘分类挖掘分类 Web挖掘类挖掘类项目项目Web内容挖掘内容挖掘Web结构挖掘结构挖掘Web日志挖掘日志挖掘处理数据处理数据类型类型IR方法:无结构数据、半结构数据方法:无结构数据、半结构数据Web结构数据结构数据用户访问用户访问Web数据数据主要数据主要数据自由化文本、自由化文本、HTML标记的超文本标记的超文本Web文档内及文档文档内及文档间的超链间的超链Serverlog,Proxy serverlog,Client log表示方法表示方法词集、段落、概念、词集、段落、概念、IR的三种经典模型的三种经典模型图图关系表、图关系表、图处理方法处理方法统计、机器学习、自然语言理解统计、机器学习、自然语言理解机器学习、专有算机器学习、专有算法法统计、机器学习、统计、机器学习、关联规则关联规则主要应用主要应用分类、聚类、模式发现分类、聚类、模式发现页面权重页面权重分类聚类分类聚类模式发现模式发现Web站点重建,商站点重建,商业决策业决策Web内容挖掘内容挖掘 基于网页内容或其基于网页内容或其描述中抽取知识的描述中抽取知识的过程。过程。Web内容挖掘主要内容挖掘主要包括文本挖掘和多包括文本挖掘和多媒体挖掘两类,其媒体挖掘两类,其挖掘对象包括文本、挖掘对象包括文本、图像、音频、视频图像、音频、视频和其他各种类型的和其他各种类型的数据。数据。日志的预处理日志的预处理IP AddressTime/DateMethod/URIReferrerAgent202.120.224.415:30:01/2-Jan-01GET Index.htmhttp:/ok.edu/link.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET 1.htmhttp:/ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET A.htmhttp:/ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:37:09/2-Jan-01GET E.htmhttp:/ex.edu/C.htmMozilla/4.0(IE5.0W98)202.120.224.415:33:04/2-Jan-01GET Index.htmhttp:/ok.edu/res.phpMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET 1.htmhttp:/ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET A.htmhttp:/ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET B.htmhttp:/ex.edu/A.htmMozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET C.htmhttp:/ok.edu/A.htmMozilla/4.0(IE5.0W98)Web文本挖掘文本挖掘 Web文本挖掘针对包括文本挖掘针对包括Web页面内容、页面结构和用户访问页面内容、页面结构和用户访问信息等在内的各种信息等在内的各种Web数据,应用数据挖掘方法发现有用的知数据,应用数据挖掘方法发现有用的知识帮助人们从大量识帮助人们从大量Web文档集中发现隐藏的模式。文档集中发现隐藏的模式。Web文本挖掘的方法文本挖掘的方法 文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。通常需要给出文本摘要。文本分类文本分类:把一些被标记的文本作为训练集,找到文本属性和文:把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。别。召回率和精度。文本聚类:根据文本的不同特征划分为不同的类。文本聚类:根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。未来的情况预测。Web文本挖掘的应用文本挖掘的应用 搜索引擎领域:利用搜索引擎领域:利用Web文本挖掘可以更合理地组织搜文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。索结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和自然语言理解领域:结合自然语言处理技术和Web文本文本挖掘技术。挖掘技术。文本挖掘在垃圾邮件过滤中的应用文本挖掘在垃圾邮件过滤中的应用Web多媒体挖掘多媒体挖掘 Web多媒体挖掘是从大量多媒体数据中通过综合分析多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。模式,得出事件的趋向和关联,为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。别。多媒体挖掘系统的结构多媒体挖掘系统的结构多媒体挖掘的典型应用多媒体挖掘的典型应用 视频挖掘:从电影、监控录像等视频数据中提取视频场视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化,并在景内容和其中运动对象的特征及其时空位置变化,并在此基础上发现场景的内容特征,运动对象的行为模式和此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。事件模式等。在线诊疗系统:对新产生的医学图像进行分类,从而对在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。病人进行疾病的诊断。Web结构挖掘结构挖掘 有用的知识不仅存在于有用的知识不仅存在于Web页面间的链接结构和页面间的链接结构和Web页页面内部结构,而且也存在于面内部结构,而且也存在于URL中的目录路径结构(页中的目录路径结构(页面之间的目录结构关系)。面之间的目录结构关系)。Web结构挖掘是指挖掘结构挖掘是指挖掘Web链接结构模式,即通过分析链接结构模式,即通过分析页面链接的数量和对象,从而建立页面链接的数量和对象,从而建立Web的链接结构模式。的链接结构模式。Web结构挖掘主要方法结构挖掘主要方法PageRank算法算法HITS算法算法WebLogIndexSESpiderSpamFreshnessQuality results20M queries/dayBrowser800M pages?24x7SESEPageRank算法算法PRi:the PageRank value of page iPRj:the PageRank value of page jkj:number of the pages j refer tod:a parameter ranging 0,1.Web结构挖掘的应用结构挖掘的应用 信息检索信息检索 社区识别社区识别 网站优化网站优化 Web日志挖掘日志挖掘 Web日志挖掘是从用户访问日志(包括日志挖掘是从用户访问日志(包括搜索引擎日志等搜索引擎日志等)中)中获取有价值的信息,即通过分析获取有价值的信息,即通过分析Web日志数据,发现访问者日志数据,发现访问者存取存取Web页面的模式。页面的模式。理解用户的行为,改进站点结构,发现潜在用户,为用户提理解用户的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务,增强网站的竞争力。供个性化的服务,增强网站的竞争力。Web日志挖掘的应用日志挖掘的应用 获取用户访问模式信息,理解用户的意图和行为获取用户访问模式信息,理解用户的意图和行为分析用户的存取模式,为用户提供个性化的服务分析用户的存取模式,为用户提供个性化的服务确定网站的潜在客户群,合理制订网络广告策略等确定网站的潜在客户群,合理制订网络广告策略等改进改进WebWeb站点的结构,使网站点随时间、用户需求的变化而不断调站点的结构,使网站点随时间、用户需求的变化而不断调整整对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等访问量的时间分布等利用关联规则确定相关利用关联规则确定相关Web查询(查询修正)查询(查询修正)隐私保护数据挖掘隐私保护数据挖掘数据挖掘可能会违反用户的隐数据挖掘可能会违反用户的隐私私在原始数据库中,类似于标识在原始数据库中,类似于标识符、姓名、地址和喜好等数据符、姓名、地址和喜好等数据作为用户的隐私应该被保护。作为用户的隐私应该被保护。对用户的敏感的原始数据进行对用户的敏感的原始数据进行变换,以便数据的使用者不能变换,以便数据的使用者不能对用户的原始数据进行查看,对用户的原始数据进行查看,以此保护用户的私有数据。以此保护用户的私有数据。病人原始病历编号编号姓名姓名性别性别年龄年龄是否发热是否发热呼吸困难呼吸困难淋巴细胞数淋巴细胞数(10(109 9/L)/L)1张三男40是是1.22李四男25否是0.63王五女29是是0.8转换后的病历信息00865046920212459792007116488001534717950248929060001652869100000000120267625744000000016801501852800150185280000250012600000000160267625744000000010803256545750150185280000250010200000000200000000124015018528001501852800002500112医疗数据挖掘隐私保护医疗数据挖掘隐私保护
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!