web数据挖掘-华中师范大学.ppt

资源描述

Web数据挖掘及其教育应用,华中师范大学信息技术赵呈领教授E-mail：zhcling,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,Web数据挖掘教育应用,4,Web数据挖掘概述,1,Web结构挖掘,2,Web内容挖掘,3,5,Web日志挖掘,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,Web挖掘就是采用数据挖掘等信息处理技术，从Web信息资源及Web使用记录中发掘对特定用户感兴趣的、有用的信息或知识的过程，其结果可以为用户决策所使用。这里所讲的Web信息，从广义上讲，包括Web文本，Web图片，Web动画（如Flash广告，视频信息）等。这里主要探讨Web文本挖掘。,1.1相关概念,1、什么是Web数据挖掘（Web挖掘）,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。（2）传统数据挖掘和文本挖掘技术的不断完善和应用。,1.1相关概念,2、Web挖掘产生的原因,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）站点主页门户（WebsiteHomepageInformationPort（2）ISP（InternetServiceProvider，Internet服务提供商）（3）IP地址域名（4）搜索引擎元搜索引擎（SearchEngineMetaSearchEngine）（5）标签（Tag）（6）URL（统一资源定位器UniformResourceLocator）,1.1相关概念,3、Web挖掘相关概念,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（7）链接（Hyperlink）（8）日志（Log）（9）会话（Session）（10）网络蜘蛛（WebSpiderCrawler）（11）Cookie,1.1相关概念,3、Web挖掘相关概念,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）按挖掘内容语种：中文Web挖掘、西文Web挖掘;（2）按挖掘的终点的属性：企业门户挖掘、政务门户挖掘、个人站点挖掘；（3）按挖掘对象：Web结构挖掘、Web内容挖掘和Web日志挖掘。,1.2Web挖掘内容,1、Web挖掘内容分类,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）Web结构挖掘属于信息结构（IA）方面的研究内容。对于一个站点而言，按结构层次高低可以分出以下三种结构：站点结构：指的是整个站点的框架结构；页面（框架）结构：较为简单，这是由于许多网页由框架（Frame）组成而产生的；页内结构：单个网页里面也存在一定层次结构，对页内文档结构的提取有助于分析页面内容，提取页面信息。,1.2Web挖掘内容,2、Web挖掘内容,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）Web内容挖掘Web内容挖掘就是Web页面上文本内容的挖掘，是普通文本挖掘结合Web信息特征的一种特殊应用。目前应用较多的是页面内容特征提取，即提取页面上重要的名词、数字等等；另一方面是对页面进行聚类，即将大量Web页面进行各种方式的分类组合，如按站点的主题类别进行聚类、按页面的内容进行聚类等，可以发现其中可能存在的隐含模式等。,1.2Web挖掘内容,2、Web挖掘内容,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）Web日志（使用）挖掘Web日志（使用）挖掘就是在服务端对用户访问网络的活动记录进行挖掘，目前这方面的实际应用最为广泛，大部分集中在银行业、证券业、电子商务等方面。Web日志挖掘的主要目的包括网络广告分析、流量、用户分类、网络欺骗预防等等。,1.2Web挖掘内容,2、Web挖掘内容,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,1.2Web挖掘内容,3、Web挖掘内容比较,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,一方面，数据仓库中的数据一般是相对固定的，而Web上的信息日益增多，Web页面目次达数千亿，每天还在不断更新之中，任何搜索引擎的发展速度都难以适应，在搜索深度和广度上都存在困难；另一方面，尽管网络带宽一再扩大、并行处理等技术也不断发展，仍然不能很快检索所有的Web页，而且Internet上绝大部分信息对特定用户是没有意义的。,1.3Web挖掘难点,1、Web信息日新月异,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,不同于以往简单的、安全性较低的HTML文件，随着ASP，JSP以及Web数据库技术发展，许多页面都是动态从数据库中调用生成，而且许多站点禁止Robot类工具的访问，而且站点访问权限和较高的安全性也给Web挖掘设置了越来越多的障碍。,1.3Web挖掘难点,2、Web信息越来越难以获取,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）半结构化的Web数据：相对于Web的数据而言，一般的数据库中的数据组织形式是基于二维关系表格，结构性很强，即使是普通文本数据，也常常可以有一些诸如作者项、标题项等结构信息。而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库而言的。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。,1.3Web挖掘难点,3、异构的数据库环境,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）异构数据的归一化处理：整个Web可以视为一个巨大而且复杂的数据库，其中每个站点就是一个数据源，每个数据源都是异构的，因为每一站点信息组织方式通常不一样，这就构成了一个巨大的异构数据库环境。本地数据库的数据来源可以根据用户的意图事先固定好，而Web上的数据源则根本无法统一。因此，如果想要对这些数据进行挖掘，首先必须要研究各站点之间异构数据的集成问题，如果所需的数据不能有效地进行归一化处理，对这些数据进行分析、集成、处理就无从谈起。,1.3Web挖掘难点,3、异构的数据库环境,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）语种问题：常规挖掘一般只对一种语言信息进行处理，或者中文，或者英文，而目前Web站点常常以多种语言形式同时提供，使得Web挖掘的复杂程度因此而提高。,1.3Web挖掘难点,3、异构的数据库环境,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,目前Web挖掘的具体应用和工具多在日志挖掘和内容挖掘方面，很少有人重视Web站点的结构挖掘，其实，从网站的页面结构可以挖掘出相当重要的信息或知识。通过对门户站点Web结构分析，可以了解对方门户的Web主题、用户接口、标记语言、连接与响应速度等有关站点信息结（InformationArchitecture）的内容。从这里一般可以了解该机构对网站的重视程度，单位的信息化水平等。当对结构进行分析时，可根据一定规则，建立一个可以动态调整的评价体系，进行评价（见下表），最后则给出一个合适的结果报表提供给企业决策者。常用方法：定标比超法（BenchMarking）,2.1Web结构挖掘的意义,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,2.1Web结构挖掘的意义,IA分析表示例,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,几乎所有的Web站点页面之间的联系是通过超链来完成的（有的也通过脚本程序等来实现链接），所以Web结构挖掘的主要内容在于超链分析，即通过分析页面的链接关系来产生Web站点的结构。在对网站进行结构分析时，也可以借鉴超链分析的一些基本思想以及聚类算法对Web页面进行分类，从而得出网站的信息结构。,2.2超链分析与页面分类,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,如：Yahoo网站分析,2.2超链分析与页面分类,1、目录式站点结构分析：目录层次直接获取,目录式网站结构,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）复杂站点结构（Web页内文本）特点A、许多站点本身没有目录结构，所有文件在同一个目录下，这在个人站点中尤为常见。B、一些站点页面由脚本动态生成，无法捕捉其目录路径。C、网站设计者以及制作者的一些失误或故意，页面链接错误或者故意添加没必要的主题信息（可以增加被搜索引擎索引的机会）。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）基于特征的分类方法对于Web页内文本结构的分析，相对普通文本结构分析，它有一些明显的特征：通常没有段落、句子等显要的区别；文本中文字的属性特征比较丰富（颜色、字体等）；文本中标题性文字较多（如简介、产品信息、友情链接等）。由于在分析Web站点结构时感兴趣的是Web页面上的超链，鉴于这些情况，采用基于特征的分类方法较为有效，因为在同一页面上出现的具有相同外观的链接属于同一子类或相关程度大，如下图所示。而这种外观是通过HTML标签来控制的，所以可以采用以下的步骤：,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）基于特征的分类方法A、获取页面的HTML源文件；B、扫描HTML文件，获取HTML文件中所有超链的集合；C、依据超链前的标签给超链一个权值；D、获取每个超链文字的特征参数；E、根据超链的特征参数将超链进行分类；F、根据权值和分类结果确定页面上超链的层次关系。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）基于特征的分类方法,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,页内文档结构的利用,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法基本思想：Web页面分类的目的是根据Web页面的主题内容把相关的页面归为一类。在此也借鉴使用文本标引词来定义Web页面的相似度。先做以下假设或定义：假设待分类的Web页面集中有m个页面，而用于反映页面主题内容的标引词有n个。定义页面的标引词向量为（ti1，ti2，tin），其中tij表示第i个页面与第j个标引词的相关性，其值为0,1。当页面与标引词密切相关时取值为1，无关时取值为0，部分相关时可按照相关程序给,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法予到之间的值，且对于某页面i有。而ti=min(t1i，t2i，tmi)为第k个Web页面的标引词向量的第个分量（，）。同时，用求和数值大小来表示该页面集的相似度。又设为待分类的页面集的子集，为给定的分类阈值，为一个集合。若的相似度大于或者等于阈值，则称为的一个基于阈值的真类，否则称为的一个基于阈值的伪类。若中的元素均是的子集，则称为关于的一个类集。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法由上述定义可知，若页面集W1是页面集W2的子集，则必然有W1的相似度大于或者等于W2的相似度。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法具体算法：计算Web页面集M中每篇页面的标引词向量。构造待分裂页面集的类集和分裂分类结果类B，A=M，B空集。计算中每个页面集的标引词向量。计算中每个页面集的相似度。构造集合和，其中xxA且x为关于M的基于阈值的真类，FAT。记xxM，且存在yBT使得xy为集合P。若P中有m个元素，则转步骤,否则转步骤。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法构造集合Q为xxF，且存在yx使得y不属于P。设P中有n个元素。令F空集，按照页面集相似度从大到小的顺序从Q中选取元素，加入F之中，直到对任意xMP均存在yF，使得xy（若有多个页面集相似度相同，则可能F的选取不惟一）。分裂伪类集F：记x|存在yF，x是y的最大真子集为EF，x|xEF，存在yx满足yP为L，把EFL赋值给A，BT重新赋值给B。转步骤。输出分类结果B。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法例：采用分裂分类法对Web站点进行结构分析假设：任一页面的目录层次称为距离首面的距离，如页面,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法同类的页面会在同一个上级页面上有链接，如上海贝尔有关产品的页面的链接基本都出现在,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法自顶向下简化页面分类：1）选取首页链接的所有页面（L）为集合（Li|i=1m），其中包含m个Web页，根据分裂分类法进行分类得到分类结果集A（l1，l2，），（l3，l4，），A的元素即为分类后的子集B，每个这样的子集都可以包含一个以上的Web页面，共计a个子集，子集中元素的个数为bi（），且；2）根据假设（2），（3）对集bi进行处理，排除不符合假设的元素；,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（3）分裂分类法自顶向下简化页面分类：3）对集合bi中的每个元素页上的链接重新生成集合，根据分裂分类法进行分类；4）对结果按步骤）进行处理，并循环2），3）过程，直到最后所有子集中的元素有且仅有一个元素；5）根据分类结果生成企业门户结构图，并记录到数据库。,2.2超链分析与页面分类,2、复杂站点结构（Web页内文本）分析,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,1、人工直接提交方式Yahoo等检索站点都支持用户直接提交URL信息，需要提交四部分内容：名称、URL、语言和描述，如图所示。,3.1Web信息获取方式,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,1、人工直接提交方式对于普通用户，较少使用这种提交方式，尤其对于一个企业而言，其竞争对手更加不可能主动提交有用的URL，惟一可能的是企业内部员工的积极参与，但这可能浪费员工的工作时间，而且无法保证每个员工提交的页面都具有很大的价值。,3.1Web信息获取方式,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,2、软件搜索方式采用Spider或Robot等软件来进行，如Excite、Lycos等搜索引擎采用的就是这种方法。Robot可以从最初给定的一些URL开始检索相关信息，并不断试图连接这些页面上提供的URL。理论上这样的软件有可能获取Internet上所有的资源，但实际是不可能的，花费的时间和代价太高，而且大部分信息对特定用户而言没有用。此外，由于隐私问题或者有些Web管理员担心这种软件执行时可能会对被链接的站点响应时间下降，所以许多站点是禁止Robot连接的。常见的禁止Robot有两种。,3.1Web信息获取方式,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,2、软件搜索方式常见的禁止Robot的两种方式：1）在Web站点主目录下放置一个文本文件robots.txt,里面按照Robot限制协议声明该站点是否允许被Robot检索或者部分检索。,3.1Web信息获取方式,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,2、软件搜索方式常见的禁止Robot的两种方式：2）在HTML文件中放置声明标签.,3.1Web信息获取方式,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,2、软件搜索方式据此，就可以自己编写或者利用成型的Robots工具来检索Internet资源。关于Robots的算法有许多种，主要可以分为最大深度优先算法和最大广度优先算法，前者着重于单个站点的挖掘，力图实现对单个站点的遍历和索引（即追求深度），而后者则是试图检索更多的站点（即追求广度）。对于搜索引擎而言，这两种算法均有可取之处，而对于特定的企业用户而言，感兴趣的站点不是很多，则应该采用最大深度优先的算法，以期对竞争对手、大客户等的Web站点进行完全的挖掘。,3.1Web信息获取方式,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,由于诸种原因，网络抓取回来的信息常常有许多是重复的，表现如下：（）数据源众多。这在搜索引擎的检索中尤其常见，用户常常发现几条甚至几十条结果的内容相同，而尽管它们指向的不同。（）不同的语言。现在许多网站都提供多种语言，尽管可以只限定抓取一种语言的页面，但往往不同语言的网页中有着不同的信息，因而有不得不面对语种的问题。,3.2Web信息清理,1、信息去重,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（）滥用缩写词。缩写词是为了方便，尤其网络语言的发展更是支持了缩写词的大量应用。例如，WTO和世界贸易组织，Sina和新浪等，不一而足，甚至ASAP（AsSoonAsPossible，尽快）等传统的缩略语也会给Web挖掘带来不少麻烦。（）不同的计量方式和标准。如同样一件商品，美国人说2公斤，在中国也许是4斤，尽管大家都尽力使用国际标准单位，但不同的国家、不同的行业总还是有些特殊的习惯暂时难以更改。（）过时的编码。例如中国大陆身份证件编号的变化，以前是15位，现在是18位。,3.2Web信息清理,1、信息去重,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,解决信息重复的基本步骤：,3.2Web信息清理,1、信息去重,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,如下两则地址信息：张建风，男，江苏南京人，1975年8月14日出生，身高173cm；张建风，男，南京人，1975-8-14出生，身高1.73m。数据标准化：数据标准化就是按照数据库规范记录的格式将数据格式统一，如将“1975年8月14日”转为“1975-8-14”，“1.73m”转为“173cm”。元素化数据和标准化数据分别如图：,3.2Web信息清理,1、信息去重,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（1）信息清理的对像,3.2Web信息清理,2、信息清理,1）数据输入错误。包括拼写错误、重复记录、漏录等等，这些错误有些是数据录入的时候就出问题，有的是网络制作人员的失误。2）网络欺骗。有些站点会不经意地发布一些虚假信息或者会故意引导来自竞争对手的访问到错误的页面上去。3）突发数据异常。由于一些不可预测的原因造成的数据异常，如灾害天气、突发事件等造成正常的数据突然发生异常变化等。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）信息清理的方法（步骤：建立异常信息模型、识别异常信息、更改异常信息）,3.2Web信息清理,2、信息清理,1）回归分析：对于一些有规律的数值性数据，通常可以根据历史数据进行回归，然后辨别新的信息数据是否偏离太远。,某公司销售收入与其利润的历史数据基本在两条曲线之间，那么，对新发现且相差比较大的数据就很容易进行相关的处理。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）信息清理的方法（步骤：建立异常信息模型、识别异常信息、更改异常信息）,3.2Web信息清理,2、信息清理,回归处理注意两个问题：一是所建的数学模型是否准确，因为在许多情况下，用户并不知道要分析对象的数据分布趋势，而且现实数据也往往不完全符合某种理想的数学分布，这就需要有完善的建模工具和专业人才，才能发现数据中的规律性，有时候这种规律性也可以通过对历史数据进行数据挖掘获得；二是对异常数据的处理，有时数据异常是有客观原因的（如某公司突然进行大规模的有奖销售，销售额增加但利润可能降低等），对于这种异常，常常需要人工来分析和剔除。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,（2）信息清理的方法（步骤：建立异常信息模型、识别异常信息、更改异常信息）,3.2Web信息清理,2、信息清理,2）页面分类删除:在向搜索引擎提交检索结果以后，有可能得到许多没用的信息。比如用关键词“移动”检索天网（），反回信息可能包括中国移动、移动存储等各种包含“移动”一词的页面，而用户需要的可能是移动存储的有关信息，此时可以根据分类处理垃圾信息。这种分类可以借助页面文本的主题词汇进行，比如包括中国移动的页面常常包括电信行业的词汇，而包括移动存储的页面则常常包含关于计算机存储方面的词汇。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,某公司软件（Trillium）中对于地址信息的处理过程：,3.2Web信息清理,3、Web信息清理举例,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,某公司软件（Trillium）中对于地址信息的处理过程：,3.2Web信息清理,3、Web信息清理举例,（1）转换。主要功能是在Web页面上发现有关地址信息，进行分析后以确定格式，进行初步存储。（2）剖析。对于初步获取的信息，将其元素化，比如区分出姓名、街道等，进行标准化存储。（3）解码。对于（2）中的结果进行下一步分析，根据系统数据库或者某些规则，判断所得数据是否合理，如430079是湖北武汉的邮政编码，若有一上海地址留下的邮政编码是430079，则说明该地址信息有误。（4）匹配。将获取的人名、地址、电话等信息一一对应存储到数据库，供下一步数据挖掘工作使用。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,文本挖掘是指从非结构化的文本（包括txt、PostScript、PDF、HTML、XML等）中发现和提取隐含的、事先未知的、用户可理解的、有价值的信息和知识，这是一个分析文本并从中抽取特定信息的过程。其对象是非结构化数据。从功能上来讲，Web文本挖掘主要是对Web上大量文档集合进行表示、特征提取、文档总结、分类、聚类、关联分析、语义分析，以及利用Web文档进行趋势预测等。其对象是半结构化数据。,3.3Web文本挖掘,1、文本挖掘与Web文本挖掘,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,2、Web信息挖掘工具（IBM公司推出）,（1）TextAnalysisTools（文本分析工具）。其主要目的是从文本信息中发现一些特征数据（Feature），如人名、日期、数据等，并将这些特征数据以一定格式标记或存储起来。（2）FulltextSearchEngine（全文检索引擎）。以此来实现模糊检索、布尔逻辑检索等，从而使检索的质量和效率提高。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,2、Web信息挖掘工具（IBM公司推出）,（3）WebCrawlerTools（Web遍历工具）。它能按照一定目标沿着Web的链接从一个目录浏览到另一个目录或从一个主机浏览到另一个主机，这种工具有时也叫WebSpider。（4）AWebSearchSolution（Web检索工具）。它同一般讲的搜索引擎有所区别，是建立在文本检索技术基础上的一种检索方案，可以用来跟踪Intranet或Internet上竞争对手的信息变化，一般先由WebCrawler遍历，然后由WebSearchSolution进行索引，并提供一个用户界面给用户。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,IBM等认为数据准备要花费整个数据挖掘80%以上的工作量，而最后真正的数据挖掘过程（分类分析、聚类分析等）则只占了很少的工作量，但只有这20%的工作才能产生数据挖掘的成果，IBM公司Web挖掘的基本流程如图：,IBM公司Web挖掘的框架,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,大多数Web挖掘模型或框架主要对Web文本特征提取、分类、聚类等方法进行探讨，而对挖掘来的结果如何使用没有进一步的建议。鉴于Web挖掘的根本目的是充分挖掘和利用企业内外部的知识资源，从而提高企业的竞争优势。因此，结合现有数据挖掘以及竞争情报研究方法的主要特点，建立了一个直接为企业竞争情报服务的Web挖掘模型如下：,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,CI（CorporateIdentify）模型的Web挖掘器（WebMinerforCI）,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,首先，系统需要获取必需的企业站点地址，关于这些站点的选择，一般可以由用户决定，它应该是企业密切注意的竞争对手的站点，或者行业类门户站点等，然后由特定的BrowseAgents访问这些门户网站，并利用其中的超链最大深度地访问整个站点，这种工作可以在不同机器上同时进行；然后，将结果汇总到后续处理的机器上即可。而进一步的代理软件可以根据长期的监测和分析，能够自行决定需要跟踪的企业门户，并考虑逐渐去除那些已失去竞争力的企业的门户，也可能从其他页面中发现潜在的竞争对手。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,BrowseAgent重要部分在于将抓取的页面，并连同其目录结构一起提交到下一步的特征提取处理过程中，同IBM等公司的产品一样，这里需要根据特定的需要建立一套关键词词表，最方便的办法是依照波特理论的指标体系或者Tyson的指标体系，尤其是Tyson的指标体系更适合门户站点的信息处理，分八大类236个指标。企业实际应用时，可以根据行业特点和企业特色，对这些指标进行筛选，制定最适合企业本身的指标体系，并以此来提取页面中感兴趣的人名、地名、数据等特征参数。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,信息分类的算法有很多，目前基于粗糙集、决策树理论的分类方法已经比较成熟，而在WebMinerforCI模型中，可以根据竞争情报的专业特点进行简化，以提高算法的精度和效率。在竞争情报搜集过程中，很重要的一个问题是信息的真实性辨认，为此在门户信息处理过程中，依靠其本身的信息关联和来自其他信息源的信息进行真实性判断和修改，以确保最后用于分析的信息真实可靠。,目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。,3.3Web文本挖掘,3、Web挖掘模型,WebMinerforCI模型的关键部分在于竞争情报分析体系的建立。目前竞争情报的分析主要有以下方法：（1）传统的微观分析方法，主要用于对具体的某一产品或市场制定战略或战术规划，如本企业产品分析销售分析、研发分析、财务报表分析等；（2）传统的宏观分析方法，主要从市场增长、市场份额等方面入手，包括波士

展开阅读全文

web数据挖掘-华中师范大学.ppt

最新文档