基于Web挖掘的个性化推荐服务研究

资源描述

分类号分类号密级密级 U D C 硕硕士士学学位位论论文文基基于于Web挖挖掘掘的的个个性性化化推推荐荐服服务务研研究究学位申请人学位申请人：丁丁一一学科专业学科专业：计算机应用技术计算机应用技术指导教师指导教师：卢正鼎卢正鼎教授教授论文答辩日期论文答辩日期 2004.5.10 学位授予日期学位授予日期答辩委员会主席答辩委员会主席胡和平胡和平评评阅阅人人王天江王天江李李玉玉华华 A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree of the Master of EngineeringThe Research of Personalized Recommendation Based on Web MiningCandidate : Ding YiMajor : Computer Application TechnologySupervisor : Prof. Lu ZhengdingHuazhong University of Science & TechnologyWuhan 430074, P.R.ChinaApril, 2004I摘摘要要随着网络技术的不断发展，如何利用数据挖掘技术从大量的网络信息中挖掘出对人们有用的资源，已经成为研究的热点问题。信息推荐技术需要解决的三个问题是：首先，要理解用户的需求；其次，是能高效、准确地执行查询任务；最后，能把结果很好地组织起来交给用户。目前比较成熟的信息推荐技术是采用面向网络信息来解决以上问题的。但是，这种方式很难执行好用户个性化的检索需求，因此提出了面向用户的个性化推荐模型。通过对通用搜索引擎和元搜索引擎的研究，提出了个性化推荐模型，该模型分为离线部分和在线部分。离线部分由数据预处理和特定的访问挖掘任务组成，数据预处理将网络服务器的访问日志文件以及站点的相关文件生成用户文件和事务文件；特定的访问挖掘是利用聚类算法来生成网页聚类。模型的在线部分主要是利用离线部分生成的网页聚类，再根据用户的当前访问操作行为，动态地为用户推荐下一步访问操作。在线部分主要是由：用户接口、兴趣学习器、个性化分析器、推理器、网络数据连接管理器、个性化过滤器和网络服务器等组成。在线部分涉及到的关键算法有：兴趣学习算法、个性化分析算法、个性化过滤算法和推理算法，此外还对模型的一些简单的语法规则进行了定义，通过实验环境实现了一个界面简单的推荐模型。关键词：关键词：数据挖掘，个性化，信息检索，推荐服务，聚类分析IIAbstractWith the development of network technology, how to use the data mining technologies to search on Web has come to be a hot research area in the information search field. Three problems need to be solved through information discovery technology on Web. Firstly, it must understand the users need correctly. Secondly, it can execute query tasks efficiently and accurately. Lastly, it is able to organize the results before showing them to user. Now the popular and mature IR technologies settle these problems in a network information objected method. However, the network information oriented IR technologies cannot understand and execute users personal need. In this dissertation, we bring forward a new model for information recommendation in Web, user-oriented information recommendation model. After combining advantages and disadvantages of the normal search model and the Meta search model, this paper raises another new model of personal information recommendation based on Web mining. The model can depart offline-model and online-model. Introduces the data preprocessing of the offline-model, and then discusses the special task of accessing mining. Data preprocessing is the step that brings users documents and events documents through accessing log documents of Web server and some documents of sites. Special task of access mining brings out Web URL clustering using the clustering algorithm. Online-model mainly uses the Web URL clustering based on current accessing operation of users, recommendation the following accessing operation dynamically. Online-model mainly consists of user interface, interest learner, personality analysis, case-based reasoning, Internet database connecter, personality re-sorting and Web server. And the key algorithm of online-model such as, interest learning algorithm, personal analysis algorithm, personal re-sorting algorithm and case-based reasoning algorithm were discussed. Besides these, some simple syntax rules of the model were defined. The whole structure of the model was displayed through experiments, which verify the capability of it.Key words: data mining, Personalization, information search, recommendation server, clusteringIII目目录录摘摘要要 .IAbstract.II1 绪论绪论1.1 数据挖掘.(1)1.2 Web 数据挖掘 .(2)1.3 个性化推荐服务的现状.(3)1.4 论文研究内容及其组织.(5)2 个性化个性化 Web 挖掘挖掘2.1 Web 数据挖掘 .(7)2.2 几个重要的研究方向.(11)2.3 Web 挖掘的个性化 .(13)2.4 个性化推荐解决的问题和目标.(16)2.5 小结.(17)3 基于基于 Web 挖掘的个性化推荐挖掘的个性化推荐3.1 个性化服务中用户研究.(18)3.2 个性化推荐.(20)3.3 个性化推荐服务技术.(23)3.4 个性化推荐模型.(29)3.5 小结.(32)4 个性化推荐模型设计与实现个性化推荐模型设计与实现4.1 推荐模型描述.(33)4.2 模型离线预处理.(34)IV4.3 离线挖掘算法.(37)4.4 模型在线推荐.(38)4.5 模型测试结果.(48)4.6 小结.(50)5 论文总结论文总结5.1 主要工作总结.(51)5.2 进一步的研究方向.(51)致致谢谢.(53)参考文献参考文献.(54)附录附录 1 攻读学位期间发表的论文目录攻读学位期间发表的论文目录.(57)11 绪论绪论近年来，随着大规模的工业生产过程的自动化、商务贸易电子化及企业和政府事务电子化的迅速普及以及科学计算的日益增长，产生了大规模的数据源。计算机网络技术的长足进步也为数据的传输和远程交互提供了技术手段，特别是互联网的迅速发展更是将全球的信息源纳入了一个共同的数据环境中1。日益成熟的数据库系统和数据库管理系统都为这些海量数据的存储和管理提供了技术保证，为步入信息时代奠定了基础，这些庞大的数据库及其中的海量数据是极其丰富的信息源。在这些信息源中隐含了许多有潜在价值的知识，如何发现这些有用的知识是人工智能、数据库等领域的研究焦点。但是仅仅依靠传统的数据检索机制和统计分析方法已经远远不能满足需要了。因此，近年来出现了一门新兴的知识获取提取技术数据挖掘。数据挖掘旨在从数据库中提取正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。它的出现为自动和智能地把海量的数据转化成有用的信息和知识提供了手段1。数据挖掘涉及到诸如机器学习、模式识别、统计学、数据库和人工智能等众多学科，是数据库理论和机器学习的交叉学科。1.1 数据挖掘数据挖掘数据挖掘和知识发现KDD（Knowledge Discovery in Database）有密切的联系。知识发现（KDD）2是指从数据库中发现有用知识的整个过程，数据挖掘是这一过程中的一个特定步骤，知识发现包括数据选择、预处理、数据转换、数据挖掘、模式解释和知识评价等多个步骤，是应用特定数据挖掘算法和评价解释模式的一个循环反复过程，并要对发现的知识不断求精深化，使其易于理解；数据挖掘是知识发现过程中的一个关键步骤。数据挖掘（Data Mining）是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的是提高市场决策能力；检测异常模式；在过去的经验基础上预言未来趋势等3。这些知识和规则是隐含的、先前未知的、对决策有潜在价值的有用信息。通过数据挖掘，有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来，为决策提供依据，从而使数据库作为一个丰富可靠的资源，为知识归纳服务。2与传统的数据库查询系统相比较，数据挖掘技术有以下不同4：（1）传统的数据库查询一般都具有严格的查询表达式，可以用 SQL语句描述，而数据挖掘则不一定具有严格的要求，常常表现出即时、随机的特点，查询要求也不确定。（2）整个挖掘过程也无法仅用SQL语言就能完整表达，实际上，数据挖掘常常用一种类似SQL语言来描述。（3）传统的数据库查询一般生成严格的结果集，但数据挖掘可能并不生成严格的结果集。挖掘过程往往基于统计规律，产生的规则并不要求对所有的数据项总是成立，而是只要达到一定的事先给定的阈值就可以了。（4）通常情况下，数据库查询只对数据库的原始字段进行，而数据挖掘则可能在数据库的不同层次上发掘知识规则。从广义上讲，数据挖掘分为三种类型：全自动、半自动和全交互式。对于全自动技术，一旦系统被创建，无需人的任何干预，它能在后台自动进行操作；对于半自动技术，系统或者在后台操作，或者采用全交互方式；对于全交互式技术，是一种简单的数据挖掘，它由用户设置每次操作的参数，然后等待相应结果。数据挖掘在解决实际问题时，经常要同时使用多种模式。一个数据挖掘系统或仅仅一个数据挖掘查询就可能生成成千上万的模式，但是并非所有的模式都是令人感兴趣。这里有一个重要的概念，兴趣度（Interestingness），通常是用来衡量模式的总体价值，它包括正确性（Validity）、新奇性（Novelty）、可用性（Usefulness）和简洁性（Simplicity）。数据挖掘工具还要求具有开放性，它的开放性体现在两个方面：能与各种数据源集成；分析的结果是通用的或易于转化的。数据挖掘工具相互差别很大，这不仅体现在关键技术上，还体现在运行平台、数据存取和价格等方面。从运行平台来看，简单的工具可运行在 PC 的 DOS 或 Windows 上，复杂的工具要求运行在 Unix 工作站或并行处理平台上；从数据存取来看，简单工具处理的数据以文件形式输入，复杂工具要求大型的数据库环境。目前，数据挖掘已成为计算机科学研究中的一个十分活跃的前沿领域，并在市场分析、金融投资、欺诈甑别、医疗卫生、环境保护、产品制造和科学研究等许多领域获得了广泛的应用，取得了十分可观的社会效益和经济效益。同时，知识发现和数据挖掘的研究和应用，对于人工智能这门前沿学科的发展注入了新的活力，有力地促进了计算机科学朝着纵深方向顺利发展。31.2 Web 数据挖掘数据挖掘Internet提供了一个海量的信息源泉，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web还包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为数据挖掘提供了丰富的资源。人们希望有一个工具能够自动从Internet上提取知识。传统的数据挖掘基于关系数据库或数据仓库，所处理数据具有完整的结构。但是Internet上的数据却是无序的、非结构的，并且存在着大量的冗余与噪声。对有效的数据仓库和数据挖掘而言，Web似乎太大了。Web的数据量目前以几百兆字节计算，而且仍然在迅速地增长。Web数据具有以下的一些特征：（1）数据源具有很强的动态性，Internet本身就是一个时刻在动态更新和变化的系统，这就需要借鉴数据仓库的某些技术，以此保存Web上动态更新的数据。（2）数据的多样性，Web数据经过过滤后，既有数值型(整型、实型)、布尔型，又有分类数据、性质描述数据以及Web特有的数据类型(如URL地址、E-MAIL地址等)。新的数据类型必然带来新的特色，需要对原有挖掘方法进行改进和扩充。（3）用户目标的模糊性，基于Internet的数据挖掘用户往往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目标来。这就需要数据挖掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述挖掘结果。Web上的信息只有很小的一部分是相关的或有用的。据统计，99%的Web信息对于99%的用户是无用的，这些无用的信息会淹没用户所希望得到的推荐结果。基于以上的分析可知，Web对有效的资源和知识发现具有极大的挑战性。这些挑战推动了如何高效且实际地发现和利用因特网上资源的研究工作。目前有许多基于索引的Web推荐引擎，利用推荐引擎，有经验的用户可以快速定位到所需的文档。但是目前基于查询串的推荐引擎存在一些问题。首先，推荐引擎返回的文档数过于庞大，其中很多与话题相关性并不大；其次，很多与话题相关的文档可能并不包含相应的查询串。因此，对Web资源查找还不够充分的Web推荐引擎不能等同于Web 挖掘。1.3 个性化推荐服务的现状个性化推荐服务的现状随着信息科技的进步和互联网的日益普及，如何在浩瀚如海的信息空间里，快4速查找并获取所需的信息已成为信息时代最根本的问题之一。网络个性化推荐在网络信息资源查找中起到了重要的作用，它可以帮助人们从数以亿计的网络信息中找到自己想要的信息。信息检索技术经历了三个发展阶段：顺序检索、顺序与倒排检索相结合、全文检索。全文检索早期的发展，一是源于手工标引已不适应信息增长的需要，二是人们采用自然语言直接进行检索的原理5,6。据研究者统计，目前互联网上的搜索引擎已达数千种，仅中文搜索引擎就达70余种。在庞大的搜索引擎家族中，有囊括各学科、各种主题网络信息的综合性搜索引擎，有以特定学科或专业领域的网络信息为收录对象的专业性搜索引擎，还有专门列举搜索引擎的搜索引擎指南。搜索引擎作为一个整体，存在着质量参差不齐、信息的分类加工欠规范、搜索速度慢、死链接过多，以及提供的检索结果中重复信息及不相关的无效信息过多等弊端，对检索效果形成负面影响。网络信息的急剧增加，令以覆盖所有学科、所有类型信息为宗旨的综合性搜索引擎亦越来越难以应对，就是号称功能最为强大的搜索引擎，在网络信息搜索与加工软件的升级开发上，亦无法跟上网络信息的增长速度。搜索引擎在网络信息的组织、加工等环节上缺乏可供操作的、统一的技术标准，处于各自为政的无序状态，这主要体现在网络信息的分类上。统一的网络信息分类标准的缺位令网络用户无所适从，他们被迫接受各搜索引擎的分类体系无法兼容的事实，每使用一种新的搜索引擎，就意味着他们必须接受该搜索引擎与其他搜索引擎在分类体系上的差异。搜索引擎之间的检索体系存在一定的差异性，难于相互兼容，给网络用户掌握通用的信息检索技巧与方法带来不必要的操作障碍。每一种搜索引擎的开发者在设计该搜索引擎的核心检索技术时，都以突出自身特色而各显千秋，故不同的搜索引擎均有着相对独立的检索方法与技巧。各个搜索引擎都有一个特色化的检索体系等待网络用户去适应，这些检索体系在推向用户之前较少通过试运行从网络用户中搜集反馈信息，因此在适用性上存在先天的不足。网络搜索引擎一般由信息采集器(Spider 或 Crawler)、索引数据库(Index 或Catalog database)以及用于检索索引库的检索软件(Search Engine software)三部分组成。信息采集器主要负责访问各种站点，取回 Web 主页的信息。运行 Spider 时，只要提供少量的起始网页，Spider 除了会将网页上的信息读回以外，还将沿着网页上的超文本链接，自动访问网页链接的其它网页，直至遍历整个网站。Spider 对网站的访5问是周期的，一般为每月一次或数次，访问次数视网页的更新频率而定。索引器负责索引库的建立。Spider 收回的信息很多，直接用于查询，其效率将非常低。索引器的主要工作是建立一个包含关键信息的索引库以备查询。索引器的策略很大程度上影响了搜索引擎的效率与准确性。目前，比较常用的方法是对网页的标题(Title)和评语(Comment)进行索引。检索软件负责提供用户使用搜索引擎的接口。检索软件通常是一个 Web 应用程序，其主要工作包括：接收、解释用户的搜索请求；查询索引库；计算网页与搜索请求的关联度；提供排序后的搜索结果返回。简而言之，信息采集软件是从一个已知的文档集中读取信息，并检查这些文档的链接指针，指出新的信息空间，然后取出这些新空间中的文档，将它们加入到索引数据库，检索软件通过索引数据库为用户的查询请求提供服务，但现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足，索引数据库往往很大，检索的查准率不高。1.4 论文研究论文研究内容及其组织内容及其组织1.4.1 课题提出的现实意义与目标课题提出的现实意义与目标随着经济的不断发展，我国经济的开放度不断提高，因而遭受各种外部冲击的可能性和受影响的程度也将日益增大，各种国际规则和惯例对我国经济运行的制度约束越来越强烈，这些制度约束将产生强制性的制度变迁效应，加快我国外汇管理制度和模式变革的进程，在转化过程中，如何维护和提高管理效率，尽可能地减少制度变迁成本，将成为外汇局所面临的一大挑战。为此，迫切需要建立一个功能强大、数据完整的信息管理系统去统驭其他业务管理系统的运行。本课题来源于与国家外汇局合作的国家外汇信息管理决策系统的项目，简称SAFEMIDSS，是根据我国外汇管理的需要，按照外汇局“说得清，管得住，服务好”的指导思想建立的集业务管理与辅助决策于一身的综合信息服务平台。它将是外汇局完成真实性审核、统计预警和政研立法三大职能的支撑系统，也将成为我国外汇管理电子化的核心平台。它将以采集基础数据取代报表数据；以电子数据的直接提取或交换取代业务数据的二次录入与加工传递；以接近实时取代定期、不定期；以系统灵活的、即插即用的应用程序取代独立、固定的应用程序；借助报表生成工具以灵活组合、自定义方式的查询方法取代固定的查询、报表生成程序；以系统的指标体系、科学的分析方法、灵敏的决策机制取代静态的、孤立的、缺乏全面信息6支持的决策方式。这一课题属国家十五攻关课题（2001BA102A06-11），并由本课题组承担，一期工程于 2003 年 12 月通过国家验收。本课题的目标是以建立国家外汇管理局决策支持系统为实践背景，利用数据挖掘理论技术，改进并实现基于 Web 挖掘的个性化推荐服务技术，从而对国家外汇管理局网站的 Web 信息文件进行挖掘，得出用户的访问模式，从而可以进一步分析和研究日志记录的规律，来改进国家外汇管理局网站的组织结构及其性能，改造自适应网站；还可以通过统计和关联分析，了解使用用户的爱好，增加个性化推荐服务，使用户足不出户就可以了解和关注到自己感兴趣的信息和资源，更好的为用户服务；也可以是外部数据采集员用来在 Internet 上面采集相关数据、资料的工具。1.4.2 论文组织论文组织论文比较系统完整的分析和论述了数据挖掘技术的热点难点、Web 挖掘的体系结构、个性化服务的定义、基于 Web 挖掘的个性化推荐服务。各章节内容安排如下：第 1 章绪论：简要介绍了本文要描述的数据挖掘的基本概况和 Web 挖掘的基本定义，本文的课题背景、目的和意义，以及论文的主要工作。第 2 章个性化 Web 挖掘：简要介绍了 Web 挖掘的定义、分类、过程、任务，还介绍了个性化服务的定义，个性化推荐解决的主要问题以及 Web 挖掘的个性化，最后还介绍了目前比较流行和重要的几个研究方向。第 3 章基于 Web 挖掘的个性化推荐模式：首先对个性化服务中的用户服务研究做出了描述，接着介绍了个性化推荐模型的工作机理、分类以及目前个性化推荐存在的问题；然后对个性化推荐服务的具体技术问题、实现方法进行了介绍，最后对目前比较流行的通用模型和元搜索引擎进行了分析。第 4 章个性化推荐模型设计与实现：首先对模型进行了具体描述，然后就个性化推荐模型的离线部分预处理、离线算法和在线部分的定义、数据流程、算法的分析以及具体实现技术进行了具体的阐述。模型的在线部分主要是利用离线部分生成的网页聚类，再根据用户的当前访问操作行为，动态地为用户推荐下一步访问操作。通过实验环境实现了一个界面简单的推荐模型。第 5 章论文总结：总结了本论文的特色和创新，以及提出了今后工作的发展方向。72 个性化个性化 Web 挖掘挖掘本章将从 Web 挖掘的定义开始，介绍了 Web 挖掘的分类、Web 挖掘的过程、Web 挖掘技术以及 Web 信息检索，还介绍了几个最重要的挖掘技术，最后将介绍一下 Web 挖掘的个性化。2.1 Web 数据挖掘数据挖掘数据挖掘是一个逐渐演变的过程，电子数据处理的初期，人们就试图通过某些方法来实现自动决策支持，当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机，机器通过学习这些范例总结并生成相应的规则，这些规则具有通用性，使用它们可以解决某一类的问题。随后，随着神经网络技术的形成和发展，人们的注意力转向知识工程，知识工程不同于机器学习那样给计算机输入范例，让它生成规则，而是直接给计算机输入已被代码化的规则，而计算机是通过使用这些规则来解决某些问题6,7。Web挖掘从数据挖掘发展而来，是数据挖掘技术应用于Web信息的一个崭新领域。Web是一个巨大的、广泛分布的、高度异构的、半结构化的、相互联系并且不断进化的信息仓库；是一个巨大的文档累积的集合，包括超链接信息，访问及使用信息。大量的非结构化数据无法使用现有的数据库管理系统来操纵和管理，其用户群体也表现出多样性的特点，这些都对信息系统的研究人员提出新的挑战7。因为Web信息的特殊性，它与传统的数据挖掘相比又有新的特质。首先，Web挖掘的对象是大量异质分布的Web文档，每个数据源都是异构的；其次，Web文档本身是半结构化或无结构的且缺乏机器可理解的语义。所谓半结构化，是指Web上的数据具有一定的结构性，但是它没有特定的模型描述，每一站点的数据都有各自独立设计，并且数据本身具有自述性和动态可变性，是一种非完全结构化的数据。而传统的数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识，因此有些数据挖掘技术并不适用于Web挖掘，即使可用也需要建立在对Web文档进行预处理的基础之上2。82.1.1 Web 挖掘的分类挖掘的分类通过数据挖掘，个人、企业、网站从Internet提供的信息资源中，根据各自不同的目的和特点，抽取有关数据并且从中发现数据中隐含的规则和知识，从而更进一步地获取数据。Internet数据挖掘总的来讲，有3个目标：精确度，即返回数据符合用户需求的程度；覆盖率，即有多少符合用户需求的数据被返回；效率，即响应速度。现今最流行的Web数据挖掘的分类，是根据挖掘的对象将其分为：基于内容的挖掘和基于用户使用记录的挖掘。（1）Web内容挖掘：Web内容挖掘是从Web文档内容及其描述中获取有用知识，是对网页上真正的数据进行挖掘，包括网页内容挖掘和推荐结果挖掘。Web文档通常包含以下几种数据类型：文本、图像、音频、视频、元数据和超链接，也有些如HTML文档所含的半结构化数据，但大多还是无结构的文本数据。文本、超文本内容的挖掘是Web内容挖掘的重点，但作为内容挖掘一份子的多媒体数据挖掘近年来受到许多研究人员的关注，对于统一表示模型、问题解决及从多媒体数据中学习这些问题的研究非常迫切，也将是巨大的挑战7。随着WWW上的信息的迅猛增长，许多只支持由关键词和超链接所构成推荐引擎返回的结果中有许多无用及无关的信息，因此，要推荐某一给定话题的Web页面，不仅希望得到与之相关的页面，还希望所检索的页面具有高质量，即针对该话题具有权威性。Web页面中的超链接包含了人类潜在的注释，权威性就隐藏在Web页面链接中。当一个Web页面的作者建立指向另一个页面的指针时，这可以看作是作者对另一页面的认可。把一个页面的来自不同作者的注解搜集起来，就可以用来反映该页面的重要性。因此，大量的Web链接信息提供了丰富的关于Web内容相关性、质量和结构方面的信息，这对Web挖掘是可以利用的一个重要资源。（2）Web使用记录的挖掘：Web使用记录的挖掘的目的是预测用户在网上的行为，比较网站的实际使用与期望的差别，根据用户的兴趣调整网站结构7。Web使用记录的挖掘是从用户存取模式中获取有价值的信息，是对Web上第二类数据即Web日志数据及相关数据的挖掘8，如图2.1所示。这些数据包括：客户端数据、服务器端数据和代理端数据。Web使用记录挖掘可分为一般存取路径追踪和专业化追踪。前者是用KDD技术理解一般访问模式和趋势，如Web日志挖掘；后者是分析某一时刻每一个用户的访问模式，网站根据这些模式自动重建结构，如自适应站点。Web服务器通常保存了对Web页面的每一次访问9的Web日志项，或叫Web log项。它包括了所请求的URL 、发出请求的IP地址和时间戳。基于Web的电子商务服务器中保存了大量的Web访问日志记录，热点的Web站点每天可以记录下数以百兆字节的Web log记录。Web log数据库提供了有关Web日志记录，来发现用户访问Web页面的模式。通过分析和探究Web日志记录中的规律，可以识别电子商务的潜在客户，增强对最终用户的因特网信息服务的质量，并改进Web服务器系统的性能，甚至建立针对个体用户的定制Web服务。站点文件用户会话文件感兴趣的规则模式规则汇总预处理挖掘算法模式分析原始日志图2.1 Web日志挖掘过程2.1.2 Web 挖掘的步骤挖掘的步骤目前，根据数据挖掘的通用方法，结合Web数据的特点，可以将Web数据挖掘划分为以下5个步骤2，如图2.2所示：网站结构、内容目标数据经过预处理的数据知识表述模式、规则、统计结果预处理数据挖掘模式分析图2.2 Web挖掘的步骤（1）数据的取样：Web环境目前能提供的数据源包括Web页面数据，超链接数据和记录用户访问情况的log数据等。按照主题相关的原则，数据取样从大量数据中取出一个与探索目标相关的数据子集，为后面的数据挖掘提供素材和资源。10（2）数据的预处理：数据的预处理是对数据源进行加工处理和组织重构，构建相关主题的数据仓库，为下一步的数据挖掘过程提供基础平台，做好前期准备。它主要包括：数据清理，数据集成，数据转换和数据简约。（3）数据的挖掘：这是数据挖掘系统的核心部分。它的主要功能是运用各种数据挖掘技术，从经过预处理的数据中提取出潜在的、有效的且能被人理解的知识模式。数据挖掘的目标是描述和预测，描述型模式是对数据中存在的规则作一种描述，或者根据数据的相似性把数据分组；而预测则是指根据属性的现有数据值找出其规律性，进而推测出其在未来可能出现的属性值。（4）分析与评估：数据挖掘所得到的知识模式需进行可信度和有效性分析，并对其做出评估结论，为用户的经营决策提供信息支持。如何检验得到的分析结果是否有用，一个简单的办法是直接使用原来建立模型的样板数据进行检验；另一种办法是另外找一些反映客观实际的规律性数据来检验；再一种办法是在实际运行的环境中取出新数据进行检验。（5）知识表述：知识表述是指用适当的形式将利用数据挖掘工具从Web数据中挖掘出来的知识模式表现出来，以利于用户接受和相互交流。数据挖掘的任务是多方面的，主要包括：总结（Summarization）规则挖掘、关联（Association）规则挖掘、分类（Classification）规则挖掘、聚类（Clustering）规则挖掘、预测（Prediction）分析、趋势（Trend）分析、偏差（Deviation）分析等。2.1.3 Web 数据挖掘任务数据挖掘任务（1）特征抽取：通过对数据源的分析，提取出关于该数据集的一些总体特征表达式。（2）关联分析：找出相互独立的不同事物之间的关联规则，经过关联分析处理，得到结论。（3）属性分类：利用分类器，能够把数据集中的数据项映射到某个分类。例如：可建立一个分类模型，对银行贷款的安全或风险进行分类。（4）聚类分析：在没有给定主题类别的情况下，通过对数据集的分析和比较，把数据划分到不同的组中，组之间的差别尽可能小。（5）时序预测：时序预测和关联分析相仿，是把数据之间的关联性与时间联系起来。为得到时序预测，不仅需要知道事件是否发生，而且需要确定事件发生的时11间。例如：情人节前巧克力和鲜花的销量会突然上升。在实际应用中，数据挖掘必须借助一定的工具，这些工具主要包括代理、查询报表、统计分析、数据发现(神经网络/ 决策树模型分析) 以及OLAP(多维分析)和可视化表现等4。2.1.4 Web 挖掘与挖掘与 Web 推荐推荐 Web 信息挖掘与 Web 信息推荐在实现的技术上有很多相似之处，人们往往将Web 信息挖掘与 Web 上的信息推荐等同起来，但实际上它们之间是有区别的9,10，主要体现在：（1）Web 上的信息推荐主要是通过查询串来进行推荐，而 Web 信息挖掘则能对用户给的复杂目标进行特征抽取，然后根据所提取的特征在网络中进行搜寻。（2）所有的 Web 信息挖掘基本上都要用到信息推荐技术，而并非所有的 Web信息推荐都要用到挖掘技术。Web信息推荐技术不能发现信息背后隐藏的联系和规律，而Web信息挖掘的功能之一就是找出大量看似无关的信息之间的联系和规律，供决策使用。由于Web的异构数据环境、半结构化的数据结构、开放动态的数据存取等特点，使得Web上的信息挖掘实现起来十分困难。必须对挖掘对象进行适当处理，以获得被挖掘对象的有关特征信息。Web上的信息挖掘技术可以借鉴信息推荐技术，因此如何对Web文档进行推荐、预处理而得到关于文档的特征表示，便成为Web信息挖掘研究的一个重点。当前各种信息检索工具的研制是Internet/WWW信息检索与数据挖掘研究的重点。网络信息检索工具的核心是其检索功能。检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索，其中的大多数检索都与数据挖掘的算法相关。其逼近能力的研究与实现体现了数据挖掘结果的质量，要实现多路数据的数据挖掘，开发具有较高挖掘质量的检索工具，必须探索一些知识信息处理的方法。目前，支撑矢量机、粗集、进化算法的研究方兴未艾，某些技术已经成功地运用到Internet/WWW上的数据挖掘。122.2 几个重要的研究方向几个重要的研究方向2.2.1 挖掘挖掘 Web 推荐引擎所发现的资源推荐引擎所发现的资源Web推荐引擎对Web资源的查找还不够充分，Web上的数据大多是HTML格式的，有关某个主题的信息杂乱地散布在Web站点的多个目录下，这样就需要有一个强大的推荐引擎，定位超文本的位置。现有的Web推荐引擎多是基于查询串的，返回的文档过于庞大，所包含的内容质量却不高。而且由于很多与话题相关的文档可能不包含相应的查询串，导致结果很可能也不全面，对文档进行先扩大后缩小的方法来推荐7。2.2.2 权威页面的识别权威页面的识别Web不仅由页面组成，而且还包含了一个页面指向另一个页面的超链接。超链接包含了大量人类潜在的注释，权威性就隐藏在这些超链接中。当一个Web页面的作者建立指向另一个页面的指针时，可看作是作者对另一页面的认可。把一个页面来自不同作者的注释收集起来，就可以用来反映该页面的重要性，即用于权威的Web页面的发现。这样可以进行页面等级的划分，事实上，Web链接结构存在局限性：（1）每一个超链接都代表一个认可，例如广告；（2）由于商业或竞争的考虑，很少有Web页面会指向其竞争领域的权威页面，也就是说显著权威Web上通常不能直接互相认可。权威页面很少具有特别描述之类的自描述信息，这就需要使用 Hub权威方法。一个Hub是指一个或多个Web页面，它提供了指向权威页面的链接集合。 Hub页面本身可能并不突出，或者说可能没有几个链接指向它们，但是，Hub却提供了指向就某个公共话题而言最为突出的站点链接，此类页面可以是主页上的推荐链接列表。Hub页面起到了隐含说明某话题权威页面的作用，好的Hub是指向许多好的的权威页面。这种Hub与权威页面之间的相互作用，可用于权威页面的挖掘和高质量 Web结构和资源的自动发现。算法 HITS（Hyperlink Induced Top is Search），是利用Hub的推荐算法，基于HITS算法的系统有CLEVER，Google也基于同样的原理。这些系统由于纳入Web链接和文本内容信息，查询效果明显优于基于词类索引引擎产生的结果。132.2.3 Web 信息过滤系统信息过滤系统Web信息过滤系统-Website是一个Web使用记录挖掘模型，它从站点中利用内容和结构信息挖掘算法。预处理算法包括识别用户、服务器会话和推断缓存网页。除了创造一个服务器会话文件，Website系统进行内容和结构的预处理，把服务器会话转换为事件。对服务器会话或事件文件可以进行序列模式分析、关联规则发现、聚类等，其结果通过简单的知识查询机制、可视化工具或信息过滤器进行分析，形成需要的模式。图2.3详细显示了在特定Web站点上要怎样进行使用记录的挖掘。挖掘预处理的输入包括三个服务器日志、站点文件、注册文件及远程代理日志。预处理阶段利用这些输入形成用户会话文件，经过事务识别形成用于模式发现的事务文件。模式发现利用现有的数据挖掘方法（关联挖掘、聚类、序列模式挖掘、统计学方法等）产生规则和模式，再经过各种模式分析工具得出最终有效知识7。14站点文件存取日志、参考日志、Agent日志、注册信息及远程代理Spider数据清理、路径补充、会话识别、用户识别网站拓扑结构用户会话文件网页分类事件识别事务文件标准统计信息包聚类、序列模式挖掘、关联规则挖掘序列模式、用户聚类、关联规则使用记录统计信息过滤知识查询机制OLAP/可视化图2.3 Website的体系结构2.3 Web 挖掘的个性化挖掘的个性化随着网络技术的发展及机器学习、模式识别等知识发现新技术的出现，电子商务竞争已使得信息服务方式从传统的“一对多”发展到“一对一”的个性化用户服务方式，即为恰当的用户在恰当的时间方便快捷的提供恰当的信息。随着电子商务中引入个性化用户服务方式，企业需要对 Web 环境下的客户资料数据进行深入的统计与分析，找出不同用户兴趣所在，透视隐藏在这些数据之后的更重要的用户兴趣模式信息以及关于这些数据的整体特征的描述并预测其发展趋势等。了解用户在15Web 环境中的访问模式将不仅改善 Web 站点设计，而且对企业市场决策过程具有重要的意义。本章介绍的基于 Web 挖掘的个性化推荐服务即是利用个性化技术将传统的数据挖掘（Data Mining）对象同 Web 访问信息结合起来，利用 Web 挖掘的方法抽取用户感兴趣的潜在有用模式与信息，然后基于这些模式和信息为用户提供“一对一”的具备自适应性的个性化推荐服务。这些个性化推荐服务可大大缩短用户在网络上的访问延迟，使得提供给用户的网络信息服务质量得到最大程度的提高。Web 已成为人们获取信息的一个重要途径，由于 Web 信息的日益增长，人们不得不花费大量的时间去推荐。浏览自己需要的信息，推荐引擎（search engine）是最普遍的辅助人们检索信息的工具，比如传统的推荐引擎 AltaVista，Yahoo 和新一代的推荐引擎 Google 等。信息检索技术由于其通用的性质，虽然满足了人们一定的需要，但仍不能满足不同背景、不同目的和不同时期的查询请求。个性化服务技术就是针对这个问题而提出的，它为不同用户提供不同的服务，以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为，从而实现主动推荐的目的，如图 2.4 所示。个性化推荐服务即是利用个性化技术将传统的数据挖掘对象同 Web 访问信息结合起来，利用 Web 挖掘的方法抽取用户感兴趣的潜在有用模式与信息，然后基于这些模式和信息为用户提供“一对一”的具备自适应性的个性化推荐服务。个性化服务技术能充分提高站点的服务质量和访问效率，从而吸引更多的访问者。1. 识别访问用户2. 查询用户资料3. 选择用户感兴趣的内容4. 查询内容、重新组织网页4.1 推荐的超链接列表4.2 推荐的广告列表4.3 推荐的商品列表4.4 经裁减的文本或图象列表用户文件：用户代码、密码、兴趣内容：文本、图片、连接等个性化网页图 2.4 个性化模型的基本组成16为实现基于 Web 的个性化推荐服务，首先需要对相应主题下各用户的信息需求内容，以及各专业信息网站的内容，进行归纳总结，以便构造出该主题范围内的信息模型层次树（OOH）；然后根据所获得的 OOH 内容，对该主题中各信息网站的主要内容和组织结构进行分析，提出获取相应的信息模型层次描述内容的网页推荐知识和网页信息抽取知识；这时开始进行信息网页推荐和网页信息抽取工作并逐步建立起一个基于信息层次模型的完整信息库；之后就可以根据各用户具体信息需求描述，从信息库中筛选出满足相应用户需求的信息内容并提供给用户。综上所述，Web 个性化尤其 Web 个性化推荐模型是帮助人们快速获取信息的有效手段。然而，现有模型仍然存在如下一些缺陷或不足：（1）非个性化方式适应用户兴趣变化的能力较差：现有的大部分信息检索模型采用关键词输入方式进行检索，对任何用户都是一种模式，很容易让用户感到迷茫，使得用户无法准确地表述自己的兴趣。尽管有些模型为此进行了改进，确实改善了检索效率。但是，由于没有不同个性化模式之间的相互学习和信息共享机制，因而不能很好地适应用户兴趣变化。（2）没有综合利用个性化检索和集中浏览的各自优点：现有信息检索模型不是注重发展大范围信息检索模型，就是注重解决特定需求信息检索问题，没有综合地考虑这两种检索方式的优点。（3）用户与检索模型的交互方式比较单调：现有模型普遍采用相关反馈技术作为用户和模型进行交互的主要手段，针对不同需求的用户，提供不同的输入方式是目前现有模型所缺少的，缺少分布式智能信息检索和适应信息源信息变化的能力。现有模型（如 Web Watcher，Info Finder）主要通过学习用户的历史关联信息，在线引导用户检索感兴趣的信息。这种为用户导航的方式每次只能浏览一个站点，效益比较低，而且无法避免用户浏览以前已经浏览过而现在不需再看的文档或链接。此外，由于没有有效地适应信息源信息变化的机制，不能及时为用户提供新的信息，因而无法为用户快速定位感兴趣的主题。2.3.1 个性化推荐中的数据源个性化推荐中的数据源Web 日志文件中包含 IP、时间戳、返回码、传送的字节数、方法、URL、HTTP、引用页 URL 等。由于用户访问 Web 页面时先从客户端缓存中调用已存信息，从而导致服务器端日志文件记录数据不完备，同时由于代理服务器和防火墙的应用，用户的 ID 是不可用的，这些都给日志信息的收集和预处理造成了很大的17困难。同时在对日志信息的收集和预处理时必须确认用户与服务器端的对话，通过Web Server 提供 Cookies；若无 Cookies，则需要浏览器注册 ID；若无 Cookies 或ID，则使用 Host 地址确认用户会话。需要指出的是来自同一个代理或防火墙的访问不应被视为同一个会话，对此需要采用专门的鉴别机制11,12。这时可将智能移动代理技术应用于 Web 用户当前访问信息的在线采集和历史访问信息的获取与收集，移动代理在收集信息时需结合必要的信息访问安全控制机制来保护用户的隐私权，以获取用户特征信息。支持个性化信息采集的移动代理技术为信息采集与过滤的自动实现，需要建立一个支持移动代理的迁移、恢复、运行、通信环境。2.3.2 界面推荐及内容推荐界面推荐及内容推荐访问界面推荐是向用户推荐感兴趣的 URL 列表，引导用户 Web 使用；内容推荐是指对经挖掘后的 URL 列表进行分析、删减和过滤，最终将集成后的信息推荐给用户。由于 URL 列表中存在数据表示上的异构性，如 HTML、XML 等格式，这就需要一定的格式转换处理，将其统一为相同格式。在“零输入个性化”服务实现中11,13，通过数据预处理过程将各种格式的数据转化成如 XML 表示的统一格式数据源，通过改进现有算法实现用户个性化特征提取。现有的 Web 使用挖掘算法大多是针对静态数据源的分析加工，而现实世界中的日志分析是面对不断更新变化的日志记录数据。对于频繁更新、数量巨大的 Web 日志需要选取合适的，满足这种动态变化的存储结构，同时，使用的 Web 挖掘算法也要适应这种动态存储结构。由于不同的挖掘算法需要使用不同格式的数据源，所以在挖掘前需要对数据进行相应的预处理。就整体而言，个性化服务就是 XML 数据处理、动态异构数据库、SQL 查询方法及 Web 使用挖掘算法应用在用户 Web 信息获取、信息过滤、信息结果分析中，并将最后集成后的信息提供给用户，以实现个性化服务。2.4 个性化推荐解决的问题和目标个性化推荐解决的问题和目标尽管各种互联网信息推荐引擎或服务网站不断涌现，但仍然难以满足人们对互联网信息服务的现实与潜在需求。随着互联网信息的迅猛增加（估计目前就有 8 亿以上的可访问静态网页），人们迫切需要能够满足自己独特信息需求的互联网信息服18务模型。模型应能根据每个用户独特的信息需求，从互联网上各信息网站中自动推荐相关的信息网页，然后从中抽取出所需要的信息，并将这些抽取出的信息整合在一起，提供给所需要的用户，以实现 Web 信息的个性化服务。要实现 Web 信息的个性化服务，就需要解决以下四个基本问题：（1）如何有效描述用户的信息需求，目前有两种方式，即利用反映用户信息需求的具体 Web 网页实例或主要内容检索查询串，这里可能还涉及包含正反例两种情况的描述。（2）如何准确推荐出相关的 Web 信息网页，有两种方式，即利用有关知识对所读取的 Web 网页进行分类识别；或者对网页中的超链接进行识别，这里的有关知识包括网页分类识别知识和网页权重计算知识。（3）如何准确抽取出 Web 网页中有关信息，通过两种方式，即利用定制网页Wrapper，或者利用基于网页内容与结构描述及其模式匹配的方法，来完成网页信息的抽取任务。（4）如何有效映射用户信息需求描述与 Web 信息推荐任务描述，这一问题的解决方法依赖前三个问题的具体解决方法。目前对 Web 信息个性化服务，这四个基本问题的研究工作虽取得了一些成果，但如何将解决上述四个基本问题的方法有机结合起来，以实现 Web 信息个性化服务，却比较少提出过完整的解决方法，尤其是在用户信息需求描述与信息推荐的有效结合方面11,14。2.5 小结小结所谓 Web 个性化服务，既是一种个性化服务，又是一种信息服务，它能够满足用户的个体信息需求，通过长期观察用户的推荐行为，从中识别用户的信息需求偏好，并且能够根据用户对推荐结果的评价，自觉调整推荐策略，使得对于同一检索请求，不同用户能够得到最贴近自已需要的信息。本章简要介绍了 Web 挖掘的定义、分类、过程、任务，还对个性化服务的定义，个性化推荐解决的主要问题以及对 Web 挖掘的个性化进行了阐述，最后还介绍了目前比较流行和重要的几个研究方向。193 基于基于 Web 挖掘的个性化推荐挖掘的个性化推荐Web数据具有分布、异质、动态、半结构或非结构等特征，这无疑给Web上的信息检索提出了挑战。目前的推荐引擎普遍存在着查全率和查准率不高的现象。任何一个简单的查询都至少返回数以万计的检索结果，而其中只有很少一部分与用户真正的检索要求有关。另外，对自然语言理解能力差、不支持个性化查询、对多媒体内容的检索尚不成熟等都是推荐引擎亟待解决的问题。针对上述问题，推荐引擎网站纷纷向智能化、个性化方面发展，像相似内容合并、基于自然语言理解的模糊推荐以及基于超链接结构的相关度排序等都是有益的尝试。个性化推荐引擎的研究正处于蓬勃发展阶段。随着计算机网络、数据库、人工智能等技术的不断发展，更新、更高技术的推荐引擎将不断涌现。3.1 个性化服务中用户研究个性化服务中用户研究随着因特网的发展和普及，越来越多的用户利用搜索引擎来搜索网上信息。尽管搜索引擎的发展已较成熟，但人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。主要原因有两个：（1）一次搜索的检索结果(一系列URL地址)可能有成千上万条，而在这过于庞大的信息群中，有用信息只是其中的一小部分，并且常常发生收到或下载的信息难以消化的情况，即所谓的“认知过载” 。（2）目前的搜索引擎都是服务器端软件，用户需要严格按照各种引擎所要求的格式输入查询词，但种种限制，使用户不知道如何贴切地表达自己的信息需求，也不知道如何更准确地寻找所需信息，这就是所谓的“迷航” 。面对网络信息服务的现状，人们在寻求一种将用户感兴趣的信息主动推荐给用户的服务方式，这便是个性化推荐服务。个性化推荐服务是在对用户及其需求了解的情况下，即通过用户研究，从数量庞大、增长迅速、类型复杂的网络信息中提取出用户真正需要的那一小部分提交给用户，是以 “用户为中心”的服务原则在网络环境下的具体体现。3.1.1 用户分析用户分析个性化信息服务为用户提供符合个人需要的服务。因此，要真正做好个性化服20务，必须深入开展用户研究，了解服务的用户群类型、特征，分析用户的真正

展开阅读全文

基于Web挖掘的个性化推荐服务研究

最新文档