资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,搜索引擎聚类提纯系统,背景介绍,设计思想,实现,展望,Outline, ,2,开发背景,网络信息兴旺,积聚了大量积聚价值的信息资源,搜索引擎应用,查询资料,行业分析,搜索引擎应用前景光明, ,3,搜索引擎现状,返回量大,检索结果过多过杂,挑选定位到自己感兴趣内容困难,重复程度高,挑选出来的信息中,信息率低, ,4,我们的目标,使搜索结果,更精炼、更清晰,减轻用户挑选信息的工作量, ,5,通用解决方案,获得用户检索式外隐藏的真正目的,跟踪用户检索行为,分析用户操作模型,文本分类,显式分类,例子:天网、,Yahoo,站点聚类、内容聚类,vivisomo, ,6,本系统方案,在线聚类,按内容聚类,大大减轻了用户选择所需文档的负担,加快了信息选择的速度。,提纯,在聚类过程中将内容过于重复的页面合并,因此用户看到不同的文档将能够获取不同的信息。, ,7,几点说明,设计重点:优化搜索结果,不直接从网上爬去网页,直接利用Google、baidu等搜索得到结果,区分主题,在线内容聚类,从多个搜索引擎中取信息源,目的:扩大搜索面, ,8,本系统优势,拥有比现有搜索引擎更好的类名概括性、归类准确性,在线聚类,基于摘要和标题聚类,提高了算法效率,得到几乎同样质量的结果,消除冗余,让用户在短时间内获得更多的相关信息, ,9,浏览器 (,http request),输入输出模块,主要功能:,响应用户请求,把用户请求查询字符串发送给分词模块,把分词的结果传递给聚类提纯模块,重构聚类提纯以后的文档,并返回给浏览器,分词模块,主要功能:,1.根据查询字符串调用搜索引擎,2.对搜索引擎返回的结果进行切词,3.构造聚类提纯模块需要的,phrase,和,doc,聚类提纯模块,主要功能:,1. 对每个,phrase,计算其5项参数值,得到其,rank,,并对之排序,2. 利用最高,rank,的,phrase,作为类名计算其聚类文档,3. 合并冗余的聚类文档,查询字符串,查询结果,分词和文档集合,查询字符串,分词文档集合,聚类提纯以后的文档集合, ,10,主要功能,在用户和系统之间传递数据,生成页面并显示,模版,便于,HTML,维护,减少,CGI,程序中的不良代码,用户界面, ,11,切词,根本步骤,调用搜索引擎进展查询,把搜索引擎查询出的每一条结果进展切词,对词进展重新组合,生成Phrase (n-gram),并得到其左右的Phrase列表(聚类用),生成聚类提纯模块所需的Phrase字典和文档库,规定n=4,为切的词的个数而非字数, ,12,切词局部分析,好处,词语的词组有利于提高聚类的效果。,缺乏之处,切词程序对切词词库的完备程度依赖很大,假设词库不够完善,会把很多专有的名词切成不能表达实意的字,最终影响结果, ,13,根本思想:,对搜索结果的前几百条进展在线聚类,将结果划分成假设干主题,每个类用一个适宜的名称加以描述,用户看到的将是假设干类名,通过选择和所需信息最相关的类,获得该类的搜索记录。,在线聚类, ,14,实现步骤,1、聚类的名字就是该短语的,text。,2、包含代表聚类短语的所有文档归入该聚类中。,计算:,1、长度,2、,TFIDF,值,3、类所包含的文档的内部相似度,4、类间的熵,4、,短语独立性,按线性回归方法,综合类的5个属性,得到每个类的最终,rank,挑选排在前,n,位的类,1、归并类,2、合并文档集重复度过高的类。, ,15,用文档标题和摘要代表整个文档,好处:提高了处理效率,使满足在线聚类的时间要求响应速度快,按线性回归的方法 ,将5个属性计算出一个综合的值,得到每个类的最终rank,对前面得到的根本类按rank值进展排序。如果两个cluster包含的一样文档占各自文档总数的比例高于一个设定的值,就合并这两个cluster,对于每个类里面的文档,计算其相似度,如果相似度超过一定的值,那么认为其是相近文档,合并成一篇,实现要点, ,16,实现效果图, ,17, ,18,展望,如何更好的提高分词的效率,如何更好的提高聚类的效果,提高切词的效果,调整五个参数的计算系数,寻找更佳的参数,如何更快的显示结果,结果的序列化, ,19,谢 谢!,搜索引擎聚类提纯系统,工程小组,20,谢谢大家!,结 语,
展开阅读全文