资源描述
2016-7-10,电商搜索和新闻推荐,#,电商搜索和新闻推荐用户画像,-,近实时更新,王成光,2016-7-10,电商搜索和新闻推荐用户画像实时,更新,电商搜索,基本组成,相关实现技术,新闻推荐用户画像,用户画像组成,用户画像实时更新流程,实时计算,:Storm,/,Spark Streaming/Light_drtc,2016-7-10,电商搜索和新闻推荐,2,电商搜索,基本组成,搜索框自动补全提示,导航筛选器,关键词检索,相关实现技术,ES,和,Solr,近年发展情况,ES vs Solr,全方位比较,ES 2.X,新特性,2016-7-10,电商搜索和新闻推荐,3,电商搜索组成,-,搜索框自动补全提示,2016-7-10,电商搜索和新闻推荐,4,亚马逊,淘宝,京东,优购,电商搜索组成,-,导航筛选器,2016-7-10,电商搜索和新闻推荐,5,天猫搜索筛选器,电商搜索组成,-,导航筛选器,2016-7-10,电商搜索和新闻推荐,6,优购搜索筛选器,电商搜索组成,-,关键词搜索,2016-7-10,电商搜索和新闻推荐,7,1.,同音异形搜索,2.,部分匹配搜索,3.,缺失品牌建议搜索,4.,同义词搜索,品牌别名,品类别名,电商搜索技术,-,当前全文检索项目,2016-7-10,电商搜索和新闻推荐,8,项目,介绍,Lucene,开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,无中文分词引擎,不支持实时搜索。,SolrSolrCloud,Solr是一个用java开发的独立的企业级搜索应用服务器,它提供了类似于Web-service的API接口,它是基于Lucene的全文检索服务器,也算是Lucene的一个变种,很多一线互联网公司都在使用Solr,也算是一种成熟的解决方案.,ES,Elasticsearch,是一个采用,java,语言开发的,基于,Lucene,构造的开源,分布式的搜索引擎,.,设计用于云计算中,能够达到实时搜索,稳定可靠,.Elasticsearch,的数据模型是,JSON.,Sphinx,Sphinx是一个用C+语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍(以空间换取性能),在检索速度和精准度和中文分词方面比lucene支持差。,Mysql,Mysql,全文索引,自,4.0,开始引入,最初只支持持,MyISAM,引擎,自,MySQL5.6,起也同时支持,InnoDB,引擎。对中文支持不好,性能也相对较差。,电商搜索技术,-ES,集群,2016-7-10,电商搜索和新闻推荐,9,电商搜索技术,-SolrCloud,集群,2016-7-10,电商搜索和新闻推荐,10,电商搜索技术,-ES,和,Solr,综合比较,2016-7-10,电商搜索和新闻推荐,11,特性,ES,Solr/SolrCloud,索引,1.,新插入,10,万条耗时,18.8,秒,2.,更新,2,万新插入,8,万耗时,64,秒,3.,索引文件相对,较大,(7612k),1.,新插入,10,万条耗时,7.2,秒,2.,更新,2,万新插入,8,万耗时,24,秒,3.,索引文件相对较小,(5280K),shard,中,doc,数,差异大,比较匀称,查询,返回,10,万条数据大概,15,毫秒,返回,10,万条数据大概,29,毫秒,健壮性,比较强,相对弱,容错性,比较强,相对弱,中文分词,支持,动态添加专有词,支持度不好,无模式,实时索引,与生俱有,后期增加,电商搜索技术,-ES,和,Solr,近年发展,2016-7-10,电商搜索和新闻推荐,12,电商搜索技术,-ES,和,Solr,近年发展,2016-7-10,电商搜索和新闻推荐,13,电商搜索技术,ES2.x,新特性,2016-7-10,电商搜索和新闻推荐,14,ES,集群节点新增部落节点,API,级显示支持文档字段级更新,ES2.X,已经废弃,Facet,ES2.X Aggregation,功能增强,支持嵌套。,ES2.X,开始索引类型,index_analyzer,更改为,analyzer,ES2.2,新增查询分析器:,得到查询,的详细分析信息,它可以让你了解和调试查询性能。查询的每一部分都,独立的记录了统计时间,E,S2.2,增强地理位置,字段,:,几乎重写,,增加,50%,的入库效率,,提高,20,-50%,的查询效率,ES2.x,中文分词集成也有所调整,新闻推荐用户画像实时,更新,用户画像基本组成,内容体系分类,更新周期分类,用户画像实时更新流程,流式分布式实时计算,Strom,SparkStreaming,Light_drtc(,原创:,https,:/ T|/|S T|,余弦定理,修正余弦,皮尔逊相关系数,2016-7-10,电商搜索和新闻推荐,18,用户画像计算相关算法,关联规则,支持度(,Support,),表示项集,X,Y,在总项集里出现的概率。,公式为:,Support(X,Y)=P(X,Y)/P(I)=P(X,Y)/P(I)=num(XUY)/num(I),置信度(,Confidence,),置信度表示在先决条件,X,发生的情况下,由关联规则,“,X,Y,”推出,Y,的概率。即在含有,X,的项集中,含有,Y,的可能性。,公式为:,Confidence(X,Y)=P(Y|X)=P(X,Y)/P(X)=P(XUY)/P(X),提升度(,Lift,),提升度表示含有,X,的条件下,同时含有,Y,的概率,与不含,X,的条件下却含,Y,的概率之比。,公式为:,Lift(X,Y)=P(Y|X)/P(Y),强关联规则,:,满足最小支持度和最小置信度的规则。,如果,Lift(XY)1,,则规则,“XY”,是有效的强关联规则。,如果,Lift(XY)=1,,则规则,“XY”,是无效的强关联规则。,特别地,如果,Lift(XY)=1,,则表示,X,与,Y,相互独立。,2016-7-10,电商搜索和新闻推荐,19,用户画像计算相关算法,协同过滤:基于,user,协同过滤和基于,item,协同过滤,2016-7-10,电商搜索和新闻推荐,20,用户画像计算相关算法,主题模型,逻辑回归,兴趣时间衰减,牛顿冷却定理,:,物体的,冷却速度,与其当前温度与室温之间的温差成正比。,本期,得分,=,上一期得分,x exp(-(,冷却系数,)x,间隔的小时数,),2016-7-10,电商搜索和新闻推荐,21,新闻推荐用户画像实时更新流程,2016-7-10,电商搜索和新闻推荐,22,实时计算框架,Storm,2016-7-10,电商搜索和新闻推荐,23,实时计算框架,Storm,2016-7-10,电商搜索和新闻推荐,24,实时计算框架,Spark Streaming,2016-7-10,电商搜索和新闻推荐,25,实时计算框架,Spark Streaming,2016-7-10,电商搜索和新闻推荐,26,实时计算框架,light_drtc,2016-7-10,电商搜索和新闻推荐,27,实时计算框架,light_drtc,2016-7-10,电商搜索和新闻推荐,28,实时计算框架,light_drtc,2016-7-10,电商搜索和新闻推荐,29,感谢您参加本届,MPD,!,2016-7-10,电商搜索和新闻推荐,30,
展开阅读全文