资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020年5月29日星期五,#,19 十一月 2024,电商搜索和新闻推荐用户画像近实时更新final,电商搜索和新闻推荐用户画像实时更新,电商搜索,基本组成,相关实现技术,新闻推荐用户画像,用户画像组成,用户画像实时更新流程,实时计算:Storm/Spark Streaming/Light_drtc,2016-7-10,电商搜索,基本组成,搜索框自动补全提示,导航筛选器,关键词检索,相关实现技术,ES和Solr近年发展情况,ES vs Solr全方位比较,ES 2.X新特性,2016-7-10,电商搜索组成-搜索框自动补全提示,亚马逊,淘宝,京东,优购,2016-7-10,电商搜索组成-导航筛选器,天猫搜索筛选器,2016-7-10,电商搜索组成-导航筛选器,优购搜索筛选器,2016-7-10,电商搜索组成-关键词搜索,1.同音异形搜索,2.部分匹配搜索,3.缺失品牌建议搜索,4.同义词搜索,品牌别名,品类别名,2016-7-10,电商搜索技术-当前全文检索项目,项目,介绍,Lucene,开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,无中文分词引擎,不支持实时搜索。,SolrSolrCloud,Solr是一个用java开发的独立的企业级搜索应用服务器,它提供了类似于Web-service的API接口,它是基于Lucene的全文检索服务器,也算是Lucene的一个变种,很多一线互联网公司都在使用Solr,也算是一种成熟的解决方案.,ES,Elasticsearch是一个采用java语言开发的,基于Lucene构造的开源,分布式的搜索引擎.设计用于云计算中,能够达到实时搜索,稳定可靠.Elasticsearch的数据模型是JSON.,Sphinx,Sphinx是一个用C+语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍(以空间换取性能),在检索速度和精准度和中文分词方面比lucene支持差。,Mysql,Mysql全文索引,自4.0开始引入,最初只支持持MyISAM引擎,自MySQL5.6起也同时支持InnoDB引擎。对中文支持不好,性能也相对较差。,2016-7-10,电商搜索技术-ES集群,2016-7-10,电商搜索技术-SolrCloud集群,2016-7-10,电商搜索技术-ES 和 Solr综合比较,特性,ES,Solr/SolrCloud,索引,1.新插入10万条耗时18.8秒,2.更新2万新插入8万耗时64秒,3.,索引文件相对,较大(7612k),1.新插入10万条耗时7.2秒,2.更新2万新插入8万耗时24秒,3.索引文件相对较小(5280K),shard中doc数,差异大,比较匀称,查询,返回10万条数据大概,15,毫秒,返回10万条数据大概,29,毫秒,健壮性,比较强,相对弱,容错性,比较强,相对弱,中文分词,支持,动态添加专有词,支持度不好,无模式,实时索引,与生俱有,后期增加,2016-7-10,电商搜索技术-ES 和 Solr近年发展,2016-7-10,电商搜索技术-ES 和 Solr近年发展,2016-7-10,电商搜索技术ES2.x新特性,ES集群节点新增部落节点,API级显示支持文档字段级更新,ES2.X已经废弃Facet,ES2.X Aggregation功能增强,支持嵌套。,ES2.X开始索引类型index_analyzer更改为analyzer,ES2.2新增查询分析器:,得到查询的详细分析信息,它可以让你了解和调试查询性能。查询的每一部分都独立的记录了统计时间,ES2.2增强地理位置字段:,几乎重写,增加50%的入库效率,提高20-50%的查询效率,ES2.x中文分词集成也有所调整,2016-7-10,新闻推荐用户画像实时更新,用户画像基本组成,内容体系分类,更新周期分类,用户画像实时更新流程,流式分布式实时计算,Strom,SparkStreaming,Light_drtc(,原创:https:/ T|/|S T|,余弦定理,修正余弦,皮尔逊相关系数,2016-7-10,用户画像计算相关算法,关联规则,支持度(Support),表示项集X,Y在总项集里出现的概率。,公式为:Support(XY)=P(X,Y)/P(I)=P(XY)/P(I)=num(XUY)/num(I),置信度(Confidence),置信度表示在先决条件X发生的情况下,由关联规则“XY”推出Y的概率。即在含有X的项集中,含有Y的可能性。,公式为:Confidence(XY)=P(Y|X)=P(X,Y)/P(X)=P(XUY)/P(X),提升度(Lift),提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。,公式为:Lift(XY)=P(Y|X)/P(Y),强关联规则:满足最小支持度和最小置信度的规则。,如果Lift(XY)1,则规则“XY”是有效的强关联规则。,如果Lift(XY)=1,则规则“XY”是无效的强关联规则。,特别地,如果Lift(XY)=1,则表示X与Y相互独立。,2016-7-10,用户画像计算相关算法,协同过滤:基于user协同过滤和基于item协同过滤,2016-7-10,用户画像计算相关算法,主题模型,逻辑回归,兴趣时间衰减,牛顿冷却定理:,物体的冷却速度,与其当前温度与室温之间的温差成正比。,本期得分=上一期得分 x exp(-(冷却系数)x 间隔的小时数),2016-7-10,新闻推荐用户画像实时更新流程,2016-7-10,实时计算框架Storm,2016-7-10,实时计算框架Storm,2016-7-10,实时计算框架Spark Streaming,2016-7-10,实时计算框架Spark Streaming,2016-7-10,实时计算框架light_drtc,2016-7-10,实时计算框架light_drtc,2016-7-10,实时计算框架light_drtc,2016-7-10,
展开阅读全文