资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,1/10/2017,#,大数据在房产领域的实践,提纲,蜀道难难于上青天,行困难而正确之事,往事可鉴未来可追,蜀道难难于上青天,客少、物少数据来源少,买卖行为少周期长行为数据稀少,线下行为重容易分流线上线下难打通,业务复杂性-分析挖掘无坦途,提纲,蜀道难难于上青天,行困难而正确之事,往事可鉴未来可追,提升服务品质的环节,房源真实无虚假,合适的房屋给合适的人,房屋买卖不再难,缩短周期见效率,减少资源浪费,效果概述,1000万/天,数百万/天,数T级别/天,6000万,2300万,效果概述,经纪人,91/150维,业主,/,房,54/319维,客户,32/107维,23/55,维,33/81,维,27/72,维,升30%,应用,挖掘,数据,采集,计算,DW,存储,分析,计算,技术架构,手动,调度,认证,系统,权限,安全,ETL,DS,Flume,Collector,SE,TE,Link,hdic,log文件,Kafka,日志流,其他,HDFS,Spark,Hive,Hadoop,Meta,MR,HBase,Yarn,BI,Web可视化,OLAP,Data,Service,RDBS,Nginx,Hue,Adhoc,市场报告解读,客源解读,A房,推荐,业主端,链家指数,数据频道,用户画像,房源画像,小区画像,业主画像,经纪人画像,房屋估价,elasticsearch,,,hbase,,,spark,等成熟的开源数据存储、处理系,elasticsearch,存储、索引融合层全量数据,线上用户行为数据,线上日志流处理并传送至,elasticsearch,集群。,用户画像,统上,全量索引以及热数据,hbase,存储线上用户行为数据,spark,完成批量和流式数据处理,包括线下全量,/,增量数据导入,,用户画像,用户画像,KV,查询:如通过手机号查询客源的一切数据,数据筛选:如筛选西山商圈,近三个月新增房源的小区名、挂牌价和房屋状态,要求房屋必须是精装修或大于3居室,OLAP,查询:,如查询海淀区2015年不同月份客源带看次数的分布,用户画像,用户特征倾向,居室特征分布,面积特征倾向,价格特征分布,区域特征倾向,应用,挖掘,数据,采集,计算,DW,存储,分析,计算,行困难而正确之事,Kafka,ETL,Flume,调度,认证,系统,权限,安全,DS,SE,TE,Link,hdic,Collector,log文件,日志流,手动,其他,HDFS,Spark,Hive,Hadoop,Meta,MR,HBase,Yarn,BI,Web可视化,OLAP,Data,Service,RDBS,Nginx,Hue,Adhoc,市场报告解读,客源解读,A房,推荐,业主端,链家指数,数据频道,用户画像,房源画像,小区画像,业主画像,经纪人画像,房屋估价,房屋估价,90%,房屋估价,经纪人,业主,/,房,客户,房屋价格,房屋估价,房屋估价,估价准确:diff,=,5%,房屋估价,房屋估价,房屋估价,DataSource1,DataSource2,DataSourceN,.,ExtractFeature,ExtractFeature,FeatureTransform,FeatureTransform,LOF-样本异常点处理,多模型并举,ANN,Hedonic,GBDT,Evaluate,Ensemble,Best,Model,房屋估价,LOF(Local,Outlier,Factor)算法是一种机遇密度的异常检测算法,,通过计算每个实例相对于其邻居的孤立情况来判断这个实例是否为离群点,为每一个每个实例计算一个异常分数,这个分数称为实例的局部离群因子(LOF),较高的LOF值指示这个实例可能是异常的,较低的LOF值指示这个实例可能是正常的,提纲,蜀道难难于上青天,行困难而正确之事,往事可鉴未来可追,3D看房,VR看房,社区服务,海外置业,往事可鉴未来可追,链家金融,智能家电,链家装修,家政服务,亿万,房产,O2O,服务,平台,打造,住的,入口,
展开阅读全文