基于Web数据仓库的楼市热点分析方法

资源描述

基于Web数据仓库的楼市热点分析方法Methodology of Hot Real Estate Market Analysis Based on WEB Data Warehouse摘要Web日志数据记录了以互联网作为业务承载平台的所有信息，近年来通过分析Web日志来分析用户访问网络行为，从而挖掘用户的行为倾向，预测未来网络热点，为互联网项目开发提供决策依据。本文介绍了一种利用web数据构架房地产信息平台中数据仓库的方法。首先通过对海量线上和线下数据进行清洗，抽取和加载并根据网站拓扑结构自动生成相应的维度来实现多维在线分析（MOLAP），满足用户在价格区间，地理位置，物业类型，建筑年代等维度上的楼市热点分析。此外，本文以该房产信息平台web数据仓库为基础，提出一种基于MOLAP的楼市热点分析方法，实现及时的热点预警和走势分析，并且为网站异常监控和结构设计提供决策支持。关键字MOLAP，数据仓库，决策支持ABSTRACT: Web log date records all information of business platform based on the internet, in the last few years, people are focus on analyzing users action on the internet by web log, mining users action preference, predicting hot spot of the internet in the future, providing support for development of internet project. This paper introduced a kind of method to construct Web Data warehouse of real estate information system. At first , cleaning online and offline data, extracting and loading data, then get a corresponding lookup table from network topology, and then realizing MOLAP, Based on the data warehouse, we can get hot spot of the real estate market on the range of price, location, building ages etc. Moreover, this paper put forward a new method based on MOLAP, realizing hot spot alert and trending analysis, and providing decision support for network running irregular and network structure design.Key Words: MOLAP, Data Warehouse, Decision Support1.引言随着互联网的快速发展，房地产中介从传统门店式房屋中介逐渐转向互联网形式，房地产网络信息平台越来越被买卖双方所接受，网上房源为买卖双方节省了盲目看房时间，提高了房产交易的灵活性。不管是对于房地产（中介）企业或个人还是政府房地产行业研究人员来说，把握互联网中的楼市热点可以更好的服务企业和个人，并且为促进房产行业的健康发展提供有效数据支持。Web数据，包含线上和线下与业务逻辑相关联的数据。首先，Web日志数据为线上数据，它记录了所有的Web服务器事件信息。在最初，它被用来诊断系统的异常和错误。然而随着互联网的迅猛发展，记录用户行为的日志信息越来越被人们所重视。通过对日志数据的分析，可以了解到网民在网站中的浏览情况和网站的运营情况，例如：用户兴趣的转移，热点楼盘点击量，独立访问者数量，页面停留时间，访问深度，有效转化率等等。随着服务器负载的急剧增加以及业务的增长，日志的数据量也在飞快的增长。如何能快速地对日志数据进行预处理和查询已经成为一个急需解决的问题。另一方面，对于线下数据，例如房源数据、经纪人数据、历史成交数据等等也是Web数据中不可分割的一部分。线下数据通常体现的是业务相关实体的属性，例如经纪人性别、口碑、从业经历等。而如何将线下数据和线上数据动态的交互从而形成具有指导意义的有用信息则是一个关键问题。此外，人们出于对数据分析的需求，往往需要从不同的维度来审视数据。例如,在不同的时间段里，某一网段的用户可能会对某一特定地理位置的房源信息感兴趣。本文将互联网房产信息平台的Web数据与数据仓库技术结合，实现了基于网站拓扑结构和页面参数的多维在线分析，为决策提供了快速，有效地支持。在此基础之上，本文还提出了一种基于页面跳转概率的监测模型，该模型可以有效地检测网民在网站页面间的物理链接间的跳转，并为页面的异常诊断和网站设计优化提供理论和数据支持。本文将Web数据的预处理分为三个阶段：清洗解析阶段，导航路径提取阶段，加载阶段。在清洗解析阶段，线上日志数据和线下业务数据首先根据预定义的规则被收集并过滤，然后根据网站页面内容和对应的URL地址进行解析。之后，我们提取用户的导航路径并将其转换为事务集。最后一个阶段将清洗解析后的线上，线下数据和用户导航路径事务集加载至数据仓库。如图1所示，描述了在本文中定义的Web数据仓库系统架构。图1. Web数据仓库系统架构2.房地产决策支持平台Web数据仓库模型本文中所描述的数据仓库模型是根据新浪房友在线Web数据所建立的。因此，我们将以该数据仓库模型为例来讨论基于日志数据的数据仓库的建立。从网站决策层面来看，人们往往想知道网站各个时段，时期的网站信息，例如访问量最高的月份，访问量最少的页面，引入最大流量的外部来源，页面驻留时间等等。而从提供房源信息的中介或个人方面来说，及时把握楼市的热度以及热度的转移将会给其带来可观的商业价值。同时，房地产行业研究者也可以根据楼市热度转移来更好地评估局部市场风险，论证市场行为。另一方面，从网站设计者的角度来看，他们通常会关注网站结构的合理性，页面设计的美观程度等等。而这些需求都可以通过多维度的Web数据分析来实现。2.1线上数据-Web日志解析2.1.1日志格式在不同的系统中，虽然日志的格式大同小异，但由于其最初的设计目的都是为了系统诊断，因此内容相似。目前有三种开放格式的日志：NCSA的普通日志格式(Common Log Format),NCSA的扩展日志格式(Extended Log Format)和W3C的扩展日志格式（Extended Log File Format）。本文研究的日志对象为W3C的扩展日志文件。表1所示为W3C日志格式的描述。表1.W3C扩展日志文件格式描述数据域描述数据域描述Date事务完成的日期URL-queryURL的查询字符串部分Time事务完成的时间Cookie发送的Cookie的内容IPIP地址和端口号Username访问者被网站记录后的用户名Method执行的动作referrer最后访问的页面URLURL被访问的数据源的完整URLUser-agent客户浏览器类型URL-stem不包括查询字符串的URLStatusHTTP状态码Bytes所传输数据的字节数Time-taken完成事务所需的时间，以秒为单位在实验中我们使用的日志文件均采集自。出于隐私保护的目的，我们已将日志中所有信息进行了相应的编码处理。日志文件的采集周期为2010年3月1日至2010年4月1日。为了将该网站的三个分站点的日志特征进行归一化处理，我们对分别对日志大小，请求数量，会话长度，和独立IP进行了取平均操作。如表2所示是所使用日志的基本统计信息。站点文件大小 (Avg)请求次数(Avg)会话长度 (Avg)独立IP(Avg)上海站1.35GB10,400,0004.898,425北京站890MB6,074,0005.762,317深圳站760MB5,020,1444.141,213表2. 三站点的基本日志统计信息2.1.2日志预处理由于日志数据是一种半结构化（semi-structured）的数据类型，因此在进行加载之前需要对其进行清洗和整理。目前Web负载中通常存在大量的爬虫请求，我们将爬虫请求分为两类：(1)可从字面识别的爬虫对于第一类爬虫，我们通常不会在服务中禁止其请求。这是因为第一类爬虫通常是商业搜索引擎所发出的爬虫，网站出于搜索引擎收录的需要一般不会将其屏蔽。然而在分析普通网民的访问行为时，该类数据请求的存在会“污染”统计分析结果。因此，在清洗过程中，我们应根据其字面关键字过滤掉该类爬虫。(2)非可识别的爬虫信息第2类爬虫通常是商业竞争对手所发出的爬虫，其目的在于大规模的获取有价值的商业信息。然而由于这类爬虫不含有字面信息从而达到伪装的目的，因此我们需要针对其特征制定相应规则来进行过滤。根据对该类爬虫的访问模式的研究，总结出以下几点：1 短时间内并发大量请求；由于普通的用户点击首先需要肉眼对页面资源定位，然后鼠标点击，而这一过程至少需要耗费0.5秒。对于爬虫而言，在短时间内，例如1秒，并发成百上千的请求是出于对资源获取效率的需求。2 无推介；某些爬虫直接从用户代理发出请求来获得资源，因此推介通常为空。3 不触发异步加载JavaScript和XML（Ajax）;4 非常短的页面停留时间。在获得页面资源后，爬虫迅速离开该页面，停留时间非常短。除了爬虫请求需要被过滤以外，一些提取数据的请求是不通过与用户的交互而被自动触发，例如异步加载的JavaScript和XML(Ajax). 由于这些请求不能体现用户行为，因此该类请求也需要在预处理过程中被过滤掉。此外，由于IP不能用来甄别唯一用户，因此我们利用IP结合Cookie的识别机制对用户身份进行识别。Cookie存在于客户端，是服务器用来识别客户端的一种方法。然后Cookie有可能被客户端关闭，因此该方法仍存在一些局限性。通常的做法是设置一个阈值，例如，30分钟，如果对同一个用户或者同一个IP地址，一条日志记录同下一条记录之间的时间问隔不大于该阈值，则认为这两条记录属于同一个会话。以房友在线为例，我们需要从线上日志数据中获得用户行为信息，例如用户在二手房列表页点击了某个具体房源的链接。由于任何一个日志请求都可以归结为：某一时间某一用户在特定的一个页面做了一个具体的动作(Post or Get)，因此我们将以此作为用户行为的起点。而日志解析的目的是形成格式化的可聚合的数据。以下是一行样本日志请求：172.16.161.219 - - 13/Jul/2010:00:00:45 +0800 "GET /house-47753.html HTTP/1.1" 200 46343 " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)" "111.224.106.148"该请求通过解析变为：172.16.161.219 20100713 00 00 45 GET house 47753 200 464343 sale e1 c0 t1 d2 111.224.106.148根据解析结果，我们可以根据相应的维度查询出：在某区域网段下的该用户在2010年7月13日的0点从域名下的sale页面（页面参数为e1,c0,t1,d2）点击了链接为house的页面（房源ID为47753），请求成功返回，返回页面大小为464343。根据网站页面参数维度的定义，我还可以分别获得被请求页面和来源页面具体内容的信息。由于日志解析是一个大量字符串匹配和重组的过程，因此不适合在数据库中进行操作。因此，加载至数据库的日志数据必须是已经解析完成可以根据维度表直接聚合的信息。另一方面，用户的访问轨迹，即用户导航路径是更为重要的信息，它承载了用户在进入网站直到跳出网站所有的用户行为。我们首先根据所识别的用户，对其所浏览的页面序列进行抽取，然后以预定义的时间阈值作为界限，反向引用作为事务界限进行重组，最后形成一个用户导航路径事务数据集并加载至数据仓库。由图1我们看出，清洗解析过程和路径抽取过程是两个相互独立的ETL（Extract, Load and Transform）过程。2.2 线下数据业务逻辑数据整合房地产信息平台线下数据一般为与业务逻辑相关联实体的属性信息，例如所登记注册的房源信息，所属经纪人或个人的身份信息，土地，开发商以及楼盘所在位置的交通信息等。在建模过程中，线下数据通过被用来建立与用户行为对象相关联的维度。由于这些业务逻辑数据在网站开发和运营过程中存在于网站后台数据库关系表中，其结构往往是按照开发逻辑而设计的，因此并没有考虑到将来数据挖掘和分析的问题。解决此问题行之有效的办法是将线下数据重新整合形成可直接聚合的事实数据和维度数据。在本文的探讨中，我们设计了另一个单独的线下数据ETL过程。通过这个ETL过程，散落在数据库冗杂的数据表中的信息被重新按照实体和事实之间的关系组合了起来，并且被推送到新的数据表中，作为线下数据的事实表和维度表。2.3 事实表和维度表的建立基于上面所述的日志解析和路径抽取过程，我们可以直接将其结果作为事实表加载至数据仓库：（1）房源点击，刷新，搜索事实表（2）导航路径事实表根据网站日志数据分析的主题，我们建立以下维度：（1）时间维度（2）房源维度（3）用户维度（4）房源所属人维度（5）页面维度（6）IP维度维度的建立需要根据网站的具体设计来定义，例如网站的拓扑结构，页面链接之间的父子关系，页面参数的定义以及数据库中已有的产品信息，网络推广信息等等。因此ETL的过程还必须包括对这些信息的抽取各维度的渐进变化图2. 用户行为事实数据与实体维度图3. 导航路径事实数据与实体维度利用已经建立的数据仓库，我们可以进行多维在线分析，即MOLAP。我们可以在用户，页面链接，时间，来源等层面上对该多维数据集进行分块和切片从而得到从某来源流入的各个链接的平均访问量，独立访问者，页面驻留时间，访问深度，访问时长，有效转化率等指标，并可按年，季度，月，周，天，小时钻取。3.基于房产信息Web数据仓库的MOLAP楼市热点分析和导航路径分析根据所提出的数据仓库模型，我们可以在不同维度的各种层面上对楼市的热度进行分析。例如：可以查看一段时间或某个时间点房源点击量和搜索量在物业类型这个层面上的走势。有了这些基于该Web数据仓库的MOLAP分析，决策者可以更快，更高效的获取有用信息，精准营销以及有针对性地分析各种因素对楼市的影响。如图2所示，我们可以对房源点击量，刷新量和搜索量在时间维度，用户维度，房源维度和房源所属人维度上进行聚合分析。在时间维度上，可以分析不同层系下房源的点击，刷新和搜索；在用户维度上我们可以检验访问用户性别可能对房源的喜好的倾向，以及职业，收入等属性对房源的偏好；在房源维度上，我们可以分析房源属性，例如面积，物业类型等，在一定时间内的受欢迎程度；在房源所属人维度上，可以按所属人的收入，教育程度等属性来分析所属人这些属性和其所提供房源的热度之间的关系。此外，如图3所示，对于导航路径事实数据，同样我们可以对用户的操作，页面停留时间和页面返回数据量在时间维度，IP维度，页面维度和用户维度进行不同层系和属性的聚合分析。通过对导航路径事实数据的MOLAP分析，网站设计者可以对更好地把握网站产品的设计，了解用户的实际需求。4.结束语本文介绍了一种基于日志分析的数据仓库架构，分别从线上，线下的ETL和Web数据仓库的实现着手，探讨了整个Web数据仓库的多维分析过程。最后阐述了一种基于该Web数据仓库模型的楼市热点分析和导航路径分析方法，实现了针对房产信息平台的决策和设计的数据支持。应用房产信息Web数据仓库的多维分析和用户导航路径分析能够为决策者和网站的运营商随时把握热点趋势，改善客户关系，提高在市场销售，服务以及用户体验等各个方面的质量，更好地为企业和政策研究提供决策支持。参考文献1 Jinlin Chen, An UpDown Directed Acyclic Graph Approach for Sequential Pattern Mining, international, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, pp.913-927, VOL. 22, NO. 7, JULY 20102Ma, Justin, Saul, Lawrence K., Savage, Stefan, Voelker, Geoffrey M., Identifying Suspicious URLs: An Application of Large-Scale Online Learning, In Proceedings of the 26th International Conference on Machine Learning, Montreal, 2009.3D. Sculley, Robert Malkin, Sugato Basu, Roberto Bayardo, Predicting Bounce Rates in Sponsored Search Advertisements, In Proceedings of 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Paris, 2009.4Bin Zhou, Daxin Jiang, Jian Pei, Hang Li, OLAP on Search Logs: An Infrastructure Supporting Data-Driven Applications in Search Engines, In Proceedings of 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Paris, 2009.5Wen An, Ruyan Wang, Web Log Preprocessing Method Based on Visiting Efficiency, In Proceedings of the Fourth International Conference on Cooperation and Promotion of Information Resources in Science and Technology, pp.86-89, 20096Wenke Lee and Salvatore J. Stolfo, Data Mining Approaches for Intrusion Detection, in the 7th USENIX Security Symposium, 1998.7S Mukkamala, GI Janoski, AH Sung, Intrusion detection using support vector machines, in Proceedings of the High Performance Computing Symposium-HPC, pp.178-183, 2002.8C Kruegel, G Vigna, Anomaly detection of web-based attacks, in Proceedings of the 10th ACM conference on Computer and Communications security, pp.251-256, 2003. 9Qiang Yang, Haining Henry Zhang, Tianyi Li, Mining web logs for prediction models in WWW caching and prefetching, In the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD01, August 26 - 29, 2001.

展开阅读全文

基于Web数据仓库的楼市热点分析方法

最新文档