用户行为数据分析数据挖掘BI项目计划书

资源描述

用户行为数据分析项目计划书用户行为数据分析项目计划书2011/5/4修改记录版本修改日期修改人修改内容审核人V1.01创建，初稿V1.01数据米集方式分析V1.01数据分析模型需求描述和示例V1.01网站用户身份识别； web日志缺陷；漏斗模型V1.01数据分析模型与数据库表的对应关系V1.01WEKA开源数据挖掘工具V1.01统计分析系统项目周期和项目开发进度An alysis.mpp技术开发部用户行为数据分析项目计划书目录一、项目背景 5二、相关术语51. Web数据挖掘51）Web数据挖掘分类62）Web数据的特点73）典型Web挖掘的处理流程 74）常用的数据挖掘技术75）Web 商业智能 BI （ Busin ess In tellige nee） 82. 网站流量统计103. 统计指标/术语104. 用户分析-网站用户的识别 135. WEB日志的作用和缺陷 156. 漏斗模型（Funnel Model） 177. 目前提供此服务产品/企业18三、项目目的18四、项目需求181. 页面统计182. 用户行为指标193. 潜在用户特征分析 194. 指定 User Cookie 的分析 205. 用户趋势分析20五、项目系统设计20六、项目详细设计211. 数据收集212. 数据模型221）统计PV量（趋势）222）消重统计独立IP量/ IP的平均访问页面量（趋势）223）消重统计独立 UV量/ UV的平均访问页面量（趋势）234）统计URL的访问来源 Ref的量/ Ref排行（趋势）235）统计Ref=URL的去访URL*/跳出的量/去访/跳出排行（趋势）236）统计分析/预测/规律特定用户的行为（趋势）247）统计新访客/老访客（趋势）248）页面平均停留时间 /页面平均时长（趋势）249）搜索引擎列表2410）搜索引擎关键词2511）搜索引擎关键词（各搜索引擎）2512）老用户回头率（用户黏性） 2513）新增用户增加/流失（用户黏性） 2514）不活跃用户激活（用户黏性） 2615）用户浏览深度（用户黏性） 2616）用户访问兴趣分析（用户黏性） 2617）性别结构（访客特征分析）2618）年龄结构（访客特征分析）2619）学历结构（访客特征分析）2620）收入结构（访客特征分析）2721）操作系统类型（客户端信息）2722）操作系统语言（客户端信息）2723）操作系统时区（客户端信息）2724）浏览器（客户端信息）2725）显示器颜色（客户端信息）2726）屏幕分辨率（客户端信息）2827）国家/省份-地址位置（客户端信息）2828）城市-地址位置（客户端信息）2829）接入商（客户端信息）2830）场所（客户端信息）283. 数据处理284. 数据展示281）参考网站292）趋势-曲线图趋势353）忠诚度/用户黏性394）用户客户端浏览器415）来源分析：Ref分析、站内/站外、站外统计 416）用户行为45七、项目约束45八、项目资源45九、项目周期46十、项目交付48十一、其他信息48技术开发部用户行为数据分析项目计划书项目背景数据挖掘技术是近年来计算机技术发展的热点之一。通过对历史积累的大量数据的有效挖掘，可以发现隐藏的规律或模式,为决策提供支持,而这些规律或模式是不能够依靠简单技术开发部用户行为数据分析项目计划书这些规律或模式可以进一步在专业人通常包括分类、预测、关联规则发现的数据查询得到，或者是不能在可接受的时间内得到。员的识别下成为知识。数据挖掘面对的任务是复杂的, 和聚类分析等。企业网站的绩效考评就是指企业网站访问情况的绩效考评，在网络营销评价方法中，网站访问统计分析是重要的方法之一，通过网站访问统计报告，不仅可以了解网络营销所取得的效果，而且可以从统计数字中发现许多有说服力的问题。网站访问量统计分析无论对于某项具体的网络营销活动还是总体效果都有参考价值，也是网络营销评价体系中最具有说服力的量化指标。销售预测在提高企业的经济效益及决策支持水平方面占有重要的地位。随着企业信息化水平的提高，企业销售数据的日益丰富，管理者对其中隐藏的销售预测信息的渴望日益强烈。用传统的方法来分析这些海量数据中的销售信息非常困难，已不能适应时代的要求。如何找到更好的方法挖掘出销售数据中隐藏的销售预测信息。相关术语1. Web数据挖掘Web数据挖掘建立在对大量的网络数据进行分析的基础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析，最后做出归纳性的推理、预测客户的个性化行为以及用户习惯，从而帮助进行决策和管理，减少决策的风险。Web数据挖掘涉及多个领域，除数据挖掘外，还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。1) Web数据挖掘分类Web数据挖掘可分为四类：Web内容挖掘、Web结构挖掘、Web使用记录挖掘和 Web用户性质挖掘。其中，Web内容挖掘、Web结构挖掘和 Web使用记录挖掘是 Web1.0时代就已经有了的，而Web用户性质挖掘则是伴随着 Web2.0的出现而出现的。2.1 Web 内容挖掘(WCM，Web Content Mining)2.2 Web结构挖掘(WSM，Web Structure Mining)的基本思想是将 Web看作一个有向图，他的顶点是Web页面，页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。2.3 Web 使用记录挖掘(WUM，Web Usage Mining)Web使用记录挖掘也叫 Web日志挖掘或Web访问信息挖掘。它是通过挖掘相关的 Web日志记录，来发现用户访问 Web页面的模式，通过分析日志记录中的规律，可以识别用户的喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外，还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、 Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。Web使用记录挖掘方法主要有以下两种：(1) 将网络服务器的日志文件作为原始数据，应用特定的预处理方法进行处理后再进行挖掘；(2) 将网络服务器的日志文件转换为图表，然后再进行进一步的数据挖掘。通常，在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。2.4 Web用户性质挖掘Web用户性质挖掘是伴随着 Web2.0的出现而出现的。基于 RSS Blog、SNS Tag以及WiKi 等互联网软件的广泛应用，Web2.0帮助人们从 Web1 0时代各大门户网站“填鸭”式的信息轰炸，过渡到了“人人对话”，每个普通用户既是信息的获取者，也是信息的提供者。4面对Web2.0的诞生，Web数据挖掘技术又面临着新的挑战。如果说 Web使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹，那么Web用户性质挖掘则是要去 Web用户的老巢探寻究竟。在 Web2.0时代，网络彻底个人化了，它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网，它一方面给予互联网用户最大的自由度，另一方面给予有心商家有待发掘的高含金量信息数据。通过对 Web用户自建的RSS Blog等Web2.0功能模块下客户信息的统计分析，能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。2） Web数据的特点1）异构数据库环境。Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点的信息和组织都不一样，这就构成了一个巨大的异构数据库。2）分布式数据源。Web页面散布在世界各地的 Web服务器上，形成了分布式数据源。3）半结构化。半结构化是 Web上数据的最大特点。 Web上的数据非常复杂，没有特定的模型描述，是一种非完全结构化的数据，称之为半结构化数据。4）动态性强。Web是一个动态性极强的信息源，信息不断地快速更新，各站点的链接信息和访问记录的更新非常频繁。5）多样复杂性。Web包含了各种信息和资源，有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。3）典型Web挖掘的处理流程包括如下四个过程：1）查找资源：根据挖掘目的，从 Web资源中提取相关数据，构成目标数据集， Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从日标Web数据（包括Web文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等）中得到数据。2）数据预处理：在进行Web挖掘之前对“杂质”数据进行过滤。例如消除数据的不一致性；将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。3）模式发现：利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括：路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。4）模式分析：利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化，把发现的规则模式转换为知识。4）常用的数据挖掘技术6.1 路径分析技术我们通常采用图的方法来分析Web页面之问的路径关系。G= （V, E），其中：V是页面的集合，E是页面之间的超链接集合，页面定义为图中的顶点，而页面闻的超链接定义为图中的有向边。顶点v的人边表示对v的引用，出边表示v引用了其他的页面，这样形成网站的结构图，从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。女口 70%的用户访问/ company/product 时，是从/ company开始，经过/ company/new/ company/products /company/product。此时可以将路径放在比较显著的地方，方便了用户访问，也提高了该产品的点击率。6.2 关联规则技术关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则，就是要挖掘出用户在一个访问期限(Session)，从服务器上访问的页面文件之间的联系，这些页面之间并不存在直接的参引 (Referenee)关系。使用关联规则可以发展很多相关信息或产品服务。例如：某信息 A和B,同时被很多用户浏览，则说明A和B有可能相关。同时点击的用户越多，其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时，系统会自动给你推荐信息，告知“很多读者在购买此书时还购买的其他书目”。ACM数字图书馆也采用了这一思想，推出信息推荐服务 Peer to Peer ”。6.3 序列模式挖掘技术序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律，关联挖掘技术注重事务内的关系，而序列模式技术则注重事务之间的关系。发现序列模式，便于预测用户的访问模式，有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式，能够在服务器方动态地创立特定的有针对性的页面。以满足访问者的特定需求。6.4 聚类分类技术分类规则可挖掘出某些共同的特性，而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中，分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户待征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述，这种描述可以用于分类新的检索。如政府机关的用户一般感兴趣的页面是/company/product o聚类可以从Web访问信息数据库巾聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。这些事务信息可以用在：在找出用户共同兴趣后，进行合作式信息推荐，共同体的成员町以互相推荐新的滚动信息；自动给一个特定的用户聚类发送销售邮件，为用户聚类动态地改变一个特殊的站点等。5) Web商业智能BI (Business Intelligence)深入分析访问数据，从访问数据中挖掘财富。 http:/www.web-1、文本挖掘技术和聚类模型分析的网站自动分类；2、用户访问兴趣聚类；3、用户等级自动分类；4、用途分析；5、新产品推广预测分析和精算分析；等一系列基于数学模型的 True BI决策分析工具，帮助企业进行产品BI分析、用户BI分析、服务质量测评、新产品市场预测与分析等一系列True BI服务。一、异常访问分析一般情况下，正常的用户访问网站都是通过浏览器（ IE、FireFox 等）向网站发送URL请求，操作是一个手动平缓的过程。所谓异常访问”，是指不是通过浏览器，而是通过程序进行的一个高速机械化的连续URL请求过程。这包括不良程序黑客攻击、搜索引擎蜘蛛程序对网站的访问等。异常访问”主要包括5个功能：异常访问分析、搜索引擎访问分析、发生错误分析、异常URL分析、时段访问分析。通过异常访问分析”，可以让用户发现异常访问行为和访问规律，通过对URL请求频度、服务器处理时间、请求流量等时序图形趋势分析，确定黑客攻击点，排查软件错误、诊断服务器处理能力、网站In ternet带宽限制瓶颈所在点。二、频道关联分析频道关联分析应用对象是内容管理者。网站在内容服务层面被抽象为频道-子频道-内容”，组成网站结构树”。数据挖掘的经典故事是啤酒和尿布”关联发现，说的是对某个商场的数据挖掘发现，购买啤酒的人有很多同时购买尿布。关联分析的目的，是发现在一个事物中，各个元素的关联关系，通过关联关系的发现，指导关系设置”，进而引导事物向有利于管理者主观倾向的方向发展。Web-DM中的频道关联分析”，针对 Web的具体应用情况，对经典的关联分析”算法进行了改进，使关联分析速度更快，分析结果也更加有效。简单的结果可能不能给管理者更多的指导。Web-DM不仅仅简单地给出关联分析中的支持度”和置信度”指标，在此基础上，提出了置信差”指标，进一步提高关联分析结果的可用性。在给出关联分析技术指标的同时，给出包含关联项的访问Sessio n,使用户可以更加详细观察和研究关联分析的结果。三、特定关联分析频道关联分析”是在内逻辑层面的关联分析，对于广告”和用户特别关心的Page关联分析是网站管理者希望掌握的数据。哪些Page对于广告的贡献有多大？看广告的人更多的看了哪些Page?特别推出的内容与网站的其他URL有哪些关联？关联程度如何？ Web-DM的特定关联分析”给出深入分析结果，同时以简单直观的形式展示给用户。以提供新闻或本地新闻为主的门户网站，管理人员关心网站总体访问情况，整体访问趋势，内容编辑人员关心热门新闻和冷门新闻以及TOP排名，经营人员关心访问者从哪个频道登录网站、从哪个频道的哪个页面离开网站，其访问行为呈现什么规律，设计人员关心网站频道的如何设置以及页面版面的如何布局，维护人员关心错误是怎么产生的、如何跳转的、网站是否收到恶意攻击等。商务网站主要针对在网站上已经注册的客户群，作为网站的经营者不仅要掌握用户在网上关心哪些商品，更重要的是要掌握匿名用户怎么变成注册用户，转化率是多少，匿名用户是直接访问的还是通过搜索引擎链接来的，购买行为如何，营业额是多少等。对于电子邮件市场推广，通过沉默用户分析其沉默时间，根据发出量、返回量、成交量来判断市场推广效果。对于广告市场推广，通过曝光量、点击量、成交量来反映市场推广的效果。2. 网站流量统计流量统计是什么是指通过各种科学的方式，准确的纪录来访某一页面的访问者的流量信息，目前而言，必须具备可以统计：统计独立的访问者数量(独立用户、独立访客)；可以统计独立的ip地址数量；可以统计页面被刷新的数量。其他附加信息。3. 统计指标/术语页面浏览数(page views)PV(page view)，即页面浏览量，或点击量；通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。高手对PV的解释是，一个访问者在 24小时(0点到24点)内到底看了你网站几个页面。这里需要强调：同一个人浏览你网站同一个页面，不重复计算PV量，点100次也算1次。说白了，PV就是一个访问者打开了你的几个页面。PV之于网站，就像收视率之于电视，从某种程度上已成为投资者衡量商业网站表现的最重要尺度。PV的计算：当一个访问者访问的时候，记录他所访问的页面和对应的IP,然后确定这个IP今天访问了这个页面没有。如果你的网站到了23点，单纯IP有60万条的话，每个访问者平均访问了 3个页面，那么PV表的记录就要有180万条。影响PV的因素：新闻发布的时间访问的周期突发事件独立访客数(unique visitor)UV(unique visitor):指访问某个站点或点击某条新闻的不同IP地址的人数。在同一天内，UV只记录第一次进入网站的具有独立IP的访问者，在同一天内再次访问该网站则不计数。独立 IP访问者提供了一定时间内不同观众数量的统计指标，而没有反应出网站的全面活动。每个访问者的页面浏览数(Page Views per user)Page Views per user:这是一个平均数，即在一定时间内全部页面浏览数与所有访问者相除的结果，即一个用户浏览的网页数量。这一指标表明了访问者对网站内容或者产品信息感兴趣的程度，也就是常说的网站粘性”重复访客者数（repeat visitors）repeat visitors :重复访问者。是指在一定时期内不止一次访问一个网站的独立用户。浏览数Page Views：网页（含文件及动态网页）被访客浏览的次数。Page View的计算范围包括了所有格式的网页，例如：.htm、.html、.asp、.cfm、asa、cdx、htmls、shtm、shtml、txt等等，可以由用户根据实际情况自己设定。访问数Visits：也称为登陆数，一个登陆是指客户开始访问网站到离开网站的过程。其中：相邻两次点击页面时间间隔在30分钟以内（系统默认30分钟，用户可以修改默认值）为一一次登陆，大于30分钟为两次登陆。用户数Unique Visitors :也称为唯一客户数，是指一天内访问本网站的唯一IP个数。点击数Hits :是指日志文件中的总记录条数。停留时间Visiting Times:也称为访问时长，是用同一个访问过程中最后一个页面的访问时间减去第一个页面的访问时间，得到此访问在网站上的停留时间。首页浏览数：网站首页被访客浏览的次数。过滤浏览数Filter Page Views:网站中的某些页面并不是独立的页面，而是附属于某个页面，如滚动条页面就是附属于首页的页面，用户可以将这些附属页面设置为过滤页面，过滤页面被访客浏览的次数即为过滤浏览数。有效浏览数Effective Page Views:去除过滤页面后的其他所有页面被访客浏览的次数，即有效浏览数=浏览数-过滤浏览数。平均访问浏览数：一次访问平均产生的浏览数，即平均访问浏览数=浏览数十访问数。重复访问数 Returning Visits during a day : 一天内访问两次以上的用户数。曝光数：广告弹出次数。广告点击数：用户点击弹出广告的次数，即Click数。返回数：通过电子邮件进行市场推广时，用户通过点击邮件中的链接地址访问网站的次数。注册数：用户通过电子邮件和广告访问本网站，并最终转换为注册用户的数量。返回率：广告弹出后，被用户点击的程度，即返回率=点击数十曝光数x 100%。客户转化率：客户转化率包含两方面含义：用户通过广告访问本网站，并最终转化成注册用户的程度，即客户转化率=注册数十点击数x 100%；用户通过邮件上的链接地址访问本网站，并最终转化成注册用户的程度，即客户转化率=注册数十返回数x 100%。发送字节数：从服务器端向客户端发出的字节数。接收字节数：服务器端从客户端接收的字节数。总字节数：是发送字节数和接收字节数的总和，即总字节数=发送字节数+接收字节数。行为/路径：在一个访问过程中，客户访问过的所有页面的轨迹称为路径，或称为行为。特定行为：由用户自行定义的行为，包含若干行为步骤，其中行为步骤不受限制，即可以任意设定行为步骤。进而分析出满足设定行为的发生次数及各个步骤之间的转化率。特定行为转化率：在特定行为中，两个步骤之间的转化率。行为入口：客户开始访问网站的第一个页面。在Web-IA中，根据入口给出典型行为分析。行为出口：客户访问网站的最后一个页面。在Web-IA中，根据出口给出典型行为分析。沉默时间：注册用户最后一次访问网站到分析日的天数。沉默用户：在沉默时间内未访问网站的注册用户。重复访问用户比例：一天内访问两次以上用户占总用户数的比例，该值越大表明用户品质越高，理想值为 100%。用户粘着度指数：一天内的总访问数与总用户数之比，该值越大表明用户品质越高。重度访问用户：按每次访问的停留时间划分，把停留时间超过20分钟的用户归为重度访问用户；也可以按照每次访问产生的浏览数划分，把一次访问浏览超过10个页面的用户归为重度访问用户。对于重度访问用户，包括以下四个指标，每个指标值越大，表明用户品质越高。重度用户比例（次数）=（浏览数11页面的访问数）十总访问数重度用户比例（时长）=（20分钟的访问数）十总访问数重度用户指数=（20分钟的浏览数）+ （20分钟的访问数）重度访问量比列=（20分钟的浏览数）十总浏览数轻度访问用户：按每次访问的停留时间划分，把停留时间不超过1分钟的用户归为轻度访问用户。对于轻度访问用户，包括以下三个指标，每个指标值越小，表明用户品质越高。轻度用户比例=（0-1分钟的访问数）十总访问数轻度用户指数=（0-1分钟的浏览数）+ （0-1分钟的访问数）轻度访问量比例=（0-1分钟的浏览数）十总浏览数拒绝率：一次访问只访问一个页面的访问次数占总访问数的比例，比例越小，表明用户品质越高。拒绝率（一个页面）=只访问1个页面的访问数*总访问数拒绝率（首页）=只访问首页的访问数十总访问数地区：访问客户的来源地区，是根据 IP地区对照表，查询访问客户的 IP地址落在哪个IP 区段内，而得到其对应的地区。地区包括国内地区和国外地区，国内地区以省为单位，国外地区以国家为单位。时段：按照一天24个小时自然时间段进行划分。趋势：趋势分为两种，第一种是以时段为单位的一天24小时发展趋势。第二种是以日为单位的周、月、以及指定区间发展趋势。IP地址：IP地址由4个数组成，每个数可取值 0255,各数之间用一个点号.分开，例如: 202.103.8.46。页面：网站中的所有格式的网页（含文件及动态网页），例如：.htm、.html、.asp、.cfm、asa cdx、htmls、shtm、shtml、txt等等，可以由用户根据实际情况自己设定属于页面的文件格式。特定页面：对于需要特殊分析的页面，通过设置，从众多页面中独立出来，进行特定分析的页面。过滤页面：网站中的某些页面并不是独立的页面，而是附属于某个页面，如滚动条页面就是附属于首页的页面，用户可以将这些附属页面设置为过滤页面。过滤后的浏览数方能真正反映网站的访问情况。离开页面：客户访问网站的最后一个页面。未定义页面：页面功能没有定义的页面，即没有归类到任何频道的页面。频道/栏目:将网站中的各种内容根据功能归类，划分出若干逻辑上的频道或栏目。网站：网站是由 Web Server组成，专业版一个网站只有一个Web Server，企业版和商务版一个网站至少由一个 Web Server组成。热点：将一个网页中包含的各个链接根据功能归类划分出若干板块，比如新闻板块、财经板块、体育板块、科技板块等，每个板块成为一个热点。进而分析出该页面上的各个热点板块被点击的情况。汇总：对多网站的分析进行汇总。同期比较：对任意两个日、周、月、以及指定区间的浏览数（或访问数、或用户数、停留时间）进行比较。比较对象可以是页面、频道、栏目、广告、地区等。聚合：对日期的聚合，比如周聚合就是将7天的数据合在一起为一个分析项，聚合目的就是以聚合项为单位分析网站发展的趋势。环比：在趋势分析中，当前日期数据与上一日期数据的比成为环比。跳转：状态代码为302的访问请求。热门：最受欢迎的页面或频道，即浏览数排名前若干位（可由用户自行定义）的页面或频道。冷门：最不受欢迎的页面或频道，即浏览数排名后若干位（可由用户自行定义）的页面或频道。广告：通过在别的网站上弹出窗口等方式介绍本网站的一种商业活动。邮件：通过发送电子邮件，邮件中包含链接地址，吸引用户通过点击邮件中包含的链接地址访问本网站，实际上也是广告的一种。搜索引擎：在互联网上为您提供信息”检索服务的网站。关键字：通过搜索引擎”检索”的内容。Excel输出：将分析结果以Excel表格形式输出。网站拓扑结构：网站的拓扑结构是由网站汇总、网站分析和频道分析三类节点构成。其中, 网站汇总下可以有部门汇总，网站分析下可以有子网站，频道分析下可以有子频道。用户根据网站拓扑结构，来查询所需要的分析结果。匿名用户：登陆网站不用确认身份，便可访问网站内容的用户。认证用户：通过身份认证后，方可访问网站内容的用户。一般情况，用户通过注册成为认证用户。日志文件：在Web-IA中，日志文件是指被分析网站的工作日志。浏览器：客户端通过什么浏览器访问网站。操作系统：客户端通过什么操作系统访问网站。运营商：客户端接入互联网的服务提供商，比如中国电信、中国网通、教研网等。接入方式：客户端接入互联网的方式，比如拨号、专线、 ISDN、ADSL等。状态代码：也称作错误代码，是为服务器所接收每个请求（网页点击）分配的3位数代码。4. 用户分析-网站用户的识别用户分析是网站分析中一个重要的组成部分，在分析用户之前我们必须首先能够识别每个用户，分辨哪些是” New Customer”，哪些是” Repeat Customer”。这样不但能够更加清晰地了解到底有多少用户访问了你的网站，分辨他们是谁（用户ID、邮箱、性别年龄等）；同时也能够帮助你更好地跟踪你的用户，发现它们的行为特征、兴趣爱好及个性化的设置等，以便于更好地把握用户需求，提升用户体验。通常当你的网站提供了注册服务，而用户注册并登陆过你的网站，那么用户可以更容易地被识别，因为网站一般都会保存注册用户的详细信息；但是你的网站并不需要注册，而用户的行为以浏览为主，这是用户识别就会显得较为困难，下面提供了几种常用的用户识别的方法：识别用户的几种方法当用户并未注册登录的情况下，识别用户的唯一途径就只剩下用户浏览行为的点击流数据，通常情况下它们会保存在WEB日志里面。而 WEB日志本身存在的缺陷可能导致用户识别的不准确性，所以我们在选择用户识别方法的过程中，在条件允许的情况下尽量选择更为准确的方法：1) 基于IP的用户识别IP地址是最容易获取的信息，任何的 WEB日志中均会包含，但其局限性也较为明显：伪IP、代理、动态IP、局域网共享同一公网 IP出口 ”这些情况都会影响基于IP来识别用户的准确性，所以IP识别用户的准确性比较低，目前一般不会直接采用IP来识别用户。获取难度：准确度：2) 基于IP+Agent的用户识别同样基于最简单形式的WEB日志，我们可以增加一项一一Age nt，来提高单一 IP方式识别用户的准确性。Age nt也是WEB日志中一般都会包含的信息，通过IP+Age nt的方式可以适当提高IP代理、公用IP这类情况下用户的分辨度，同时通过Age nt还可以识别网络爬虫等特殊“用户”，但同样准确度也欠高。获取难度：准确度：3) 基于cookie的用户识别当你通过自定义 Apache日志格式或者JavaScript的方法获得用户 cookie的时候，其实你已经找到了一个更有效的用户识别的手段。cookie在未被清除的其前提下可以认为是跟某个访问客户端电脑绑定的(一个客户端有可能包含多个cookie)，所以用cookie来标识用户其实指的是用户使用的客户端电脑，而并非用户本身。用cookie识别用户的方法当然也存在缺陷：最常见的就是 cookie被清除而导致用户无法与原先记录实现对应；同时由于客户端电脑会被共用，或者用户会在不同的电脑上访问你的网站，这个时候 cookie就无法直接对应到该用户了。获取难度：准确度：4) 基于用户ID的用户识别基于用户ID的用户识别是最为准确，因为一般情况下用户不同共享他的用户ID，所以我们可以认为数据中的 userid唯一地指向该用户，几乎不存在偏差。当然要使用用户ID来识别用户是需要一定的前提条件的：网站必须是提供用户注册登录服务的，并且可以通过一些手段在点击流数据中记录userid。获取难度：准确度：所以对于一个需要用户ID注册登录的网站来说，用户唯一标识符的选择可以遵从以下顺序：当用户注册登录时以userid为准，当用户在未登录状态浏览时以用户的cookie为准，当用户未登录且cookie无法获取的情况下以IP+Agent为准；这样就能从最大程度上识别唯一用户。这里推荐一个网站日志中cookie项的自定义设置方法，以便更好地识别用户。cookie是从用户端存放的 cookie文件记录中获取的，这个文件里面一般在包含一个cookieid的同时也会记下用户在该网站的userid （如果你的网站需要注册登陆并且该用户曾经登录过你的网站且cookie未被删除），所以在记录日志文件中 cookie项的时候可以优先去查询cookie中是否含有用户ID类的信息，如果存在则将用户ID写到日志的cookie项，如果不存在则查找是否有cookieid，如果有则记录，没有则记为”-”，这样日志中的cookie就可以直接作为最有效的用户唯一标识符被用作统计。当然这里需要注意该方法只有网站本身才能够实现，因为用户ID作为用户隐私信息只有该网站才知道其在cookie的设置及存放位置，第三方统计工具一般很难获取。5）获取用户信息的途径通过以上的方法实现用户身份的唯一标识后，我们可以通过一些途径来采集用户的基础信息、特征信息及行为信息，然后为每位用户建立起详细的Profile :1）用户注册时填写的用户注册信息及基本资料；2）从网站日志中得到的用户浏览行为数据；3）从数据库中获取的用户网站业务应用数据；4）基于用户历史数据的推导和预测；5）通过直接联系用户或者用户调研的途径获得的用户数据；6）有第三方服务机构提供的用户数据。6）识别并获取用户信息的价值通过用户身份识别及用户基本信息的采集，我们可以通过网站分析的各种方法在网站是实现一些有价值的应用：基于用户特征信息的用户细分；基于用户的个性化页面设置；基于用户行为数据的关联推荐；基于用户兴趣的定向营销；参考：http:/webdataa nalysis .n et/data-collect ion-an d-preprocess ing/5. WEB日志的作用和缺陷Avinash Kaushik 将点击流数据的获取方式分为4 种：log files、web beacons、JavaScript tags和packet sniffers ,其中包嗅探器（packet sniffers）比较不常见，最传统的获取方式是通过WEB日志文件（log files ）;而beacons和JavaScript是目前较为流行的方式， Google Analytics 目前就是采用 beacons+JavaScript来获取数据的，我们可以来简单看一下传统的网站日志和beacons+JavaScript方式各自的优缺点：1） WEB日志文件优势：简单方便，不需要修改网页代码，可以自定义日志格式；较多的现成的日志分析工具的支持（AWStats、Webalizer等）；获取网络爬虫数据的唯一途径；可以收集底层数据供反复的分析。缺陷：数据的质量较低，网站日志包含所有日志数据，包括CSS、图片、脚本文件的请求信息，所以过滤和预处理来提升数据质量必不可少；页面缓存导致浏览无日志记录，这个是比较致命的。2） beacons+JavaScript优势：只需要在页面代码中操作，不需要配置服务器；数据的获取有较高的可控性，可以只在需要统计的页面植入代码；能够获取点击、响应等数据；不需要担心缓存等的影响，数据的准确度较高；可用第三方cookie实现多网站跟踪比较。缺陷：当浏览器禁止接收图片或者禁用 JS时，都可能导致数据获取的失败；只在应用服务层操作，无法获取后台的数据；对图片、文件等请求信息的获取难度相对较大；过多地 JS可能导致页面性能的下降，虽然这方面的影响一般可以忽略。无论通过何种方式，最终数据都是通过日志文件来记录的，只是通过JS可以更容易控制想要获取的数据，并通过在 URL带参数的方式记录到日志文件中共解析和统计。所以底层的数据形式无非就是记录在日志文件中的那几项，在WEB日志格式一文中，已经对网站日志的类型和组成做了基本的介绍，这里就再来解析下 WEB日志中各项对网站数据分析的作用，以及存在的不确定性和缺陷。3）日志的不准确性WEB日志在技术层面的获取方式及各类外部因素的影响使基于网站日志的数据分析会存在许多的不准确性，下面来介绍下WEB日志中那些项目可能造成数据的不准确，以及造成这些缺陷的原因。a）客户端的控制和限制由于一些浏览网站的用户信息都是有客户端发送的，所以用户的IP、Age nt都是可以人为设置的；另外 cookie可以被清理，浏览器出于安全的设置，用户的可以在访问过程中限制cookie、referrer的发送。这些都会导致用户访问数据的丢失或者数据的不准确，而这类问题目前很难得到解决。b）缓存浏览器缓存、服务器缓存、后退按钮操作等都会导致页面点击日志的丢失及referrer的丢失，目前主要的处理方法是保持页面信息的不断更新，可以在页面中添加随机数。当然如果你使用的JavaScript的方法，那么就不需要担心缓存的问题。C）跳转一些跳转导致referrer信息的丢失，致使用户的访问足迹中断无法跟踪。解决方法是将 referer通过URL重写，作为URL参数带入下一页面，不过这样会是页面的URL显得混乱。d）代理IP、动态IP、局域网（家庭）公用 IPIP其实准确性并不高，现在不止存在伪IP,而且局域网共享同一公网IP、代理的使用及动态IP分配方式，都可能使IP地址并不是与某个用户绑定的，所以如果有更好的方法，尽量不要使用IP来识别用户。e）session的定义与多 cookie不同的网站对session的定义和获取方法可能差异，比如非活动状态session的失效时间、多进程同时浏览时 sessionid的共享等，所以同一个网站中session的定义标准必须统一才能保证统计数据的准确。cookie的不准确一方面是由于某些情况下cookie无法获取，另一方面是由于一个客户端可以有多个cookie，诸如chrome、Firefox等浏览器的cookie存放路径都会与IE的cookie存放路径分开，所以如果你是用不同的浏览器浏览同一网站，很有可能你的cookie就是不同的。f）停留时间停留时间并不是直接获取的，而是通过底层日志中的数据计算得到的，因为所有日志中的时间都是时刻的概念，即点击的时间点。这里不得不提的是一个session的最后一个页面的停留时间是无法计算得到的，可以来看一下停留时间的计算过程：假设一个用户在一个 session里面依次点击了 A-B-C这3个页面，并在点完C之后关闭了浏览器，或者长时间的禁止导致了session的中断。那么我们可以从日志中获得的数据为3个页面的点击时间（HitTime），假设A、B、C点击时间分别为 HTA、HTB、HTC，那么A和B页面的停留时间（StayTime）就可以通过计算得到：STA= HTB-HTA，STB= HTC-HTB，而因为我们无法获取session结束的时间，所以 STC是无法通过计算得到的，所以一般session最后页面的停留时间是0，而session得停留时间，即一次访问的时间（Time on site）是HTC- HTA，其实是从打开第一个页面到打开最后一个页面的时间间隔，也是不准确的。另外，我们也无法获知用户在浏览一个页面的时候到底做了什么，是不是一直在阅读博客上的文章或者浏览网站上展示的商品，用户也有可能在期间上了个厕所、接了通电话或者放空的片刻，所以计算得到的停留时间并不能说明用户一直处于En gageme nt的状态。参考：http:/webdataa nalysis .n et/data-collecti on-an d-preprocess in g/effect-of-weblog/6. 漏斗模型（Funnel Model ）漏斗模型不仅显示了用户在进入流程到实现目标的最终转化率，同时还可以展示整个关键路径中每一步的转化率。单一的漏斗模型对于分析来说没有任何意义，我们不能单从一个漏斗模型中评价网站某个关键流程中各步骤的转化率的好坏，所以必须通过趋势、比较和细分的方法对流程中各步骤的转化率进行分析：趋势（Trend）:从时间轴的变化情况进行分析，适用于对某一流程或其中某个步骤进行改进或优化的效果监控；比较（Compare）：通过比较类似产品或服务间购买或使用流程的转化率，发现某些产品或应用中存在的问题；细分（Segme nt）：细分来源或不同的客户类型在转化率上的表现，发现一些高质量的来源或客户，通常用于分析网站的广告或推广的效果及ROI。所以，漏斗模型适用于网站中某些关键路径的转化率的分析，以确定整个流程的设计是否合理，各步骤的优劣，是否存在优化的空间等。试着去了解用户来你的网站的真正目的，为他们提供合理的访问路径或操作流程，而不是一味地去提高转化率。7. 目前提供此服务产品/企业北京蓝太平洋科技开发有限公司（目前公司就购买的此产品IIS日志分析）般若网络科技有限公司http:/www.web- Web商业智能Bi，深入分析访问数据，访问数据中挖掘财富。WEKA 怀卡托智能分析环境（ Waikato Environment for Knowledge Analysis ）开源软件。官方网址：http:/www.cs.waikato.ac. nz/ml/weka/WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。WEKA提供的接口文档可以实现自定义的数据挖掘算法。三、项目目的四、项目需求1. 页面统计页面PageView访问数页面Ref跳入页面UserView用户数页面IP 独立IP数页面Out跳出2. 用户行为指标访问了那些用户行为指标主要反映用户是如何来到网站的、在网站上停留了多长时间、页面等，主要的统计指标包括：用户在网站的停留时间；用户来源网站（也叫“引导网站”）；用户所使用的搜索引擎及其关键词；在不同时段的用户访问量情况等。用户区域分布用户对在线支付功能的使用情况用户对在线教室功能的使用情况用户浏览网站的方式时间设备、浏览器名称和版本、操作系统用户浏览网站的方式相关统计指标主要包括：用户浏览器的名称和版本；用户浏览器的版本分布；访问者电脑分辨率显示模式；用户所使用的操作系统名称和版本；用户所在地理区域分布状况等。3. 潜在用户特征分析（/网易邮箱广告分区域/分学历/分职业投放）1、最常浏览该网站的用户性别分布2、最常浏览该网站的用户年龄分布3、最常浏览该网站的用户学历分布4、最常浏览该网站的用户婚姻状况分布5、最常浏览该网站的用户职业分布6、最常浏览该网站的用户收入分布7、最常浏览该网站的用户区域分布最后：那些人是我们潜在的用户？首页有多少PV数？ UV数？有多少独立IP访问？频道/栏目首页 -网站栏目分类的优势有多少PV数？ UV数？有多少独立IP访问？新/旧功能页面-听课行为/记笔记行为有多少PV数？ UV数？有多少独立IP访问？都从那些网址跳入？用户又跳出到哪里去了?都从那些网址跳入？用户又跳出到哪里去了?都从那些网址跳入？用户又跳出到哪里去了?用户都是用那个页面进入到听课功能页面的？是否和我们设定/假象的用户行为一致?4. 指定User Cookie 的分析用户浏览轨迹特征；用户页面时长特征；用户操作轨迹特征；新学员/老学员的操作行为差异？功能选择差异？浏览/关注点差异？5. 用户趋势分析用户浏览的趋势；使用产品的趋势；五、项目系统设计如何获取流量统计信息获取网站访问统计资料通常有两种方法：一种是通过在自己的网站服务器端安装统计分析软件来进行网站流量监测；另一种是采用第三方提供的网站流量分析服务。两种方法各有利弊，采用第一种方法可以方便地获得详细的网站统计信息，并且除了访问统计软件的费用之外无需其他直接的费用，但由于这些资料在自己的服务器上，因此在向第三方提供有关数据时缺乏说服力；第二种方法则正好具有这种优势，但通常要为这种服务付费，虽然也有一些免费网站流量统计服务，但由于在功能方面会有一定的限制，或者通常需要在网站上出现服务商的标识甚至广告，对于商业网站来说使用免费服务肯那个不太合适。此外，如果必要，也可以根据需要自行开发网站流量统计系统。具体采取哪种形式，或者哪些形式的组合，可根据企业网络营销的实际需要决定。在线流量统计网站有哪些？Google 网站访问统计（ Google Analytics ） : http:/www.google.eom/analytics/ITSUN 网站流量统计：51yes 网站流量统计：六、项目详细设计1. 数据收集目前日志服务/格式：IIS :主站（ ASP语言）Negios :论坛（ PHP语言）Apache/Tomcat : 博客（ PHP语言 / Java / JSP 语言）SysLog:（C 语言）其他格式日志：自定义的日志格式Apache服务器：mod_uid : http:/www.lexa.ru/programs/mod-uid-eng.htmlmod_usertrackhttp:/httpd.apache.0rg/docs/2.O/mod/mod usertrack.htmlNginx服务器：http:/wiki. ngin x.org/Ngi nxHttpUserldModule数据的收集方式：1、在各个应用上通过 JS程序收集数据，统一访问日志服务器，记录日志，做日志分析;（推荐：将数据服务和数据捕获分离、数据格式统一）2、由各个应用服务器配置日志，保持格式的简单一致性，再汇总日志做分析；时间访问URL来访IP地址来访来源DateURLIPRef日志包含信息:用户唯一标识UserCookielD统计时间范围为:每小时的00分钟-59 分钟25分-下一小时的10分在操作，以绝注：要考虑用户操作的时间的不确定性。用户可能在对的时间范围来分析，分析数据会有偏差。2. 数据模型1）统计PV量（趋势）统计要素：Date + URL描述：统计时间范围内 Date，访问URL的浏览量PV （汇总数）；例如：09:00 - 10:00 之间，访问博客首页的有 259 次；数据库表：log_date_collect 汇总统计站点的每小时 /30分钟的pv/独

展开阅读全文

用户行为数据分析数据挖掘BI项目计划书

最新文档