资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,基于海量用户行为数据分析的,互联网增值新业务,What,Why and How,What?要作什么事,对每个宽带用户的每次浏览网页行为进行记录,在海量的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的“画像”。,按用户属性和行为特征对全部宽带用户进行聚类和精细化的客户群划分。,依托运营商平台,利用网络广告、直投、个性化内容推送等手段对宽带用户进行“一对一”的精准营销。,What 图解,用户上网的历史行为,用户属性和行为特征,男性,年龄25-35岁,来自北京.海淀.上地,IT从业人士,热衷科技产品,Nokia N95用户,中高端消费等级,喜欢户外运动和旅游,追求奢侈品,.,.,.,What 图解 续,客户群A,客户群B,客户群C,客户群D,客户群E,客户群F,用户标识和特征,用户精细划分,精准营销,Why?-为网通带来新价值,精准广告收入,合作模式:与网络广告商、传统广告商、SP、广告联盟分成,精准的用户属性将大幅度提高广告的价值,让每一次Page View都变成金子,自营模式:个性化内容推送 例子:“一对一”的个性化号百和12580,想用户所想,急用户所急,直销(DM)分成收入:与最终厂商合作,提升ARPU值,快速拓展新用户,采用,精准的营销策略,带动用户升速,分析升速用户的行为习惯,:什么样的用户需要升速?什么样的SP会吸引升速用户?,通过DM捆绑销售和,优惠的接入价格,快速拓展新用户,在新竞争格局中领先一步,形成良性的循环:更低的接入价格带来更多的用户,获得更多的增值业务收入,How?HyperCloud解决方案,技术架构,核心处理算法,演示,ROI分析,低成本和可靠的海量存储子系统,平滑可扩展的分布式运算子系统,高吞吐率的运营服务子系统,低成本和可靠的海量存储子系统,多级别存储,成本降到300$/TB,无需RAID支持,保证99.9%可用性,多元数据服务器,管理亿级数量文件,可在线扩展至PB级规模,条带化存储,多数据通路聚合,支持对象存储(OSD)接口,I/O缓存,平滑可扩展的分布式运算子系统,3M架构:借鉴Google的分布式计算架构,针对海量数据挖掘的需求对单点性能和多点负载均衡作最大限度的优化,Key-Value Query with,Memory Cache,突破Key-Value Query的瓶颈,单点上亿条规模Key-Value对的查询时间小于200ms (传统DB的1/20),Dell 1950 Dual Quad-Core,3.0Ghz,Range Query with,Memory Database,列存储(Column-based)结构,突破Range Query的瓶颈,单点上亿条记录的Range Query(select x from t where a y and y 隐性特征是大样本基础上的机器学习 Machine Learning,ML),例子,“劲舞团”=游戏-舞蹈类|青少年 85%“兰寇”=化妆品-兰寇|女 70%高端=65%“铁血”=爱国|男 90%“美女”=闲逛|男 90%“爱卡论坛”/“宝马”=汽车-宝马|高端消费人群 70%中端消费人群 60%低端 30%“奶粉”=婴幼儿用品-奶粉|女 70%,有小孩90%“内衣”,“爱慕”=内衣-文胸-爱慕|女 85%,核心处理算法(3)处理流程,HTTP请求数据,Radius计费镜像数据,垃圾流量过滤器(ML),垃圾流量排名,Radius归并过滤器,广告流量过滤器(ML),广告流量排名,用户会话/点击路径识别过滤器,高权重行为模式分析器,泛行为模式分析器,访问统计过滤器,第三方PV,UV,ADV,PUV,权威排名,爬取分词,关键词排序(ML),样本库,精准匹配模式库,行业Top 20,样本库,样本库,用户显性特征,(关键词),用户隐性特征,(用户分群),隐性特征推理器(ML),Top 10000词推理样本,分类库(行业/职业、商品),统计过滤器,热点、,舆情、,行业咨询,对接运营服务系统(广告或内容推送),演示,Get a feeling of it,演示用的数据样本来源,某运营商(江苏南京)20000用户一周数据,计费系统Radius数据:1000万条,10GB,包含:,ADSL帐号、上线时间、离线时间、IP地址,用户所有上网行为数据(未清洗前):14亿条HTTP Requests,1TB,包含:,Client IP地址,HTTP Host,URL,Cookie,Referer,Agent,数据分析平台,使用2台双路4核 Dell 1950需要16小时,使用10台双路4核 Dell 1950只需要1小时,1、用户群精准定位演示 按关键词,关键词“二手房”,对“二手房”关注的用户群,宽带用户z68862449的敏感关键词表,用户详细,宽带帐号,性别推断,DSLAM位置,2、用户群精准定位演示 按行业,行业“汽车”,“汽车”相关的SP频道Top排名,对其中某个频道关注的用户群,3、用户深度分析演示,宽带用户帐号,性别分析,消费层次分析,最经常访问的内容频道,最经常上的网站,最关注的关键词,ROI分析,成本,每百万用户硬件成本(不含推送系统):,服务器:规格:Dell PowerEdge 1950(1U),双路4核,4G,SAS 300G*2,数量:50,造价:15000*50=75(万元),存储设备,用于存档备份 规格:Dell MD1000+DIY 磁盘,40T,数量:2-3台,成本:10万元,每百万用户软件成本:0,商业模式,直接投放广告,合作运营,商业模式,直接广告投放,网站广告合作,广告客户的长尾效应,目前搜索引擎的收入高于门户网站,门户网站的广告位有限,大量PV被浪费,基于用户行为的精准投放极大的提高门户的广告价值。中小网站或BBS拥有可观的流量和用户眼球。但由于其内容相关性和品牌价值不高,导致广告价值低下。(新浪汽车的用户可能同时也是天涯论坛的用户),通过提供用户行为特征实现实时精准投放可使其“一亩地产百亩粮”,是真正优质的催化剂,线下DM直投,请领导和专家指正!,谢 谢!,
展开阅读全文