电信行业数据挖掘与大数据心得体会

上传人:花里****1 文档编号:240757629 上传时间:2024-05-05 格式:PPT 页数:39 大小:313KB
返回 下载 相关 举报
电信行业数据挖掘与大数据心得体会_第1页
第1页 / 共39页
电信行业数据挖掘与大数据心得体会_第2页
第2页 / 共39页
电信行业数据挖掘与大数据心得体会_第3页
第3页 / 共39页
点击查看更多>>
资源描述
电信行信行业数据挖掘与大数据数据挖掘与大数据心得体会心得体会互联网市场大小互联网市场大小l2011中国互中国互联网收入,广告网收入,广告512亿元,增元,增长57%l网网络游游戏428亿,增,增长20%;电商商7735.6亿,增,增长68%l行行业排排头兵兵净利利润率估率估计,广告,广告35%,网游,网游55%,电商商1%,利,利润分分别为179亿,235亿,77亿l假假设2012增增长与利与利润水平不水平不变,行,行业利利润分分别为广告广告280亿,游,游戏280亿,电商商130亿艾瑞咨艾瑞咨询互联网数据挖掘三个方向互联网数据挖掘三个方向l广告水广告水军剔除剔除剔除水剔除水军,可以大大减少广告开支、,可以大大减少广告开支、节约成本。成本。这是是节流。流。l商品推荐商品推荐这一一块可可以以参参考考amazon的的商商品品推推荐荐,现在在电商商都都在在学学amazon的的商商品品推推荐荐,只只是是都都做做得得不不好好。这一一块做做好好可可以以增加增加销售量。售量。带来真金白来真金白银。这也就是开源。也就是开源。l社交网社交网络分析等分析等现在在新新浪浪微微薄薄的的数数据据质量量最最高高,大大有有可可为。目目前前已已经有有很很多多公公司司在在新新浪浪上上做做社社会会化化网网络数数据据挖挖掘掘,但但还可可以以容容纳更多公司。更多公司。l上周,美国小型音上周,美国小型音乐公司公司LimitedRun宣布他宣布他们确信其在确信其在Facebook上的广告点上的广告点击有超有超过80%来自于机器人程序,来自于机器人程序,并表示将会向并表示将会向Facebook追究此事。追究此事。http:/ CSCS域域l语音主叫语音主叫l语音被叫语音被叫l短信发送短信发送l短信接收短信接收l位置更新位置更新l开机开机l关机关机l位置切换位置切换信令数据介绍信令数据介绍 PSPS域域l彩信发送彩信发送l彩信接收彩信接收lWAP连接连接lWAP使用使用lWAP断开断开信令名词解释信令名词解释lLAC:locationareacode位置区位置区码(移(移动通信系通信系统中)中),是是为寻呼而呼而设置的一个区域置的一个区域,覆盖一片地理区域。覆盖一片地理区域。lCELL:采用基站采用基站识别码或全球小区或全球小区识别进行行标识的无的无线覆盖覆盖区域叫做小区。区域叫做小区。lIMSI:InternationalMobileSubscriberIdentificationNumber国国际移移动用用户识别码,是区,是区别移移动用用户的的标志,志,储存在存在SIM卡中,可用于区卡中,可用于区别移移动用用户的有效信息。的有效信息。信令名词解释信令名词解释lIMEI:InternationalMobileEquipmentIdentity,是是国国际移移动设备身身份份码的的缩写写,国国际移移动装装备辨辨识码,是是由由15位位数数字字组成成的的“电子子串串号号”,它它与与每每台台手手机机一一一一对应,而而且且该码是全世界唯一的。是全世界唯一的。lMSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即即 是是 综 合合 业 务 数数 字字 网网,是是 IntegratedServiceDigitalNetwork的的简称称),即手机号,即手机号码。信令数据能做什么?信令数据能做什么?l实时营销(精准营销、精确营销)实时营销(精准营销、精确营销)l事件营销(信令监控、信令分析、数据挖掘)事件营销(信令监控、信令分析、数据挖掘)基于信令数据和客户统一视图的数据挖掘基于信令数据和客户统一视图的数据挖掘l高中生高中生l高中生家长高中生家长l大学生大学生l飞机来港客户飞机来港客户l飞机离港客户飞机离港客户l景区游客景区游客l火车站到达客户火车站到达客户l火车站离开客户火车站离开客户数据挖掘的创新数据挖掘的创新l规则以界面化的方式展示给业务人员规则以界面化的方式展示给业务人员l参数可调整,业务人员可以根据业务经验调整参数可调整,业务人员可以根据业务经验调整l业务人员可以直接界面执行数据挖掘,重跑数据业务人员可以直接界面执行数据挖掘,重跑数据l通过外呼查全和查准通过外呼查全和查准l前端界面规则配置到数据库中前端界面规则配置到数据库中l环境发生大变化时,业务人员熟悉模型规则,就环境发生大变化时,业务人员熟悉模型规则,就能很方便给研发提新需求,研发远程开发后远程能很方便给研发提新需求,研发远程开发后远程发包部署发包部署实时营销(精准营销、精确营销)实时营销(精准营销、精确营销)l速度实时速度实时l合适的时间合适的时间l合适的地点合适的地点l给客户推荐合适的内容给客户推荐合适的内容实时营销(精准营销、精确营销)实时营销(精准营销、精确营销)案例案例l两城一家两城一家l机场旅客推荐各种套餐机场旅客推荐各种套餐l高考考生推荐各种业务高考考生推荐各种业务l体育场观众推荐歌星歌曲体育场观众推荐歌星歌曲实时营销(精准营销、精确营销)实时营销(精准营销、精确营销)流量规划功能简介流量规划功能简介l根据根据url实时分分类,做,做实时内容内容营销lurl无无法法分分类结果果,可可以以开开发程程序序,调用用爬爬虫虫,获取取网网站站分分类规则,做,做实时内容内容营销(socket调用用获取取url分分类结果)果)l根据搜索关根据搜索关键字,做字,做实时内容内容营销l结合信令数根据合信令数根据IMEI提取提取终端信息,端信息,结合合url分分类,做,做实时流量流量营销l根据基站信息,做根据基站信息,做url实时位置位置营销l据,据,实时提取提取BOSS侧流量信息,当流量超流量信息,当流量超标时实时提醒提醒(如看(如看视频超出流量套餐)超出流量套餐)l数据来源于信令数据来源于信令PS域(域(Gn、Gb接口)接口)l核心核心规则处理由理由标准准C程序开程序开发,针对信令数据特征信令数据特征优化,化,简洁高效高效中国移动面临的问题中国移动面临的问题l用用户会大会大规模从模从2G迁移到迁移到3G,或者是,或者是4Gl3G时代,流量代,流量费和和2G相比,价格大幅下降。用相比,价格大幅下降。用户会自主会自主选择使用什么使用什么应用。如苹果的用。如苹果的AppStore、谷歌的、谷歌的GooglePlayStore。l电信运信运营商的短信、彩信、手机商的短信、彩信、手机报等等,等等,对普通大众,普通大众,都不在重要,通都不在重要,通过套餐包提供就行。套餐包提供就行。l3G时代,代,语音音业务,不再区分本地、,不再区分本地、长途、国内漫游。途、国内漫游。中国移动面临的问题中国移动面临的问题l全全国国统一一套套餐餐有有几几十十个个套套餐餐基基本本就就够了了,不不再再需需要要每每省省几几千、几万个套餐,那是一个太千、几万个套餐,那是一个太庞大、太复大、太复杂系系统。l3G时代代,腾讯微微信信提提供供的的语音音视频,苹苹果果FaceTime的的视频通通话,都都将将使使语音音直直接接走走流流量量包包就就可可以以,套套餐餐中中无无法法再再单独包括独包括语音部分的音部分的资费。l流流量量的的价价格格远远低低于于语音音的的价价格格。这会会使使电信信运运营商商彻底底管道化。管道化。l变成成卖水、水、卖电一一样的企的企业。中国移动面临竞争的个人建议中国移动面临竞争的个人建议l电信运信运营商可以一方面收商可以一方面收购使用水、使用使用水、使用电的的上下游公的的上下游公司的股份。司的股份。l可以考可以考虑成立投成立投资公司做投公司做投资。l收收购腾讯的部分股的部分股权,支持,支持腾讯,腾讯发展壮大,中国移展壮大,中国移动也能跟着也能跟着获益。益。l中国移中国移动入股,入股,买下雅虎所占股份。也可以投下雅虎所占股份。也可以投资支付宝。支付宝。中国移动面临竞争的个人建议中国移动面临竞争的个人建议l将来的趋势就是移动互联网。中国移动,包括中国联通、将来的趋势就是移动互联网。中国移动,包括中国联通、中国电信,如果自己做不好移动互联网,那就投资给这些中国电信,如果自己做不好移动互联网,那就投资给这些移动互联网企业。移动互联网企业。l合适的多占股份,风险大的就少占股份。完全可以向风投合适的多占股份,风险大的就少占股份。完全可以向风投转变。转变。l中国移动也可以继续尝试做各种应用,做平台,和各厂商中国移动也可以继续尝试做各种应用,做平台,和各厂商合作。深挖互联网数据金矿。合作。深挖互联网数据金矿。中国移动面临竞争的个人建议中国移动面临竞争的个人建议l互联网时代,电信运营商面临着和阿里巴巴一样的问题,互联网时代,电信运营商面临着和阿里巴巴一样的问题,互联网的大数据,成本压力,财报压力。互联网的大数据,成本压力,财报压力。l为了压缩成本,也需要去做去为了压缩成本,也需要去做去IOEIOE化运动。化运动。l现有系统无需改变,也不必迁移。现有系统无需改变,也不必迁移。l电信运营商完全可以从零开始,打造一套适应互联网竞争电信运营商完全可以从零开始,打造一套适应互联网竞争的新一代互联网系统。的新一代互联网系统。中国移动面临竞争的个人建议中国移动面临竞争的个人建议l未未来来的的实实时时数数据据仓仓库库(新新一一代代经经营营分分析析系系统统)和和全全国国互互联联网网数数据据集集中中化化中中,在在成成本本压压力力,财财报报压压力力,外外部部竞竞争争压压力力加加剧剧,互互联联网网企企业业颠颠覆覆式式创创新新的的革革命命下下,也也不不得得不不走阿里巴巴曾经走的路。走阿里巴巴曾经走的路。l投投资资阿阿里里巴巴巴巴、支支付付宝宝、腾腾讯讯、京京东东、凡凡客客、库库巴巴、优优酷酷、土土豆豆、新新浪浪、网网易易、搜搜狐狐、携携程程、大大众众点点评评网网、豆豆瓣、如家快捷酒店、锦江之星等等。瓣、如家快捷酒店、锦江之星等等。l中中国国移移动动也也可可以以去去做做电电商商。如如果果觉觉得得自自己己业业务务运运营营水水平平高,可以学习亚马逊、京东做电商,做的更全面。高,可以学习亚马逊、京东做电商,做的更全面。中国移动面临竞争的个人建议中国移动面临竞争的个人建议l如如果果觉觉得得自自己己国国企企特特色色,做做不不好好,可可以以学学习习阿阿里里巴巴巴巴(天猫)、淘宝,做开放平台。这条路也挺不错。(天猫)、淘宝,做开放平台。这条路也挺不错。l需要有大魄力才行。需要有大魄力才行。中国移动和百度合作的建议中国移动和百度合作的建议l移动互联网时代,手机号码仍然是稀缺资源。移动互联网时代,手机号码仍然是稀缺资源。l百度、腾讯、阿里巴巴三大巨头,腾讯和阿里巴巴都有自百度、腾讯、阿里巴巴三大巨头,腾讯和阿里巴巴都有自己的号码(用户己的号码(用户idid)资源,这背后代表着用户信息。)资源,这背后代表着用户信息。l百度没有用户信息,在移动互联网时代处于很大劣势。百度没有用户信息,在移动互联网时代处于很大劣势。l移动运营商用户资源很丰富,信息也很全。移动运营商用户资源很丰富,信息也很全。l中国移动完全可以和百度合作,把用户信息共享给百度,中国移动完全可以和百度合作,把用户信息共享给百度,这样百度就可以做预搜索或其它各种工作。这样百度就可以做预搜索或其它各种工作。l中国移动投资百度,资源共享,合作共赢。中国移动投资百度,资源共享,合作共赢。关于关于10张标签表,每表,每张表表8000万万记录,每每张表几百几千个表几百几千个标签字段,关字段,关联取数据,取数据,秒秒级出出结果的高效方法果的高效方法?大数据关联查询创新案例大数据关联查询创新案例方案方案1 1:数据库内方案:数据库内方案l把把所所有有客客户统一一视图大大标签宽表表先先按按地地市市分分表表,再再按按号号码分分别拆分拆分为10000张表。表。l每每张小小表表中中包包括括所所有有需需要要的的几几百百、几几千千个个字字段段。小小表表总表数表数为1万到几万之万到几万之间,详细为地市数量地市数量*1000。l有有的的省省份份,小小表表数数据据量量为2000条条到到8000条条。前前端端访问时,不不再再需需要要做做多多表表sql关关联,数数据据量量级别为千千行行级的的单表表sql查询语句速度也很快。句速度也很快。l起起10000个个线程并程并发执行,可以做到行,可以做到实时。方案方案2 2:数据库外方案:数据库外方案l把所有客户统一视图大标签宽表按地市分文件,再按号码把所有客户统一视图大标签宽表按地市分文件,再按号码继续拆分为继续拆分为10001000个文件。个文件。l每个小文件中包括所有需要的几百、几千个字段。小文件每个小文件中包括所有需要的几百、几千个字段。小文件总数量为总数量为1 1万到几万之间,详细为地市数量万到几万之间,详细为地市数量*10001000。l如果是直辖市,直接拆分为如果是直辖市,直接拆分为1000010000个小文件。个小文件。l使用标准使用标准C C,开发出处理程序,并发启动,开发出处理程序,并发启动1 1万到几万个线程,万到几万个线程,每个线程把小文件数据加载到各自内存中。每个线程把小文件数据加载到各自内存中。l当需要处理数据时,实用当需要处理数据时,实用LUALUA来访问数据,每个线程需要处来访问数据,每个线程需要处理的数据量为千行级。总体速度应该在毫表级,可以实时理的数据量为千行级。总体速度应该在毫表级,可以实时把数据回传给前端。把数据回传给前端。l像有的省,如果地市用户提取客户群,则同样只需访问此像有的省,如果地市用户提取客户群,则同样只需访问此地市的地市的10001000个小内存文件,速度能更快。个小内存文件,速度能更快。方案方案1 1细节:细节:l表文件、和线程的数量可以根据实际需要调整,可以调整表文件、和线程的数量可以根据实际需要调整,可以调整到到100100张表、张表、10001000张表、或者是张表、或者是100100个文件、个文件、10001000文件、再文件、再或者是或者是100100个线程、个线程、10001000个线程。个线程。l具体还需要查询资料,依据现场机器配置,做性能调优而具体还需要查询资料,依据现场机器配置,做性能调优而定。定。l如果并发线程压力太大的话,可以考虑改为减少并发线程如果并发线程压力太大的话,可以考虑改为减少并发线程数,或者改为串行。当数据无法做大表关联时,每次只需数,或者改为串行。当数据无法做大表关联时,每次只需从单行记录就可去到。从单行记录就可去到。方案方案1 1细节:细节:l分表或分文件时,按手机号码尾号分表或分文件时,按手机号码尾号2 2位或位或3 3位来分,手机号位来分,手机号码尾号本身是均匀的。在同一地市的小表中,每张小表的码尾号本身是均匀的。在同一地市的小表中,每张小表的数据量是基本接近相同的。数据量是基本接近相同的。l地市之间,考虑到不同地市的用户数不同,则可以对不同地市之间,考虑到不同地市的用户数不同,则可以对不同地市的分表或分文件数量做优化,用户数多的地市分表和地市的分表或分文件数量做优化,用户数多的地市分表和文件多,用户数少的地市分表或文件少,尽量和所有的文件多,用户数少的地市分表或文件少,尽量和所有的100100、10001000或或1000010000以上的表或文件中数据量保持一致,这以上的表或文件中数据量保持一致,这样并发处理线程同时处理,完成时间也能基本相同。样并发处理线程同时处理,完成时间也能基本相同。方案方案2 2细节:细节:l数据为每月或每日凌晨初始化读入,载入到内存后。在数据为每月或每日凌晨初始化读入,载入到内存后。在上班时间访问,直接查询内存静态数据,速度快,但也上班时间访问,直接查询内存静态数据,速度快,但也涉及到内存分配太大的问题。涉及到内存分配太大的问题。l此时,需要考虑做并发或者分布式处理。涉及到硬件投此时,需要考虑做并发或者分布式处理。涉及到硬件投资增加问题,不建议采购小型机,改为采购刀片服务器资增加问题,不建议采购小型机,改为采购刀片服务器或其它服务器。或其它服务器。l数据也可采用前端调用时再动态加载,根据机器配置,数据也可采用前端调用时再动态加载,根据机器配置,让线程分批次加载数据并处理。这样对硬件要求低,但让线程分批次加载数据并处理。这样对硬件要求低,但速度相对会慢。速度相对会慢。方案方案2 2细节:细节:l前前端端向向后后台台通通信信采采取取socketsocket方方式式,后后台台处处理理完完数数据据后后,可可以以把把最最终终数数据据合合并并,再再加加载载到到数数据据库库中中的的表表,也也可可以以由各线程把各自数据分批插入到数据库中的表。由各线程把各自数据分批插入到数据库中的表。l数据加载完成后,再通过数据加载完成后,再通过socketsocket通知前端处理完毕。通知前端处理完毕。lLUALUA具体如何处理和优化,细节尚待研究,需要花时间。具体如何处理和优化,细节尚待研究,需要花时间。l细致工作还有很多,需要继续研究和深入下去。细致工作还有很多,需要继续研究和深入下去。方案方案2 2细节:细节:l如果要考虑到硬件成本、分布式部署、开发时间和难度问如果要考虑到硬件成本、分布式部署、开发时间和难度问题,可以接下来优化为采用题,可以接下来优化为采用hadoophadoop方案。方案。l采用采用hadoophadoop方案后,整体数据量在千万级,有些省例外,方案后,整体数据量在千万级,有些省例外,到了亿级。硬件投资改为采购几台到了亿级。硬件投资改为采购几台PCPCServerServer,硬件投入为,硬件投入为几万元。几万元。l数据都在库外处理,数据都在库外处理,NOSQLNOSQL方式,数据库可以改为使用开源方式,数据库可以改为使用开源数据库数据库MySQLMySQL,存放配置信息。这样,存放配置信息。这样DB2DB2、OracleOracle或其它数或其它数据库都可以替换掉。据库都可以替换掉。方案方案2 2细节:细节:l整整体体来来说,实用用hadoop方方式式或或库外外标准准C开开发方方式式后后,可可以以更有效减少中国移更有效减少中国移动在硬件上的投入,在数据在硬件上的投入,在数据库的投入。的投入。l可可以以把把节省省的的成成本本投投一一部部分分到到应用用软件件厂厂商商上上。这样,中中国国移移动就就可可以以和和应用用软件件厂厂商商实现共共赢。这也也是是IT业界界的的发展展趋势。l至至于于hadoop方方案案,客客户统一一视图标签月月表表每每月月生生成成一一次次,日日表表每每日日按按生生产一一次次。生生成成后后为静静态数数据据,每每日日上上班班时间数数据不会更新,据不会更新,为静静态数据。数据。方案方案2 2细节:细节:l基于此特点,可以在每日凌晨把客基于此特点,可以在每日凌晨把客户统一一视图数据加数据加载到到hadoop中,白天中,白天访问时直接直接查询数据,速度快,效率高。数据,速度快,效率高。l数据加数据加载到内存数据到内存数据库中做中做查询,我目前用到的是,我目前用到的是solo+lucene,有的同事用的是,有的同事用的是MongoDB。l云云计算方案,算方案,应该是可以考是可以考虑借借鉴谷歌做搜索谷歌做搜索查询这块的的成功成功经验。l云云计算方案,貌似用流算方案,貌似用流计算也不算也不错。Yahoo的的S4听听说挺不挺不错。微薄友的点评:微薄友的点评:l得意的那些事儿得意的那些事儿大大表表,谷谷歌歌的的bigtable是是最最佳佳实践践blueprint,思思想想可可以以参参考考。从从分分表表分分库转向向规模模的的bigdatarebalance。这才才是是所所有有的的性性能能优化化的的起起源源和和本本质。这里里面面cap理理论和和dht算算法法是是技技术实现原原理理。当当然然mapreduce大大大大简化化了了数数据据的的normalize和和并并行行计算算。hadoop的的出出现提提供供了了这些些。各各种种混合架构只是在融合混合架构只是在融合实时处理而已理而已l不不胜人生一人生一场醉醉PMBAR每每秒秒上上百百G的的吞吞吐吐量量,我我不不认为关关系系数数据据库和和几几台台PC服服务器能搞的定器能搞的定微薄友的点评:微薄友的点评:l风流搞技流搞技术用用oracle就麻就麻烦了,最多了,最多1000列,超列,超255列,会列,会带来来过多多IO,非关系型数据,非关系型数据库解决此解决此类问题应该在行在行l原来原来远去去如果自己采用写程序在内存里面做关如果自己采用写程序在内存里面做关联计算,算,mysql之之类只只是做数据是做数据备份存份存储,倒是有可能。,倒是有可能。热数据全在内存里面,数据全在内存里面,只是冷数据需要只是冷数据需要查一下一下mysql。冷。冷热处理有些理有些难度。同度。同时内内存利用率存利用率这块怎怎样控制,否控制,否则很容易爆掉。很容易爆掉。自己写,涉及自己写,涉及一个一个distinct,groupby之之类,秒,秒级计算出算出结果,困果,困难比比较大。大。论中国论中国西西方方战战略略家家思思考考如如何何在在关关键键点点上上集集结结优优势势兵兵力力,而而孙孙子子研研究究如如何何在在政政治治和和心心理理上上取取得得优优势势地地位位,从从而而确确保保胜胜利利。西西方方战战略略家家通通过过打打胜胜仗仗检检验验自自己己的的理理论论,孙孙子子则则通通过过不不战战而而胜胜检检验验自自己己的的理理论。论。亨利亨利基辛格基辛格个人建议:个人建议:l平平时多多积累,累,“功夫在功夫在诗外外”l多做多做SWOT分析分析l多关注大多关注大环境,多从大局出境,多从大局出发l做做创业、做、做BI要多眼于未来,要多眼于未来,产品品规划、划、设计要要面向未来,多考面向未来,多考虑未来三五年的未来三五年的环境和境和竞争争l扁扁鹊见蔡桓公蔡桓公BI人学人学习的榜的榜样推荐阅读推荐阅读l浪潮之浪潮之巅l暗暗时间l异异类l数学之美数学之美l高效能人士的七个高效能人士的七个习惯l彼得彼得德德鲁克的克的书籍籍l职业规划划谢谢!谢谢!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 金融资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!