资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/2/27,#,大数据平台产品建设和应用方案,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/2/27,#,大数据平台产品建设和应用方案,大数据平台产品建设和应用方案,大数据平台产品建设和应用方案,1,1.,大数据概述,2.,大数据平台建设,3.,大数据平台应用,目 录,Contents,1. 大数据概述2. 大数据平台建设3. 大数据平台应用目,2,Part 1,大数据概述,Part 1大数据概述,3,大数据:成为国家战略,十三五规划纲要,提出,实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用;,2016,年,3,月,18,日,2016,年,8,月,31,日,江苏省政府,关于运用大数据加强对市场主体服务和监管的若干意见,提高政府运用大数据能力;,推动简政放权和政府职能转变;,提高政府服务水平和监管效率,降低服务和监管成本;,2015,年,9,月,5,日,国务院,2015,年,7,月,1,日,国务院,促进大数据发展行动纲要,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合;,以企业为主体,加大大数据关键技术研发,着力推进数据汇集和发掘,深化大数据在各行业创新应用;,大数据成为国家战略,江苏省大数据发展行动计划,工信部、发改委,大数据:成为国家战略十三五规划纲要提出实施国家大数据战略,4,大数据实例:中国电信海量数据,携程、途牛、去哪儿、同程、美团等月上网总量,5.02,亿条,/,月,手机定位,7,亿条,/,天,上网搜索、,浏览、点击等,行为数据,100,亿条,/,天,海量数据,实时获取,GPS,定位,500,万,/,天次,海量数据,覆盖人口,固定电话,2000,万用户,家庭、公共,景区,WiFi,使用者,90%,以上,IPTV,用户,600,万,政府大企业,200,万,全省网民,6500,万,手机用户,2300,万,10T,仅江苏省每天数据量,大数据实例:中国电信海量数据携程、途牛、去哪儿、同程、美团等,5,江苏电信数据现状,容量大(,Volume,),:江苏电信数据总量已达,10P+,,日均产生网络日志数据,10T+,、话单数据,1T,、,类型多(,Variety,),:包括位置信令数据、用户网络数据、呼叫记录数据、终端数据、视频数据、,存取速度快(,Volecity,),:海量数据的快速产生、快速存储、快速使用,应用价值高(,Value,),:最真实的客户、产品、资源和订单等数据;最详实的用户行为数据,电信用户基本数据,号码,身份信息,缴费信息,消费信息,移动位置数据,基站信息,移动信息,滞留信息,信令数据,主叫信息,被叫信息,IP,信息,位置信息,终端数据,Mac,地址,终端,ESN,APP,信息,网络日志数据,移动固网源地址,目的地,IP,目的地,URL,用户触点数据,1,0000,网厅,大数据特征,大数据是以,容量大,、,类型多,、,存取速度快,、,应用价值高,为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行,采集,、,存储,和,关联分析,,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。,江苏电信数据现状容量大(Volume):江苏电信数据总量已达,6,大数据行业生态图谱,大数据的核心,-,企业技术,大数据基本上就是管道设施的一种。大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等。,大数据的关键,-,无缝集成,大数据的成功不在于实现技术的某一方面(像,Hadoop,、,spark,等),而是需要把一连串的技术、人和流程糅合到一起。,大数据的构成,-,多层递进,大数据基础设施日益完善,大数据分析,BI,平台普遍成熟,大数据应用层正在快速构建。,大数据行业生态图谱大数据的核心-企业技术,7,大数据思维,-,数据范畴,信息管理,坚实的信息基础,标准化的数据管理实践,可获得并且可用的洞察力,分析技能和工具,作为核心专业而发展的技能,通过一套可靠的工具和解决方案而实现,培养面向行动的洞察力,面向数据的文化,基于事实的领导力,用作战略资产的分析技术,洞察力知道的战略和运营,管理数据,理解数据,使用数据,企业必须掌握三项分析技能才能实现竞争优势,大数据思维-数据范畴信息管理坚实的信息基础标准化的数据管理实,8,大数据思维,-,三原则,“大数据三原则”:要全体不要抽样,要效率不要绝对精确,要相关不要因果。,小数据,大数据,抽样数据、局部数据和片面数据,用全体代替抽样,统计抽样的局限性,精准性,用数量代替精确,拥抱混杂性:容错性更强,经验、假设和价值观,用相关性代替因果性,知道是什么比知道为什么更重要,大数据思维-三原则“大数据三原则”:要全体不要抽样,要效率不,9,大数据角色,业务人员,业务用户:,提出业务需求,并制定优先级,业务分析师:,有较深的行业业务知识,通过分析业务数据提供决策支持,数据科学家:,具有专业领域知识、统计分析背景和计算机技术基础,从数据中挖掘有效信息以解决业务深度分析需求,机器学习专家:,具有统计学思维、丰富的编程和数据建模经验,通过开发算法进行业务分析和预测,技术人员,平台,/,系统架构师:,软件工程师背景,对大数据、云计算有较深的理解,负责技术选型和实现流程,数据工程师:,负责数据的采集、存储、处理,IT/,运维人员:,负责平台的开发、部署、运营、发布、管理和监控,大数据时代,解析海量难以理解的信息足以导致改变世界的革新。但真正理解这些数据,需要各个方面专业人士。,大数据思维,-,角色划分,大数据角色业务人员技术人员大数据时代,解析海量难以理解的信息,10,数据仓库数据源不断扩大(新增互联网非结构化数据等),数据量由,TB,级向,PB,级增长,几乎所有互联网企业都在业务或分析系统中采用了大数据,(,特别是,Hadoop,数据分析技术,),一方面应对不确定的业务增长和处理各种结构化与非结构化数据,另一方面降低采购和运维成本。采用,Hadoop,大数据平台的互联网企业如,国际上的,Facebook,、亚马逊(,Amazon,)、,ebay,等,国内的淘宝、阿里巴巴、,京东、苏宁云商、,百度、腾讯、优酷等,电信运营商包括国际上的,AT&T,、,Vodafone,等,国内的,中国电信,、中国联通,、,中国移动,也已经引入了,hadoop,大数据平台,谁在使用大数据?,数据仓库数据源不断扩大(新增互联网非结构化数据等),数据量由,11,调研报告,-,大数据使用和分析的目标,使用数据和分析,提高赢取客户的能力,使用数据和分析改进客户体验,使用数据和分析,提高赢取客户的能力,使用数据和分析,改进客户体验,调研报告-大数据使用和分析的目标使用数据和分析使用数据和分析,12,调研报告,-,大数据来源,企业主要使用内部数据源开展大数据举措,交易,日志数据,事件,电子邮件,88%,57%,73%,59%,社交媒体,传感器,外部来源,RFID,扫描或,POS,数据,自由格式文本,地理空间,音频,静态图像,/,视频,41%,41%,42%,42%,43%,40%,38%,34%,调研报告-大数据来源企业主要使用内部数据源开展大数据举措 交,13,调研报告,-,大数据基础设施(平台),信息整合,可扩展的存储基础架构,高容量数据仓库,安全与治理,65%,64%,59%,58%,脚本与开发工具,列存储数据库,复杂事件处理,工作负载优化,分析加速器,Hadoop/MapReduce,NoSQL,引擎,流计算,54%,51%,45%,45%,44%,42%,42%,38%,受访者大数据基础设施的组件,信息整合,是任何分析项目的关键组成要素,对大数据来说,它甚至更加重要。,企业的数据必须随时可被需要数据的人员使用和获得,。,调研报告-大数据基础设施(平台) 信息整合 可扩展的存储基础,14,调研报告,-,大数据分析能力(应用),查询与报表,数据挖掘,数据可视化,预测建模,优化,65%,67%,71%,77%,91%,模拟仿真,自然语言文本,地理空间分析,流分析,视频分析,语音分析,35%,43%,52%,56%,25%,26%,受访者采用多种高级分析技能,调研报告-大数据分析能力(应用) 查询与报表 数据挖掘 数据,15,Part 2,大数据平台建设,Part 2大数据平台建设,16,人在干、数在转、云在算,把握,数据,灵魂,找准,应用,抓手,夯实,能力,基础,风险防控,舆情分析 行为预测,电信自有数据,+,业务应用数据,政务,+,教育,+,医卫,+,交通,+,旅游,+,基础设施能力,云网融合,关键业务能力,安全服务,运营保障能力,运营支撑,云计算,云计算强调的是底层基础设施的资源复用,让资源的能力尽量发挥出来。,大数据,大数据是主要面向业务,业务需要什么样的构架,大数据就要有相应的平台、技术和构架。,人在干、数在转、云在算把握数据灵魂找准应用抓手夯实能力基础风,17,智慧的医疗,智慧的市民服务,智慧的公共安全,智慧的交通,实时路况发送,公交到站提醒,通畅路线规划,远程会诊,智慧处方,临床决策系统,犯罪信息,挖掘,突发事件响应,高危位区域统计、预警,智慧的公共事业,智,能用电分析,环境状况分析预测,水处理,/,水资源管理,智能就业匹配,政策舆情分析,商品优惠客户匹配,全面感知,充分整合,智能处理,协同运作,精确管控,创新应用,政务大数据需求,外部数据源,内部数据源,互联网,移动互联网,物联网,社交媒体等,政府部门资料信息及相关系统:经济运行、产业、投资、消费、能耗、交通、电力、装备、中小企业,等,大数据来源,舆情评论,社交关系,实时位置,旅游度假,城市车位使用,智慧的医疗智慧的市民服务智慧的公共安全智慧的交通实时路况发送,18,企业大数据需求,助力运营,企业大数据需求助力运营,19,大数据挑战,-,客户分析全流程,5,6,7,8,9,1,2,3,4,项目是为了实现,哪个业务目标?,如何表达成功,(通过哪些数据)?,您需要分析哪数据,哪些数据具有相关性,您有哪些数据,缺乏哪,些数据,哪些数据具有相关性,您需要哪些沟通能力来实施,您的研究结果,并实现公司战略?,您需要采取,哪些行动?,这些活动与哪些客户和产品相关?,您选择哪些沟通渠道?,您在哪些方面成功,(,包括响应能力和业,务绩效的衡量和反馈,),?,客户分析举措的治理检查表,大数据挑战-客户分析全流程567891234项目是为了实现如,20,数据源多种多样,数据存储代价高昂,数据资产缺乏有效管理,数据价值缺乏有效利用,用,管,存,收,大数据挑战,59%,59%,数据自然流失,70%,70%,数据过于复杂,85%,85%,企业数据架构无法适应数据量和复杂性增长的需求,98%,98%,企业无法及时、准确地为业务提供正确的信息,数据源多种多样数据存储代价高昂数据资产缺乏有效管理数据价值缺,21,性能,灵活,共享,价值,安全,关注要素,大数据关注要素,关键功能点,多级团队管理,资源开通和隔离,数据安全和隔离,程序管理和调度,数据查询分析,数据开放共享,数据隐私保护,性能灵活共享价值安全关注要素大数据关注要素,22,数据应用层,数据共享层,数据存储与分析层,数据采集层,任务调度与元数据管理,安全、权限与监控,搜索,报表,OLAP,其它数据接口,DB,Redis,HBase,Other,File/ftp/http,实时计算,(,Storm,/Spark Streaming),MR,Hive,Spark,Sparksql,HDFS,Flume,kafka,网站日志,ftp/http,Mysql,Oracle,Other,Drill,AD-HOC,sqoop,Kylin,批处理,抽取程序,依据数据特性和应用特点,建立,批处理,和,实时计算,的大数据平台系统架构,1,收,2,存,4,用,3,管,大数据系统架构,-Hadoop,方案,数据应用层数据共享层数据存储与分析层数据采集层任务调度与元数,23,电信大数据定位,基础设施提供商,数据产品与能力提供商,分析技术提供商,业务应用提供商,大数据使用者,基础设施提供商,数据和分析提供商,业务应用提供商,数据标签,位置信息,趋势预测,精准营销,咨询报告,我们能做什么,观云大数据产品,观云大数据应用,电信大数据定位基础设施提供商数据和分析提供商业务应用提供商数,24,大数据管理,数据地图,数据开发,生产部署,调度管理,数据管理,系统管理,数据交换,大数据存储,数据批处理,数据实时处理,大数据收集,结构化数据,实时数据,非结构化数据,大数据分析,BI,分析,可视化,大数据挖掘,机器学习,决策支持,观云,提供大数据一站式解决方案,,,帮助客户,收集,、,存储,、,管理,、,使用(分析和挖掘),相关数据,提升客户业务支撑水平。,观云基于成熟的大数据开源技术(,hadoop/spark,),结合鸿信大数据团队的技术特长和项目实施经验,形成了具有自主知识产权的大数据软件产品。,观云概述,大数据管理数据地图数据开发生产部署调度管理数据管理系统管理数,25,大数据源,日志数据,大数据集群,大数据文件,结构化数据,多媒体数据,实时收集,实时毫秒级不间断采集数据,并,存入大数据集群,批量收集,按小时、日、周、月等时间周期,批量采集各类数据,存入大数据集群,大数据收集,非结构化数据,实时数据,数据流,观云,-,收集,大数据源日志数据大数据集群大数据文件结构化数据多媒体数据实时,26,小型机,光纤交换机,存储阵列,网络交换机,X86,服务器,数据库软件(,ORACLE/DB2,等),大数据软件(,Hadoop/Spark,),成本显著降低,同等存储和计算能力,软硬件综合成本最低仅需,10%,V,S,架构健壮,扩展灵活,Volume,海量,支持,GBTBPB,各种量级数据存储和运算,实现海量数据并发管理。,Variety,多样,轻松处理结构化和非结构化数据,包括,Web,语音,图像,视频等数据。,Velocity,实时,实时,&,流式处理,支持海量数据的毫秒级运算。,Scale,规模,适用小,中,大各种规模,可根据数据发展情况灵活、快速扩展集群:几台,-,千台。,实时处理,高效迅捷,不同数据,同地存储,海量数据,轻松存储,观云,-,存储,小型机光纤交换机存储阵列网络交换机X86服务器数据库软件(O,27,数据资产管理,1,分门别类,观云,-,管理,分散各处,杂乱无序,各取所需,一点汇总,整齐统一,数据血缘管理,2,寻根溯源,关系不清,野蛮生长,枝繁叶茂,欣欣向荣,正本清源,数据资产管理1分门别类观云-管理分散各处,杂乱无序各取所需一,28,团队和资源管理,3,观云,-,管理,开发工具管理,4,五花八门,参差不齐,僧多粥少,山头众多,团队,1,团队,2,管理灵活,合理调配,核心自主,降低门槛,统一规范,提升效率,削峰填谷,合作无间,团队和资源管理3观云-管理开发工具管理4五花八门,参差不齐僧,29,数据安全管理,5,观云,-,管理,IP,和工具限制,函数,授权,用户,审计,数据表,授权,4,大安全保障,字段,加密,数据,分级,2,重隐私保护,数据安全管理5观云-管理IP和工具限制函数用户数据表4大安全,30,处理效率显著提升,2,应用名称,数据量,本地集市耗时,(,分钟,),大数据平台耗时,(,分钟,),效率提升,天翼、快销品到达及净增统计,上亿级,50,13,74%,天翼、快销品、,4G,新装统计,上亿级,54,15,72%,宽带日统计,千万级,10,4,60%,4G,产品清单统计,千万级,24,10,58%,天翼快销品清单统计,上亿级,34,11,68%,根据现有产品实例表作的宽表,上亿级,121,45,63%,天翼单产品合约统计,千万级,32,12,63%,后付费宽带超期缴费统计,百万级,47,20,57%,指定账目收入统计,千万级,53,23,57%,应收账款月统计,上亿级,79,20,75%,出库终端匹配月统计,千万级,61,21,66%,对比,大数据平台,和传统数据库处理效率,发现,效率提升,60%,左右,而且数据数量级越大,效率提升越高,。,多团队支撑能力,1,架构灵活,可以支撑,不同的团队,基于企业数据进行分析挖掘,实现了资源的,充分利用,和数据的,高效共享,。,A,B,C,D,观云,-,使用,处理效率显著提升2应用名称数据量本地集市耗时(分钟)大数据平,31,3,丰富的可视化展现,提供海量数据的批量和实时分析、,图形化操作、丰富的可视化展现,,帮助客户轻松自如地完成数据分析、业务数据探查,提升数据化运营水平。,实时监控大屏展现,图表结合界面展现,用户自定义界面展现,实景地图展现,观云,-,使用,3丰富的可视化展现提供海量数据的批量和实时分析、图形化操作、,32,一站式大数据解决方案,提供大数据存储、计算、安全、工,具和服务等基础设施及一站式解决,方案,可根据客户需求进行个性化,定制,。,成本大幅降低,规模灵活可调,使用廉价的,X86,服务器(新增或利,旧)组建大数据平台,极大地降低,建设成本,最低仅需传统投资成本,的,10%,。,架构先进,适用小,中,大各种规模,,可根据业务数据增长情况灵活、,快速扩展,。,优质电信数据引用,提供客户数据,+,电信标签的能力,,助推客户业务拓展水平跃升,。,电信级的品质保障,电信级的实施团队,电信级的管理,规范,经过电信内部多年使用的考,验,。,通过灵活高效的管理,开放的大数据解决方案,助力客户业务服务水平的提升,。,服务水平大幅提升,观云差异化优势,一站式大数据解决方案提供大数据存储、计算、安全、工成本大幅降,33,科研情况,:,支持所有主流大数据批处理,(hadoop),、实时处理,(spark),技术,秒级同步百万条记录;秒级处理,TB,级别数据,小时内部署百节点规模的大数据集群;,100+,数据业务挖掘模型,,50+,并行化数据挖掘算法;完整的大数据解决方案供应商,产品线全面覆盖基础平台、数据应用和可视化各个层次。,成果展示:,鸿信公司,累计获得软件著作权,48,项,专利,11,项;省市以上奖项,12,项;,获得资质包括,计算机信息系统集成一级、,CMMI5,、,ISO9001,:,2008,等。,团队组成,团队规模,80,人,数据仓库及大数据行业从业经验,7,年以上;,与国内领先企业、高校建立广泛的合作关系和联合研发团队。,项目经验,成功实施,500,万,+,级项目,7,个,,200,万,+,级项目,5,个,,100,万,+,级项目,6,个,,30,万,+,级项目,9,个;,涉及运营商、社保、交通、教育、财政等多个领域。,精英,团队,成熟,经验,前端科研,丰硕,成果,观云大数据团队,科研情况:支持所有主流大数据批处理(hadoop)、实时处理,34,江苏电信大数据汇聚与共享平台,建设大数据基础平台,支撑电信大数据存储和计算:,PC SERVER,总计,200+,台,,硬件金额合计:,500W+;,获得可用存储:,3PB+,,可用内存,10T+,,以及良好的扩展性;,实现了话单数据处理从传统数据仓库向大数据平台的迁移;,实现了上层应用分析从传统数据仓库向大数据平台的迁移;,基于,Hadoop,平台实现了,DPI,、信令等数据的准实时处理;,基于观云处理,实现多团队灵活入驻:入驻大数据分析团队,30+,,进行大数据应用分析,40+,,活跃开发用户,280+,等;,企业数据应用门户,经营风险管控,数据应用,DPI,、信令等,外部数据,非结构化数据,ETL,平台(分布式,ETL,),Hadoop,分布式集群,数据批处理,海量结构化数据,:,话单,信令,非结构化数据,:,DPI,流处理,流式数据,:,信令,AAA,认证,大数据基础平台,ODS,传统结构数据,准实时处理,EDW,传统结构数据,批量处理,数据集市,数据储存与处理,大数据,汇聚共享,平台,开放,共享,开发,利用,安全,管理,数据,交换,MSS,BSS,OSS,业务平台,结构化数据,CSS,CMS,数据,应用,数据服务封装,客户行为分析,数据服务,经营分析集市,营销维系集市,本地应用集市,客户行为集市,30+,分析团队,40+,专题应用,280+,开发用户,1000+,数据表,800+,流程部署,专业资深,的应用团队,覆盖广泛,的服务客户,不同领域,的数据挖掘,规模庞大,的共享数据,变革创新,的行业领域,观云大数据平台案例,江苏电信大数据汇聚与共享平台企业数据应用门户经营风险管控数据,35,2.4,成效一:团队能力拓展,成效一:构建电信大数据开放生态圈,多团队并行开展工作,基于统一开放数据能力,双百兆营销,移动客户画像,数据稽核,30+,分析团队,40+,挖掘模型,流失预警模型,快递员模型,信用评估模型,省级对内应用类,经营分析团队,财务数据分析团队,经营风险管控团队, .,分公司应用类,南京数据分析团队,苏州数据分析团队,无锡数据分析团队, .,对外应用类,百度,ID,团队,尼尔森团队,青稞团队, .,基于开源大数据技术,构建电信大数据开放生态圈,实现对内对外的数据能力开放,,目前,已面向号百、,NOC,、终端公司、公信公司和分公司开放能力,,初步实现与外部多个行业进行大数据产品开发与运营的协作模式。,2.4 成效一:团队能力拓展成效一:构建电信大数据开放生态圈,36,399,个,南京:对,399,个,重点区域,的,基站进行优化,优,省,2.5,成效二:对内支撑企业规模发展降本增效,10%,南京:,优化后每个基站增加约,10%,用户,150,万元,基于大数据分析,,开展客户价值导向的,4G,网络建设和优化,提升,4G,用户体验,提高网络投资成本收益率,4G,基站优化,成效显著,基于大数据分析,,对低流量用户进行分群和特征刻画,采用针对性营销,提升用户活跃率,规避业务风险,流量经营营销成效显著,基于大数据分析,开展流量经营各项精确营销支撑工作,针对性营销辅导,,推荐流量产品收益,1.79,亿,,占流量产品收入,29.6%,后向流量收入,持续增长,647,波次,全省累计发起,营销辅导,647,波次,1.79,亿,元,翼起来客户端推荐业务直接效益,155M,辅导,81.8,万低流量用户,户均提升达,155M,166,万,成功推荐下载应用,156,万,徐州:,月均提升流量,17318G,,月均提升流量收入,151,万元,,年增收,1248,万元,镇江:,月均提升流量,8466G,,月均提升流量收入,104,万元,,年增收,1812,万元,苏州:发现,5,个闲置,4G,基站,*,每个,30,万元建设,运,营成本,,共计节省,150,万,元,成效二:对内支撑企业发展降本增效,399个南京:对399个重点区域的基站进行优化优省2.5 成,37,成效三:对外支撑行业应用拓展,成效三:对外支撑行业应用拓展,38,建设云计算平台,+,大数据平台,提升高校在,大数据经济统计、电子商务、数据挖掘、社会网络分析、推荐系统、云计算、三维可视化和物联网等方面的研究,水平。,多模态舆情与决策支持系统的研究,汇集互联网中的海量舆情信息,对其进行深度分析,提供舆情报告并实时推送敏感信息,为舆情监测、预警、干预等提供决策支持,。,大规模社区抽取的研究,通过搭建一个基于,hadoop,分布式平台的,BSP,计算模型来并行处理数十亿节点的社交媒体数据,研究基于数据分片的社区抽取算法,建立数据索引以及分片之间计算和存储的负载均衡问题。,大规模复杂网络社区发现的研究,拟采用基于,Spark,框架的内存计算技术,。,农业环境监控信息,经济统计数据库建设,让教师在从事科研时能迅速便捷地找到有关的信息资料,有良好的数据处理工具,并保证这些工具的合法性及其分析结果的可靠性。让学生有机会了解学科动态,接触前沿研究方法。建立良好的科研环境,包括管理人员优质的服务,计算机良好的运行状况和可靠的软硬件技术支持系统等。,高校教学科研大数据平台,建设云计算平台+大数据平台,提升高校在大数据经济统计、电子商,39,人社大数据平台建设,项目建设包括大数据基础平台建设和两个业务分析系统建设。,社保大数据应用基础平台,社保大数据应用基础平台拟采用传统数据仓库,+,分布式数据存储计算框架的混合模式,包括数据采集、数据存储处理、数据汇聚共享三大模块。,社保统计分析系统,根据统计分析系统设计要求,结合业务部门实际需求,设计开发各类可定制化的条件查询统计汇总功能。,养老保险关联分析系统,按关联分析系统设计要求,建立指标体系,从多维结构化的角度处理对企业养老保险基金产生影响的政策、宏观经济方面的因素,为进一步挖掘事件与社保基金之间的深层关系打好基础,。,人社大数据平台建设项目建设包括大数据基础平台建设和两个业务分,40,Part 3,大数据平台应用,Part 3大数据平台应用,41,人,车,路,交通的参与者(驾驶员、行人、乘客、居民),出行,OD,、停留时间、人口分布、交通工具、异地通勤、交通负荷、事件分析、政策评估,道路交通的主要载体,车辆管理、行车路线规划、行车轨迹分析,交通的重要组成部分,交通路况、路况预测、物流园区周边路况负荷评估,数据服务,实时交通,路况评测,道路信令数据,Saas,应用,实时路况,行车轨迹,OD,分析,咨询报告,交通规划咨询,交通事件评估,人口交换评估,交通大数据应用,国家大数据发展格局已形成;,基于用户位置信息的数据价值得到交通部、规划院认可;,运营商大数量价值已经开始变现;,各地交通部已着手调研利用手机信令进行路网监测。,运营商品牌效应,;,运营商数据资源全面、多维、中立;,可实现不同维度数据交叉关联;,具有多种定位手段,数据价值高;,汇聚海量电信用户位置数据。,优势,Strengths,机会,Opportunities,人车路交通的参与者(驾驶员、行人、乘客、居民)道路交通的主要,42,南京,-,镇江,江宁区,玄武区,溧水县,栖霞区,润州区,丹徒区,京口区,句容市,通勤人口特征分析,通勤量分析,通勤距离分析,通勤目的地分析,通过多月手机信令数据,分析手机用户每日的出行轨迹,总结规律,识别其夜间稳定点做为居住地、其白天工作时段稳定点做为工作地,并剔除不通勤用户的干扰,获取主城的居住地与岗位分布。,通勤分析,南京-镇江江宁区玄武区溧水县栖霞区润州区丹徒区京口区句容市通,43,数据清洗,停留点提取,停留点分析,删除重复位置信息;剔除乒乓切换;剔除超速数据,。,合并邻近基站;筛选停留点。,停留点特征分析;,标记停留点类别(居住、工作,)。,出行,OD,产品基于中国电信用户海量位置信息,抽取用户出行起点、终点,对特定人群进行出行活动行为分析;,大数据出行,OD,产品可取代传统居民出行、道路交通等调查手段,通过智能方式实现出行,OD,调查;,基于位置信息的出行,OD,产品可应用于城市交通道路规划、政策评估、城市公交规道交通规划等场景。,01,城市规划,人流,OD,分析,城市功能分区,城市空间分布,职住分布,通勤关系,迁移关系,03,城市政策评价,城市间人口迁徙,城市内人口出行,城市间异地通勤,02,城市交通规划,城市公交站点,城市地铁站规划,区域人口出行,应用场景,OD,(出行交通量),“,O,”来源于英文,ORIGIN,,指出行的,出发地点,;,“,D,”来源于英文,DESTINATION,,指出行,的目的地,交通大数据应用,OD,分析,数据清洗停留点提取停留点分析删除重复位置信息;剔除乒乓切换;,44,出发地:南京,与镇江、滁州联系最紧密,城际,OD,分析,出发地:南京 与镇江、滁州联系最紧密城际OD分析,45,直观上看,中心城区(,11,、,12,、,13,、,8,)是外地,-,南京出行最密集的地区,主要是南京的商业和公共服务的集聚区。,城际,OD,分析,直观上看,中心城区(11、12、13、8)是外地-南京出行最,46,目的地,来源地,目的地:从新街口去往各个区县的人,来源地:指从其他区县进入到新街口区域的人,在新街口停留一个小时以上算有效用户,夜间在其他区县停留,3,个小时以上判断为来源地,在新街口停留一个小时以上算有效用户,分析这些用户夜间居住在哪里?,市内,OD,分析,新街口客流来源、去向,目的地来源地目的地:从新街口去往各个区县的人来源地:指从其他,47,市内,OD,分析,夫子庙客流集散,市内OD分析夫子庙客流集散,48,49,交通方式及换乘分析,收集区域内所有(含各区县)火车站、机场、汽车站、收费口的基站与信令数据,并结合用户出现在这些交通枢纽前后的位置信息,将用户的城际交通方式归类为,“,铁路,”,、,“,民航,”,、,“,客运,”,、,“,自驾,”,流入,流出,交通方式分析,用户出现在客运站(剔除常驻人口),用户在进客运站一个小时之前的前一个小时内无市内信令切换记录,用户在客运站最后一条信令后一个小时之后的后一个小时内有市内信令切换记录,根据用户进入,城市,的轨迹与长途汽车路线进行匹配,用户出现在客运站(剔除常驻人口),用户在进客运站一个小时之前的前一个小时内有市内信令切换记录,用户在客运站最后一条信令后一个小时之后的后一个小时内无市内信令切换记录,根据用户离开,城市,的轨迹与长途汽车路线进行匹配,进站分析,出站分析,49 流入流出交通方式分析用户出现在客运站(剔,49,以南京南站为研究对象,利用大数据技术,将手机信令、漫游数据、用户标签数据、探针等多种数据资源信息进行融合,,并在,此,基础上,对南京南站的集疏运换乘功能进行研究,形成宏观的分析报告,为南站的服务以及管理改进提出优化方案,促进南站周边经济圈的开发,。,案例:南京南站交通枢纽集疏运大数据,管理优化,根据分析提供的南站各种交通方式的客流信息、换乘波峰波谷时间段,为引导乘客选择最优出行路线以及最佳出行时间提供理论依据。,通过,对南站周边五公里道路路况以及来源目的地分析,为南站周边道路上的车辆导流提供理论依据,也为交通路网规划提供参考。,通过南站区域内人流换乘耗时以及人流动线的分析,可以为改善内部寻路措施提供理论依据,。,通过分析内部人员结构改善针对特定人群的服务,。,通过分析内部人员结构为南站内部的广告投放、南站内部的商铺建设以及南站周边经济圈的开发提供参考,。,以南京南站为研究对象,利用大数据技术,将手机信令、漫游数据、,50,案例,-,交通行业,南京交管局大数据项目,二桥拥堵时对前往车辆进行拥堵短信提醒,实现南京二桥路线实时路况监控,玄武湖公园客流量预测,南京南站客流量监控,1,2,3,4,借助实时处理能力对海量电信信令数据进行实时计算,提供高速路及交通枢纽的实时路况和客流监测。,基于,BI,可视化组件快速实现对拥堵道路的多维度分析和展示;,对景区和交通枢纽实现客流实时监控和预测。,案例-交通行业南京交管局大数据项目 二桥拥堵时对前往车辆进行,51,分析区域和城际互联互通水平,,,打造交通枢纽城市,出行量,目的地分析,出行用户画像,东西南北走向流量分析,来源分析,驻留时间统计,流入和经停比例分析,流入流出对比分析预测,流入流出分析,主干道流出路线(占比),到达城市占比,东西南北走向分析,危险品,/,货运,分析,跨市通勤用户分析,跨市通勤方式分析,跨市通勤地分析,跨市通勤趋势分析,跨市通勤时间分析,城际通勤分析,进港分析,目的地分析,出港分析,过站分析,分流分析,换乘分析,交通枢纽分析,分析物流经济走廊,分析,城市,与周边区域经济依赖强弱,分析交,通方式的占比、趋势及不足,加强薄弱通道的建设,合理加密核心圈层的路网密度,案例,-,交通行业,常州交通局大数据项目,分析指标,应用需求,实现,信令数据、普货、危险品,、出租车、机场大巴等多数据源的汇聚,实现流入流出、经济走廊、通勤、客流等,8,大类,50+,指标的分析和处理,实现各类分析报表、图表的的可视化展示,分析区域和城际互联互通水平,打造交通枢纽城市出行量流入流出分,52,案例:,2016,苏州园博会大数据监测,案例:2016苏州园博会大数据监测,53,对重点区域,运营商用户终端位置信息,自建,WIFI,位置信息,道路监控的卡口数据,:,过车车号、过车车速、过车时间、过车车辆信息、过车照片,时间、地点、用户、用户特征等信息强关联,位置信息覆盖范围广,监控,预测,预警,防暴恐、踩踏事件,大数据,重点人群,来源去向,人群流量,人群密度,监控,预测预警,措施,缺失,基于公安信息,结合运营商通信和位置信息,以实现:,扩展情报收集来源,提升公安反恐作战能力,提供刑侦辅助手段,实现犯罪预测和防控,提供预警和处置手段,公安大数据应用,对重点区域运营商用户终端位置信息监控防暴恐、踩踏事件大数据重,54,犯罪交往圈挖掘,根据嫌疑群体的通信行为,挖掘其组织关系以及潜在目标,应用,4,犯罪交往圈挖掘,系统根据其通讯行为,挖掘形成交往圈图谱,警方输入犯罪嫌疑人号码,分析其交往圈信息,形成犯罪人交往圈分析报告,展示其交往图谱、关键人、异常人员等,系统支持分析交往圈的关键联系人,进一步分析其个人特征,系统支持选择联系人,进一步进行追溯,并进行一定的筛选,根据其交往圈规律,结合其位置轨迹,分析交往圈人缘关系身份,犯罪交往圈挖掘根据嫌疑群体的通信行为,挖掘其组织关系以及潜在,55,重点人员布控支持,根据嫌重点监控人的实时位置,辅助实现人、车布控,应用,2,重点人员布控支持,根据嫌疑人习惯、移动轨迹(人,车:,320,),制定布控策略,警方锁定嫌疑人,需要布控抓捕,准确定位,捉拿嫌疑人,根据嫌疑人实时位置,实施抓捕计划,嫌疑人与其他人通信时,实时抓取联系人信息,嫌疑人进入车站、机场等准备逃窜时,及时预警,重点人员布控支持根据嫌重点监控人的实时位置,辅助实现人、车布,56,罪犯轨迹分析,通过分析犯罪嫌疑人的位置轨迹,分析其行为特征和异常信息,应用,3,罪犯轨迹分析,系统追溯其位置轨迹,形成轨迹路线,警方输入犯罪分子号码,分析之前的行为,根据其行为轨迹,分析其生活、工作地点、异常活动地点等信息,分析人员可选择特定区域,统计其经过次数、时间等信息,系统支持输入其他人员信息,进行轨迹对比分析,系统分析其停留特征,分析停留位置和时长,罪犯轨迹分析通过分析犯罪嫌疑人的位置轨迹,分析其行为特征和异,57,数据获取,位置数据,基站数据,用户画像,手机数据基本特征:数据构成,/,更新原理,/,触发机制,/,更新频率等,进入小区范围的用户画像,数据预处理,手机数据质量分析,手机数据预处理,信令覆盖于小区地形匹配,手机数据适用性分析,手机数据准确性分析,手机数据完整性分析,基站与小区、小区附近道路映射匹配,获取个体用户小区附近出行轨迹,获取个体用户小区附近时空分布,去除信令数据噪声,去除信号扰动影响,模型构建,人群身份识别模型,夜间频繁出入(并停留)于多个小区的用户。,多个用户在异常时空轨迹上出现重合,多个用户通话行为与异常时空轨迹发生时间重合,停留点,/,时长识别与计算,出行链识别,出行模式聚类,特殊人群核心人员识别模型,小区居民,小区工作人员(物业、快递等),经常出入小区的游客,保护用户隐私:手机数据字段,/,类型,/,更新频率等,基站分布,/,用户量分析,小区公安监控的应用,小区异常行为人流实时监控预警,案发后嫌疑人排查及轨迹跟踪,基于历史轨迹的嫌疑人挖掘,观云大,数,据,处,理,平,台,一般客户交往圈异常模型,人群流量监测预警模型,。,案例,-,公安监控,苏州公安小区监控,数据获取位置数据基站数据用户画像手机数据基本特征:数据构成/,58,基于轨迹相似度、时空重合度、周期内重合次数及通信交往圈分析建立非法聚集评估指数,并根据非法聚集规模进行预警。,案例,-,司法,社区服刑人员监控,通过历史轨迹数据分析住所工作地,日常活动轨迹。基于这两点分析晚归未归数、轨迹相似度,对相似度较高的异常轨迹进行预警,活动轨迹分析,活动范围分析,非法聚集分析,异常轨迹分析、预警,基于轨迹的居住地、工作地分析,特定区域经过次数及停留时间分析,异常轨迹相似度分析,正常,/,异常活动范围分析及图形化展示,异常活动范围特征分析及预警,异常活动范围相似度分析,轨迹相似度分析,时空重合度分析,周期重合次数统计,非法聚集规模监控,服刑人员交往圈分析,人员活动信息总览,人员分布图形化展示,活动正常,/,异常比例显示,正常,/,异常人员地图高亮显示,非法聚集分析,异常轨迹分析,基于轨迹相似度、时空重合度、周期内重合次数及通信交往圈分析建,59,常熟公安,基于,wifi,探针的用户数据采集,1,项目背景,作为“大防控”体系的一部分(不属于技侦范畴),公安目前在建设基于,wifi,探针的用户数据采集项目,并计划在此基础之上进行大数据分析。,基于,wifi,探针的用户数据采集,难点在于如何获取用户手机,MAC,地址和手机号码的匹配,公安目前的手段是在自己有抓手的公共场所(网吧、宾馆等)强制推行号码登记。,苏州由市公安局统一部署,各区县分别试点建设,常熟想做出自己的特色:引入运营商,wifi,数据,提高匹配率。,ChinaNet,、,aWifi,等,家庭宽带,wifi,大数据平台,wifi,探针数据:,MAC,地址与位置信息,MAC,地址与手机号或宽带账号的关系,数据应用,本期项目内容,2,合作方式,甲方:常熟公安,乙方:鸿信(数据平台建设与数据集成),丙方,1,:苏州国泰实业公司常熟分公司(苏州公安直属企业),丙方,2,:,wifi,探针厂商,项目金额约五六百万,其中探针设备约四百万。,政策与技术的可行性,常熟公安基于wifi探针的用户数据采集1项目背景,60,精准营销数据基础,数据基础,用户级的基础口径数据,受理与发展渠道、,资源接入方式、营销区域、城乡标志、学校代码、,乐享,3G,主副卡标志、云卡类型、,智能手机终端与,3G,手机手机终端、,3G,终端用户,(,集团口径,),、,是否在网、是否计费出账、是否融合、是否活跃、是否三零用户,网间结出,结算,漫游结出,iTV,结出,SP,结出,保有佣金,佣金,发展佣金,话费补贴,补贴,终端补贴,其他,装维,物料,终端结算,营销成本, ,用户级的成本汇聚与计算,交往指数:,衡量一个号码的交往号码与其交往程度的量化指标;涵盖交往频度,通话时长,通话次数因素,用户交往指数和交往圈,是否新增用户,是否离网(,90,天内没有通话),本网生活圈交往指数最高的固话产品,本网生活圈交往指数最高的移动产品,异网用户所在营销支局,中高端用户类型,是否为其他运营商的客户经理,异网用户的特征刻画,全面,融合企业前后端数据,,通过专业数据团队,打造统一业务模型,,将位置信息、上网行为和用户标签信息加入到业务中间层,使得数据更加易用,更加贴近业务。,精准营销数据基础数据基础用户级的基础口径数据受理与发展渠道、,61,精准营销数据基础,标签分类,个人价值,购买力标签,资产标签,1.,月消费,5.,银行往来,7.,手机终端,6.,电信消费,8.,套餐类型,3.,工作类别,2.,电商网站,4.,常出现地,1.,房产,3.,理财购买,2.,小区档次,评估目标客户的消费能力和资产水平,生活习惯,家庭,/,朋友圈,生活习惯,5.,饮食习惯,7.,手机信用,6.,出行习惯,1.,活跃时间,3.,服饰购物,2.,休息时间,1.,家庭购车,3.,社交广度,2.,配偶特征,描绘目标客户的交往圈、家庭圈和生活习惯,身份特质,基本情况,兴趣爱好,6.,饮食,8.,阅读,7.,旅行,9.,社交,1.,电商,3.,理财,2.,金融,4.,旅游,1.,性别,3.,归属地,2.,年龄,10.,视频,5.,团购,12.,运动,11.,游戏,观察与目标客户特征紧密相关的身份状态和兴趣爱好,底层标签分类,上层应用标签分类,精准营销数据基础标签分类个人价值购买力标签资产标签1.月消费,62,精准营销数据基础,标签管理,建立,标签管理系统,,统一管控用户上网行为标签规则的维护及共享。加强对网络数据的深入解读,实现用户网络帐号识别、提升异网用户识别能力,陆续建立,“个人交往圈模型”、“企业员工关系模型”、“宽带异网号码识别模型”,,实现数据价值提升。,账号识别,900,万,800,万,100,万,xxx,万,异网识别,异网手机号:,300,万,移动,APP,4,000+,百度地图,微信,QQ,易信,支付宝,网站浏览,1,8000+,新浪,网易,淘宝,天涯论坛,电信网厅,搜索行为,7,000+,P2P,理财,小苹果,电信套餐,宝马,上网终端,2,000+,小米,4,MacBook,小米盒子,iPhone 6 Plus,智能电视,标签系统,中国电信宽带,描述人与人之间的紧密程度,描述企业与人之间的紧密程度,个人交往指数模型,生活圈,交往指数,0.65,工作圈,交往指数,0.65,综合圈,企业交往指数模型,通话,频度,地理位置重合度,通话,广度,通话频度,=,(,权重,a *,本月,CDR,日数,+,权重,b*,本月,CDR,周数,+,权重,c*,本月,CDR,旬数,)/,本月天数;,交往指数,=,系数,A*CF+,系数,B*,时长,+,系数,C*,次数,) +,系数,D*,短彩信次数;,通话广度,=,手机号码与同一企业内固定电话通话的固话号码个数;,地理位置重合度,=,手机工作时间驻留时间最长的基站位置与企业所在物理网格重合度;,精准营销数据基础标签管理 建立标签管理系统,统一,63,关键人物识别,黄名单,红名单,构建人群的“安全系数”,社交账号监控,购买管制刀,具、炸药等,频繁翻墙访,问境外网站,多账号造谣,宣传行为,绿名单,可疑危险分子,持续动态追踪,锁定真实人员,通信行为监控,跟踪行为轨迹,经常插拔,卡,非正常时,段上网,位置定位,锁定自然人,用户画像案例:,关键人物识别及管控,发表不良,言论,搜索敏感,词汇,通话详单,中有警方,监控对象,关键人物识别黄名单红名单构建人群的“安全系数”社交账号监控购,64,案例:电信云公司旅游目的地画像,通过对,移动互联网网关日志,的解析和过滤,对游客访问的旅游类内容进行识别。,对重点旅游网站,URL,进行解析过滤,并通过,爬虫工具,对,URL,对应网页进行采集下载,获取,URL,对应互联网内容信息。,对采集到的海量互联网内容进行分析清理,通过,文本分类和分词工具,获取网页中的有用信息,并进行归类整理,互联网分析,内容分析,文本分类,中文,分词,以用户生活需求为出发点,精准识别用户动作,聚合企业内外部海量数据,基于用户行为广度和深度识别,还原客户场景,。,URL,上网日志,互联网,信息资源,URL,获取,获取旅游网站,URL对应,的互联网内容,网页内容分类,用户行为识别,行为深度解析,获取游客上网行为,旅游网站内容解析,热点内容归类,用户行为识别还原,旅游目的地画像系统,基于全互联网环境数据,借助网络爬虫、机器学习等大数据挖掘技术,,,围绕旅游目的地为对象,,对相关的新闻热点、热门路线、满意度评价等实现实时分析。,案例:电信云公司旅游目的地画像通过对移动互联网网关日志的解析,65,省内:,徐州智慧旅游中央管理平台,苏州吴江智慧旅游项目,牛首山客情大数据项目,省外:,邢台大峡谷智慧景区建设项目,河南,焦作市智慧旅游,建设项目,山东长岛智慧旅游项目,客流来源分析,提供从省、市、区县等不同粒度的客流来源构成分析,客流对比分析,客流密度监控,以热力图、趋势图等多种展现形式对景区客流进行实时监控和预测,游客画像,基于电信大数据实现人群画像(年龄、性别、兴趣) ,助力个性化服务和精准营销。,停留时间分析,基于信令数据,对景区内游客的停留时间进行统计,并结合其他维度进行关联分析,游客轨迹分析,基于相关景区、节假日、天气等多种维度进行客流量、停留时间的对比分析,进行游客不同景区以及景区内不同景点的路线轨迹跟踪分析,为旅游接待、景区管理、路线规划、等提供数据依据及支撑,案例:智慧旅游大数据,基于用户行为画像及,位置数据进行实时处理,海量分析,为,旅游管理部门、景区,提供实时客流监控、,客源分析、,目标地关联性分析、停留时长、人群特征等统计分析,,为管理者,对,旅游接待、景区管理、路线规划、,内部设施布置,、,营销推广策略,提供数据依据和支撑。产品已成功在省内外广泛推广。,成功案例,客流来源分析客流对比分析 客流密度监控游客画像停留时,66,基于各行业各场景采取打分形式的风险分值总分,和划分等级方式的五个子模型。,对个人的合规性、还款能力、还款意愿、风险行为等相关指标进行分析,形成个人信用模型,为金融机,构提供信用评估分析,行为,偏好,消费,能力,履约,意愿,高危,行为,身份,特征,人脉,关系,“五维一高”体系,高危行为模型的最,大价值在于,当用,户出现高风险行为,时,模型可以及时,感知并进行相应的,操作。,根据不同应用场景,确定各场景风险控制要求,授信额度及,直接盈利要求。,输出适用于各场景的风险分值评估模型。,个人风险分值评估,基于各行业各场景采取打分形式的风险分值总分,和划分等级方式的,67,年龄,性别,在网时长等,号码数量,政企,行业,身份特征子模型,主要刻画反映用户的身份是否真实可靠、社会属性、电信属性,行,业,德,尔菲,熵值分析,+,身份特征得分,综合分析输出身份特征得分,生成身份,特征得分,要刻画反映用户是否具有足够的财富和综合能,个人风险分值评估,年龄性别在网时长等号码数量政企行业身份特征子模型主要刻画反映,68,行为偏好子模型,刻,画行为偏好是否稳,定,是否多样,用户行为是否活跃,评估指标主要包括通话行为,流,量行为,上网行为等。,履约意愿子模型,用户是否按时履行约定,历史违约状况,评估指标主要包括用户的欠费行为,恶意投诉等。,个人风险分值评估,行为偏好子模型刻画行为偏好是否稳定,是否多样,用户行为是否活,69,人脉关系子模型,主要刻画用户的一度人脉与二度人脉,以及用户的好友身份特征。,高危行为子模型,主要刻画与用户信用和违约相关的高危行为。,风险地,风险网址,风险电话,搜索风险词,个人风险分值评估,风险地风险网址风险电话搜索风险词个人风险分值评估,70,商业分析报告,信息开放共享,利用中国电信,观云大数,据平台,,解决住宿、,餐饮、零售等行业海,量数据汇聚、采集、,
展开阅读全文