L省交通厅-大数据项目V1

资源描述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,L,省交通厅大数据平台规划,议题,我们对交通大数据平台的理解,建设思路,1,2,应用规划与部署,4,总体规划,3,智慧交通,-,大数据,方案优势,实时监测、智能监控交通信息，轻松处理海量数据,应用负载适应性强，广泛兼容，易于扩展,交通信息智能处理，及时发布,动态数据整合与共享,高可用性、高稳定性,客户价值,海量数据处理和实时分析,全网、全天候覆盖,动态监控、智能导航,交通拥堵侦测与预警,跨地区信息共享、资源整合,显著降低软硬件购置成本,Hadoop,家族,大数据服务,交通数据源,浮动车计算分析,出租汽车客流分析,议题,我们对交通大数据平台的理解,建设思路,1,2,应用规划与部署,4,总体规划,3,文件,存储,分析,搜索,挖掘,数据高铁,交换,实时,数据库,监控,open-falcon,以,Hadoop,为核心，融合其他技术平台系统，实现超融合一栈式企业级数据分析解决方案。数据存储，数据分析，可视化，运维监控，机器学习，人工智能。全面的一栈式解决方案。实现平台级融合，所有平台一统底层数据交互格式，统一元数据管理，数据治理。全面拥抱开源技术栈。,展现,大数据平台具备的关键能力,基础的大数据平台能力,：,具备管理大数据平台主机集群的能力，能够按照需要，动态分配资源，具备多租户管理能力，数据安全管理能力；同时具备处理海量数据的能力，可以根据需要，对不同业务部门不同的应用，开放不同的数据。,能力一,大数据采集：,大数据平台容纳百亿级数据量，能够从内部和外部的各种数据源中获取数据,能力二,大数据计算分析：,海量数据实时和离线分析计算，秒级响应。,能力三,关键能力一：基础大数据平台管理能力,大数据总体架构,(,数据银行,+,数据高铁,),通过八大类接口实现大数据平台存储能力和计算能力的开放。,查询,开发框架,访问服务,(DataBank UI),JDBC/ODBC,接口,数据服务,(DataBank API),实时数据,数据库,搜索引擎,认证管理,安全,/,管理,权限管理,审计管理,图形化安装部署工具,商业支持,报警,结构化数据,数据库,API,流,传感器,半结构化数据,非结构化数据,日志,网页,图片,二进制,视频,音频,管理API(安装/监控/配置),文档,HADOOP-HDFS/YARN/ZOOKEEPER,(,POWER/EC,),数据访问,REST-API,接口,HBASE,数据仓库,交互分析,数据挖掘,工作流,数据挖掘,Spark-SQL,kylin,phoenix,opentsdb,Solr,elasticsearch,MLlib,Spark-R,Redis,HIVE,SPARK,STORM,KAFKA,crate,文档解析,拼音提示,数据同步,搜索统计,实时接入,实时展现,统计分析,实时预警,ETL,工作流,权限控制,增强函数,工作流,深度学习,可视化,访问工具,开发框架,管理工具,交互工具,展现工具,sqoop,kettle,JAVA,webservice,kafka,flume,NIFI,结构化数据,半结构化数据,非结构化数据,关键能力二：大数据采集,数据来源,数据存储,实时地理信息,校验数据,拍照数据,基础数据,定期更新纬表,分布式消息队列,Kafka,sqoop/kettle/webservice/ API/nifi/restapi,数据接入,文本数据,数据库,爬虫数据,网络数据接口,其它,flume,大数据,Cluster,大数据,集群,大数据集群,关键能力三：大数据分析,数据来源,数据存储,实时地理信息,校验数据,拍照数据,基础数据,文件,其他,redis,消息,GPS,用户指标,数据适配转换,分布式预处理,消息解析,消息过滤,数据转换,数据落地,消息中间件,Storm,流处理集群,消息解析,策略匹配,数据清单,指标汇总,定期更新纬表,分布式缓存,定义数据,关系数据,规则数据,实时数据,外挂处理程序,数据处理,实时计算,应用层,统一接触平台,/,地理位置信息,电子大屏,汽车型号,用户特征,F5,代理,tomcat1,tomcat2,tomcat3,准时实时接口,用户位置,用户轨迹,疲劳驾驶,驾驶速度,文本数据,数据库,爬虫数据,网络数据接口,其它,sqoop/kettle/webservice/ API,数据接入,大数据集群,可视化,E,charts,议题,我们对运营商大数据平台的理解,建设思路,1,2,应用规划与部署,4,总体规划,3,目录,1,2,3,架构规划,数据接入,规划,硬件与网络,规划,技术架构路线的选型存在 “开源”与“混搭”两种策略,可结合各省情况进行选择,策略一,策略二,开源模式（,Hadoop,）,坚持开源技术，自主掌握核心技术,混搭模式（,Hadoop+MPP+,传统数据仓库）,按场景选型，混搭架构,技术特征,1,技术特征,2,技术特征,3,技术特征,X,Hadoop,Mysql,DB2/Oracle,MPP,应用场景,1,应用场景,2,应用场景,N,特点：,1,，免费使用，拥有自主的知识产权，需要自建运维团队，有一定风险；现有人员需要技术转型，存在技术门槛,2,，符合互联网精神，汇集众人智慧，正在逐步完善,3,，,Hadoop,目前对于多维度数据自助分析、集市等应用场景下的表现逊于,MPP,4,，,Hadoop,适合大规模集群使用,特点：,1,，需购买闭源的商业软件,/,运维服务；,2,，需要根据不同应用场景搭配组合，形成优势互补；,3,，应用场景并不是一成不变且异构集群将造成额外的数据冗余和数据同步，可能成为系统瓶颈,4,，,MPP,在大规模集群（超过,100,个节点）下的可用性还有待验证,适用：自主掌握核心技术,适用：对海量数据的特定分析较多,大数据平台体系架构（,Level 1,）,借鉴互联网架构，引入成熟开源框架，基于,x86,平台构建分布式计算与存储平台，,在,保障系统可靠性（,High-Availability,）和可,水平扩展,(Scale-Out),基础,上,，同时大幅降低系统总拥有成本（,TCO,）,。,技术选型及亮点,1.,采用,Kafka,消息队列,框架，实现,地理位置数据,采集与解析,，,30s,；,2.,采用,近似实时的,flume,框架对接,Kafka,、实现,位置,信息实时采集,入库,Hadoop,集群，周期性存储数据,。,3.,在,1,个集群上承载批处理和流处理，基于,hadoop,资源管理可最大效率利用资源，实现消峰填谷，实现异构集群架构。,4.,在,Hadoop,基础上，引入,Spark,、,Storm,计算框架，通过,Hive,，,mllib,，,storm,实现,海量数据,实时,计算,和历史数据的统计分析；引入,Redis,内存数据库，结合,Storm,，实现基于,LBS,的实时动态感知用户地理位置以及用户统计行为数据，深度挖掘用户价值。,5.,提供,Open API(JDBC/ODBC/RestAPI),，制定计算与存储资源共享与开放标准，结合丰富架构和运维经验，基于,Open API,构建,OCI API,，,为后续数据资产运营奠定基础。,6,，,基于,echarts,的开源框架,展现,。,7,，支持弹性扩展架构，可有效保护现有投资；同时，积极的,引入,nosql,数据库,hbase,，,利用分布式数据库优势实现数据快速访问，为未来技术替换缩减投资奠定基础,。,技术架构设计,(,流计算场景，需求驱动,),技术架构,关键问题,解决方案,数据整合关键技术说明,1,、功能：,通过大数据计算高效计算、数据挖掘、复杂事件处理、用户行为识别,4,大功能模块满足各类业务场景,批量数据运算以及实时计算的需求,2,、技术,1,）开源技术,全面采用开源技术节省成本。依赖于开源社区保障系统安全，社区的高速发展针对现,场应用可以快速更新补丁，并且可以根据业务场景的需要有针对性的选择相应技术,2,）内存计算,引入,SPARK,实现基于内存的计算，通过灵活的,scala,语言实现小数据集的秒级查询，并于,Hadoop,完美结合,3,）统一框架,以,hadoop,技术为核心，基于统一资源调度框架,Yarn,，集成批处理（,hadoop,）、内存计算（,spark,）、实时计算（,storm,），机器学习（,mllib,），数据仓库,(SQL on Hadoop),，集群监控运维，数据可视化为一体，简化系统架构实现资源的统一管理。实现真正的一栈式大数据解决方案。,数据多样性、高效、高吞吐量、低延迟且支持高可靠性、水平扩展，弹性扩容,Hadoop,如何做到数据容灾,20,hadoop,把文件拆成不同的小块，一个块多个副本，分别部署在不同的机器上，而只使用其中的一个块。,datanode,定期向管理中心发心跳以确保可用，假如一台机器坏了，或硬盘坏了，调度中心会直接调用其中的一个副本块，同时快速随机选一台可用的机器复制副本。,因为走局域网带宽，可以灵活设置恢复时间，性能几乎不受任何影响,基于,Hadoop,框架的开放与共享,共享和开放的目的是为了充分利用平台的存储与计算资源，通过开放的,API,接口调用，实现不同平台的数据交互，满足不同业务的需求。,对共享于开放带来的任务管理复杂、多租户资源争用以及安全问题，分别通过任务统一管理、调度，对象管理和用户配合管理以及用户认证和用户权限管理来解决,平台（共享、开放）,Zookeeper,统一管理注销,接口统一封装,用户（组）操作权限封装,LADP,、,Sentry,封装,作业管理,配额管理,监控管理,对象管理,用户权限管理,用户认证,接口类别,关键技术要求,技术架构应对,作业管理,对作业进行统一操作管理,采用,Zookeeper,技术，实现批处理平台作业的统一注册和注销，并通过,Zookeeper,实现作业的提交执行和状态监控,对象管理,可针对,HDFS,文件、,MR,任务、,Hive,数据表和,Hbase,数据表等对象进行操作,通过对,HDFS,文件、,MR,任务、,Hive,数据表和,Hbase,数据表等对象原生态接口接口的统一封装，实现相关对象的对外操作开放,用户权限管理,支持用户、用户组创建，并能为用户和用户组分析针对操作对象的各类权限,提供创建、注销用户,/,用户组、加入、剔重、查询用户,/,用户组；,HDFS,文件、,MR,任务、,Hive,数据表、,Hbase,数据表授权和权限查询等对外服务接口，以此支撑大数据平台的用户统一权限管理。,用户认证,支持通过用户名和密码进行用户认证,提供,LADP,对外用户认证接口，平台通信采用,Kerberos,认证，同时结合,Hadoop,开源组件,Sentry,，实现操作对象的细粒度基于角色的安全控制。,配额,支持对用户,/,用户组的存储资源分析和计算资源分配,引入,Yarn,技术框架，对存储资源和计算资源的一调配，按用户（组）实现资源隔离，实现多任务高效地运行在一个的集群上,监控,支持针对设备、平台、作业和对象的全面监控,通过,Agent,方式实时采集监控指标信息，同时开放插件注册,API,，支持自定义监控指标,目录,1,2,3,架构规划,数据接入规划,硬件与网络,规划,内部数据接入思路,用户移动轨迹识别涉及数据,数据域,用户资料库,GPS,电子警察抓拍,现状了解,建议,近期工作重点,汽车进入敏感区域识别涉及数据,数据类型：敏感区域资料，用户信息库,采集周期：,按日采集按日数据库抽取；？,已提供数据：文件形式数据,(,目前,),待已接入：,GPS,位置信息,采集周期：,30s,从价值和用途方面考虑数据接入，现阶段最有价值的数据为用户资料数据，其次是,GPS,变更数据,后期根据业务场景需要，逐步接入其它系统数据。,阶段一,：,GPS,数据接入,阶段二,：用户资料库数据接入,阶段一,：,GPS,数据接入；,阶段二,：敏感区域数据；,阶段三,：用户资料库数据；,暂无。,外部数据接入思路,互联网资源涉及数据,数据域,互联网数据,合作平台,现状了解,建议,近期工作重点,第三方合作涉及数据,阶段一,：运营商数据,阶段二,：整合数据、客户分析报告、渠道拓展、用户特征，用户移动轨迹等。,数据未接入,从价值和用途方面考虑数据采集，现阶段最有价值的数据为用户汽车资料库数据，建议优先接入能完善用户标签体库。,阶段一,：汽车资料库数据；,阶段二,：用户资料库数据,未接入：汽车标签库数据,；,采集周期：定期,采集；,后期根据业务场景需要，逐步接入。,目录,1,2,3,架构规划,数据接入规划,硬件与网络规划,主机配置原则,1.,估算建设规模,2.,梳理各种输入,4.,确定主机数据,数据量计算：,根据卡口数据,GPS,信息等、接入数据源及数据量，估算系统建设规模（各种数据的日吞吐量和峰值吞吐量）,梳理接口数据源与产品模块的对应关系：,根据产品模块功能划分，梳理数据流转过程，确定各产品模块的输入数据量大小（包括日吞吐量和峰值吞吐量）,3.,推算处理能力,推算单主机处理能力：,根据各卡口和实验室实测和各监控终端的处理能力，以及各,监控终端,对相关硬件的侧重点（内存数据侧重内存空间；流处理平台侧重,CPU,和网络带宽、批处理平台侧重,CPU,、内存、硬盘空间、磁盘,IO,读写速度和网络带宽等）推算出设备的处理能力；,根据单设备处理能力计算：,根据单设备处理能力和峰值数据量计算所需设备的数量；,根据存储空间需求计算：,根据产品模块存储空间需求和存储位置需求（内存,/,硬盘）计算所需设备数量；,集群共用：,同一网络内且平台类型相同，采用集群共用的方式,（如批处理和内容分类服务同属于内网且同基于,Hadoop,平台实现），在满足数据处理时效的前提下，通过,YARN,框架的,RM,进行管理；,相同配置共用：,不建议在同一集群中使用配置不同的机器,，虽然集群可以工作但性能会出现“短板效应”，实施、维护及管理难度均会提升，如磁盘空间不一样，会造成数据倾斜，严重影响性能。,根据处理能力、存储空间和是否共用集群确定硬件配置，同时考虑备用主机需求。,网络配置原则,1.,估算建设规模,2.,计算带宽需求,数据量计算：,根据卡扣数据,GPS,信息等、接入数据源及数据量,，估算系统建设规模（各接口的日吞吐量和峰值吞吐量）,计算各产品模块的输入、输出带宽需求：,根据各监控终端模块功能划分，梳理数据流转过程，确定输入、输出带宽需求（主要考虑峰值情况）,3.,结合平台特点,流计算与批处理共用集群需要重点保证低延迟和高吞吐：,流计算平台的特点是必须满足数据处理的时效性，因此重点是保障低延迟；批处理平台的特点是必须满足对大容量、多样性数据的处理和存储，因此重点是保障高吞吐；,基于,HDFS,弹性存储系统,10G,万兆以太网,千兆,以太网,管理节点,管理节点,数据接入节点,IO,节点,存储,120TB,磁盘,5,计算节点,Hadoop,DB Server,FC,SAN Switch,已有系统,新建大数据系统,DB Storage,外部用户,内部用户,总体方案构成,大数据集群,大数据管理平台,总体方案概述,Hadoop,计算集群基础架构,POWER8,服务器，,5,个计算节点,弹性存储，总的存储空间约,120,TB,；,基于万兆,的计算网络；,Hadoop,计算集群管理平台,基于大数据的高性能计算集群管理平台，新建大数据集群环境进行高效率的统一管理；,大容量数据存储平台,新建的数据库存储平台,120TB,管理节点,接口节点,计算存储,节点,1,计算存储,节点,2,计算存储,节点,3,计算存储,节点,4,计算存储,节点,5,千兆业务网,万兆业务网,管理备份节点,Hadoop集群硬件系统拓扑,基于预期业务参数，计算数据量级,存储周期,数据增量,/,年,数据格式,总存储,HDFS,总存储,Total linux os,主机数量,N,3,年,3T,gz,33.75T,27,T,N*2*500G,3*Datanode+2*Naemnode=5,10,年,3T,gz,140.625,T,112.5,T,N*2*500G,5*Datanode+2*Namenode=7,20,年,3T,gz,281.25T,225T,N*2*,500G,11*Datanode+2*Namenode=13,举例：计算公式，存储,10,年,，每天,1,T数据增量：,HDFS总存储=,3,T*3*,10,+（,3,T*3*,10,*2,5,%）；HDFS总存储=,112,.5T,Datanode数n=,112.5,T/12*,2T,=,5,台;2台Namenode,1台客户机,总共,5,+2+1=,8,台,注意：为了保证集群的稳定性，最低要求,3,台,datanode,；,这里仅仅针对,GPS,一种数据源评估。,大数据平台硬件配置估算及建议,XXX,交通厅大数据平台硬件配置建议,存储规划,议题,我们对交通大数据平台的理解,建设思路,1,2,应用规划与部署,4,总体规划,3,大数据平台应用场景,实时判定车的位置是否在敏感区,敏感区来自业务系统设置,是指定设施,的,GPS,每日新增,8G,左右的空间，一个月,250G,左右，一年约,3T,左右。目前平均在线车辆目标,3,万左右，总体车辆数在约,7,万。车辆每,30,秒回传一个位置,;,场景,1-,敏感区系统判定,大数据,Cluster,敏感区域数据库,NOSQL/Hbase,敏感区车辆信息报警系统,根据告警等级通过短信，电话，,app,推送等渠道；信息送达到驾驶人员。,实时刷新车辆位置,通过卫星定位，汽车终端等收集汽车行驶数据上传服务器,数据采集程序，实时获取数据，流入,Hadoop,生态系统,嗨，你马上进入敏感区域，请绕行，通过,xxx,路线行驶,根据右边拟物化的图，来讲解数,据处理流程；,1,、汽车在地图上移动，,GPS,卫星定,位信息实时推送到数据收集终端，数,据终端实时上报数据到服务器生成文,件。,2,、大数据集群，通过,Kafka,集,群提供的,API,实时监控是否有新的数,据生成，如果有新数据生成就推送到,storm,集群。,3,、通过,storm,提供的实时流计算特性,编写计算模型，每条数据过来实时解,析生成地理位置，通过从数据库,(redis),获取人为规定敏感区域位置信息，通,过模型，计算敏感区域中心点到实时汽,车位置信息之间的距离，判定汽车是,否进入敏感区域。,4,、把实时计算的位置信息和进入敏,感区域汽车数据存储到,hbsae,数据库,5,、通过敏感区车辆报警系统对即将进,入敏感区域的汽车发送警告类短信。,6,、通过前端应用实时刷新展现汽车,在地图上的位置,Kafka,phoenix,大数据平台应用场景实现方式：判断车辆敏感位置,实现平台：大数据,(Hadoop+Hbase+Storm,Redis,phoenix )+JAVA,预估数据量：,3T,年,(,根据,GPS,一种数据源评估,),存储周期：,3,年,(,考虑对历史数据全量分析，交通运行规律,),存储大小：,9T,1.25*3,副本 ,33.75T,需要的主机数量：,(10*3T+(10*3T*0.25),3,副本,/12*2T,=3Datanode+2Namenode+1,接口机,6,感谢聆听,

展开阅读全文

L省交通厅-大数据项目V1

最新文档