大数据技术及应用简介课件

上传人:txadgkn****dgknqu... 文档编号:241685021 上传时间:2024-07-15 格式:PPTX 页数:57 大小:9.56MB
返回 下载 相关 举报
大数据技术及应用简介课件_第1页
第1页 / 共57页
大数据技术及应用简介课件_第2页
第2页 / 共57页
大数据技术及应用简介课件_第3页
第3页 / 共57页
点击查看更多>>
资源描述
1大数据技术及应用简介大数据技术及应用简介12目录1.大数据概述2.大数据处理、分析与挖掘3.大数据平台技术4.大数据应用目录大数据概述23什么是数据?数据是所表达的对象的信息载体,记录对象的属性特征。学生成绩及排名表什么是数据?数据是所表达的对象的信息载体,记录对象的属性特征34数据有多样化的表达形式数据有多样化的表达形式45数据信息知识智慧数据 信息 知识 智慧56数据的大小1bit(比特)=1位二进制,0和1两个状态1Byte(字节)=由8bit(位),例11001010,可以表达256个状态,2的8次方1KB(kilobyte)=1024B1MB(megabyte)=1024KB(兆字节)1GB(gigabyte)=1024MB(千兆字节)1TB(terabyte)=1024GB(百万兆字节)1PB(petabyte)=1024TB(百亿兆字节)1EB(Exabyte)=1,024PB=1,152,921,504,606,846,976Bytes1ZB(Zettabyte)=1,024EB=1,180,591,620,717,411,303,424Bytes1YB(Yottabyte)=1,024ZB=1,208,925,819,614,629,174,706,176Bytes数据的大小1 bit(比特)=1位二进制,0 和 1 两67大数据对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题CRM客户数据客户分群客户服务客户行为ERP财务数据人事数据采购数据WEBWeb日志动态定价销售网络网络营销行为定向营销动态营销渠道BigData传感器/RFID/移动终端用户点击流数据情感数据用户生成内容用户间交互&上传空间GPS数据图像/视频语音/文本SMS/MMS数据多样性及复杂性增加大数据=交易数据+交互数据+观测数据大数据对数据的使用者来讲,如果数据集超出了使用者所拥有的信息78大数据V特征Volume数据规模大Velocity数据变化快Variety数据类型复杂Value价值大数据V特征VolumeVelocityVarietyVal89大数据的价值(Value)未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。美国医疗保健n每年产值达3000亿美金n每年生产率增长约0.7%制造业n最多可节省50%的产品研发、组装成本n最多可节约7%的营运资金美国零售业n净利率增长可能高达60%+n每年生产率增长0.5-1.0%欧洲公共部门管理n每年2500亿欧元n每年生产率增长约0.7%全球个人定位数据n1000亿+的服务供应商收入n为终端用户带来高达7000亿美的价值大数据的价值(Value)未来大数据的产业规模将会至少以万910国家大数据战略十八届五中全会确定实施国家大数据战略十三五规划纲要提出,实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用。建设国家大数据平台、数据中心等基础设施。国家大数据战略十八届五中全会确定实施国家大数据战略1011“大智移云”时代大数据、人工智能、移动互联网和云计算是新一代信息产业发展的重点方向。2015年8月31日:促进大数据发展行动纲要2015年12月29日:“互联网”行动的指导意见2017年7月8日:新一代人工智能发展规划2017年4月10日:云计算发展三年行动计划(20172019年)2015年5月8日:中国制造2025“大智移云”时代大数据、人工智能、移动互联网和云计算是新一代1112互联网+智能制造智能客服智能设计智能销售智能运输智能仓储智能采购智能制造互联网+智能制造智能客服智能设计智能销售智能运输智能仓储智能1213目录1.大数据概述2.大数据处理、分析与挖掘3.大数据分析的挑战及技术创新4.大数据分析平台及应用目录大数据概述1314数据资源向信息、知识、价值转换的流程数据采集数据存储数据处理分析挖掘应用数据加工处理分析的过程是数据价值提升的过程数据资源向信息、知识、价值转换的流程数据采集数据存储数据处理1415数据采集人工采集自动化采集数据采集数据存储数据处理分析挖掘应用数据采集人工采集自动化采集数据采集数据存储数据处理分析挖掘应1516数据存储云存储中央磁盘存储数据采集数据存储数据处理分析挖掘应用数据存储云存储中央磁盘存储数据采集数据存储数据处理分析挖掘应1617数据处理、转换和融合数据采集数据存储数据处理分析挖掘应用数据处理、转换和融合数据采集数据存储数据处理分析挖掘应用1718数据分析与挖掘关联分析聚类分析分类模型预测模型数据采集数据存储数据处理分析挖掘应用数据分析与挖掘关联分析聚类分析分类模型预测模型数据采集数据存1819对象及属性社交群体的属性:1.基本属性性别、年龄、职业、住址、收入、2.喜好读书、旅游、交友、3.行为购买记录、行为记录、手机日志4.观点对某些事件的观点社交网络图对象及属性社交群体的属性:社交网络图1920对象数据的表达统计特征:平均年龄、男女比例、收入分布、有房贷比例聚类:根据客户的属性特征值将客户分组分类:从数据中学习是否投资的分类模型预测:预测客户是否投资对象年龄 性别收入子女数有无车房贷是否投资148女175461无0Y240男30085.1 3有1N351女16575.4 0有0N423女20375.4 3无0N557女50576.3 0无0N657女37869.6 2无0Y722男8877.07 0无0Y858男24946.6 0有0N937女25304.3 2有0N1054男24212.1 2有0N对象数据的表达统计特征:平均年龄、男女比例、收入分布、有房贷2021分类模型的学习及运用21学习算法训练样本分类模型分类模型新数据分类结果分类模型的学习及运用21学习算法训练样本分类模型分类模型新数22目录1.大数据概述2.大数据处理、分析与挖掘3.大数据平台技术4.大数据应用目录大数据概述2223计算机系统的发展计算机系统的发展2324云计算云计算是一种新的大规模分布式计算模式通过网络和资源虚拟技术,实现计算和存储资源集中管理,面向用户提供服务;云计算可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑。传统计算机的问题使用成本高资源分散资源不足资源浪费高能耗环境污染云计算的优点成本低易于普及可扩展能力高节能环保云计算云计算是一种新的大规模分布式计算模式传统计算机的问题 2425云环境(ACloud)云指的是一个计算环境,为计算环境外的用户提供可扩展和可度量的计算资源。用户不需要知道具体的云环境在哪里。如用户在深圳,云环境可能在内蒙古。云环境(A Cloud)云指的是一个计算环境,为计算环境外2526云环境的计算资源物理服务器CPU,内存,外存(磁盘、磁带)虚拟服务器CPU,内存,外存软件服务(应用)物理服务器虚拟服务器软件服务云环境的计算资源物理服务器CPU,内存,外存(磁盘、磁2627虚拟化是云计算的核心技术虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用,多个用户共享物理服务器的资源,但用户对虚拟服务器的体验是独立的计算机,用户不需要了解物理服务器。虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户不需要维护。当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。虚拟化是云计算的核心技术虚拟化技术可以将一个物理服务器当作多2728弹性化和可扩展性弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计算能力随着用户需求变化而增加或减少。水平扩展向外扩展Scaleout增加资源向内收缩Scalein减少资源垂直扩展向上扩展Scaleup提升CPU和内存向下收缩Scaledown降低CPU和内存云服务器弹性化和可扩展性弹性化是云计算的重要特征,计算资源弹性化可以2829面向服务ServiceOrientation云计算的独特特征是服务导向或面向服务,就是将计算和存储资源作为服务供用户使用。服务的收费方式是谁使用谁付钱,例如:付使用存储服务的费用付使用CPU的费用付使用数据库软件的费用用户不拥有这些资源,因此不需维护它们面向服务 Service Orientation云计算的独特2930云服务应用的部署模型公有云Publiccloud私有云Privatecloud社区云Communitycloud混合云Hybridcloud云服务应用的部署模型公有云 Public cloud3031大数据分析的科学问题成千上万个属性超高维问题百万以上甚至超亿个记录1.混合数据类型2.缺省值/噪声3.相关性问题4.Unbalance5.Subspaceproperty6.Uninformativeness12nn-1n-2n-3n-4f1 f2 f3 f4f5大数据集的挑战(BigDataMatrix)大数据分析的科学问题成千上万个属性百万以上甚至超亿个记录123132大数据分布式存储大数据分布式存储(HDFS)大数据文件大数据文件划分大数据文件分布式存储大数据分布式存储大数据分布式存储(HDFS)大数据文件大数3233MapReduce计算模型文件划主节点节点节点节点节点节点用户编程文件文件文件文件文件输出输出文件划分Map运算Reduce运算结果输出程序写成Map和Reduce两步运算1.Map统计单个文本词频2.Reduce综合所有文本的词频(Map)(Reduce)MapReduce计算模型文件划主节点节点节点节点节点节点用3334MapReduce编程特点M RM RM RM RK-means算法Pipeline模式将对象分配给与其最相似的聚类Map过程Reduce过程M RM RM RM RM RM RM RM R输出聚类结果输入数据?是否收敛?重新计算聚类中心点MapReduce编程特点MRMRMRMRK-means 算3435MapReduce编程局限MapReduce编程难以实现决策树递归算法决策树递归算法MapReduce编程局限MapReduce编程难以实现决策3536SparkRDD计算模型RDDisamatrix.Spark RDD 计算模型RDD is a matrix3637RDD分治计算策略和内存计算RDD 分治计算策略和内存计算3738大数据分布式处理与分析算法库HadoopMapReduce算法库K-MeansK-ModesW-K-MeansEWKM聚类算法DecisionTreeRandomForestsLDA分类算法LogisticRegressionRandomForestRegression回归算法FP-Growth关联规则Spark内存计算算法库1.机器学习算法库Mllib2.图分析算法库GraphX3.流数据处理Dstream4.数据库查询SparkSQL大数据分布式处理与分析算法库Hadoop MapReduce3839大数据分析的计算技术挑战当前的大数据技术难于支持TB级以上的大数据建模及统计分析。例如:1000万个对象、1000个变量的数值数据需要1TB的存储空间100亿个对象、10000个变量的数值数据需要1PB的存储空间100亿个整数IDs需要100GB存储空间HadoopMapReduce实现循环迭代的算法计算效率低Spark依赖于内存计算,计算能力受内存约束大数据分析的计算技术挑战当前的大数据技术难于支持TB级以上的3940大数据分析4个领域维度空间的融合统计分析抽样、分布、数据理解集群计算HDFS、Hadoop、Spark、R优化算法优化、参数优化、流程优化、多目标优化领域应用金融、工业、智慧城市大数据分析4个领域维度空间的融合统计分析集群计算优化领域应用4041基于统计感知的大数据存储大数据分布式存储(HDFS)大数据随机样本划分模型(RandomSamplePartition)大数据文件大数据文件划分大数据文件分布式存储基于统计感知的大数据存储大数据分布式存储(HDFS)大数据4142随机样本划分的数据块分布随机样本划分的数据块分布4243大数据子集子集子集子集子集子集子集子集子集子集子集子集子模型子模型子模型子模型大数据划分子集抽样子模型计算子模型加入+j集成模型测试集成模型输出模型返回计算新一批子模型计算操作大数据逼近式集成学习计算框架大数据子集子集子集子集子集子集子集子集子集4344基于数据块抽样的均值统计估计基于数据块抽样的均值统计估计4445逼近式建模精度及效率逼近式建模精度及效率4546基于云计算的大数据分析平台区域智能数据中心区域智能数据中心支持多种终端访问n以区域性智能数据中心及高速互联网为基础设施n以互联网服务体系为架构n以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑n通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。基于云计算的大数据分析平台区域智能数据中心区域智能数据中心支4647大数据分析平台集群大数据分析平台集群4748关键技术云计算引擎高性能海量数据挖掘算法库工作流引擎支撑海量数据处理、挖掘与分析运算提供海量复杂数据处理、分析与挖掘高可扩展算法数据处理分析流程图形化设计数据处理分析流程自动执行资源调度及优化OpenAPI提供数据挖掘平台与第三方应用系统的扩展接口支撑海量数据存储与管理云存储大数据分析平台关键技术云计算引擎高性能海量数据挖掘算法库工作流引擎支撑海量4849数据及信息可视化数据及信息可视化4950目录1.大数据概述2.大数据处理、分析与挖掘3.大数据平台技术4.大数据应用目录大数据概述5051大数据信息服务产业链金融传统应用领域新兴应用领域互联网智慧城市电子商务现代物流制造零售通信智能电网大数据信息服务产业链金融传统应用领域新兴应用领域互联网智慧城5152智能电网大数据基于用电模式分析的用户分群缺失值问题严重的属性ADBC缺失值问题严重的记录缺失值问题显著的记录R1R2AREA16-C16-A16-B海量数据的缺失值发现用电模式及用户分群智能电网大数据基于用电模式分析的用户分群缺失值问题严重的53工业用电年度曲线某电镀有限公司(金属制造业)工业用电年度曲线某电镀有限公司(金属制造业)5354大数据分析一体化平台-应用展示大数据分析一体化平台-应用展示5455大数据在教育领域中的应用教育大数据指的是学生在学习过程中产生的大数据,包括课题教学、课外作业及辅导、网上教学和辅导、课外活动等数据。教育大数据应用主要体现在三个主要方面:学生学习分析学生的分类管理教学效果分析构建学生学习方法模型、学生学习行为模型、学生知识模型、学生与学习知识点关联模型等。根据学生的学习分析结果,对学生进行分类并按学生的类别进行管理。建立学生分类模型,对新入学的学生进行分类和潜力预测。对不同知识点的教学方法、教学策略和效果进行分析,优化教学过程。大数据在教育领域中的应用教育大数据指的是学生在学习过程中产生5556学生学习分析的典型应用1.学生知识建模2.学生学习行为建模3.学生学习过程建模4.学生分类5.知识点建模6.学习组件分析和教学策略分析7.学生学习趋势分析8.个性化学习学生学习分析的典型应用学生知识建模5657谢谢!谢谢!57
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!