资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据从何而来,互联网技术发展现状?,什么是大数据、云计算与大数据有什么关系、大数据类型?,大数据如何获取、存储、处理、分析的技术?,大数据怎么用、未来发展趋势?,Question,互联网发展趋势,物物互联,人人互联,人物互联,2024/11/27,4,风云变幻中,2024/11/27,6,1.,大数据,(,Big Data,),所谓“大数据”(big data)指的是这样一种现象:一个公司日常运营所生成和积累用户行为数据“增长如此之快,以至于难以使用现有的,数据库管理,工具来驾驭,困难存在于数据的,获取,、,存储,、,检索,、,共享,、,分析,和,可视化,等方面。”这些数据量是如此之大,已经不是以我们所熟悉G或T为单位来衡量,而是以,P、E,或,Z,为计量单位,所以称之为大数据。,大数据的,4V,特性,体量,Volume,多样性,Variety,价值密度,Value,速度,Velocity,非结构化数据,的超大规模和增长,总数据量的,8090%,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务智能,(,咨询、报告等),实时分析,而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,2.什么是云计算?,云计算,将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。,云计算的“云”就是存在于,互联网上的服务器集群上的资源,,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等)本地计算机只需要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并将结果返回本地计算机。,3.大数据类型:结构化与非结构化数据,数据模型:,结构化数据:二维表(关系型),半结构化数据:树、图,非结构化数据:无,结构化数据:先有结构、再有数据,半结构化数据:先有数据,再有结构,虚拟数据库,信息管理系统(,HIS,),电子病历,2024/11/27,销售管理系统,11,关系数据库曾经是万能的,关系数据模型,CRM客户关系管理,实时监控平台,远程监护平台,Google 大数据处理技术,作用:,- 成本降低,能用PC机,不用大型机和高端存储,- 软件容错硬件故障视为常态,通过软件保证可靠性,- 简化并行分布式计算,无须控制节点同步和数据交换,- Google文件系统GFS(Google File,System),- 并行数据处理MapReduce,- 结构化数据表BigTable,- 分布式锁管理Chubby,技术变革,云计算:把集中的运算分散开来,物联网:把分散的设备连在一起,Hadoop,:把大数据切成小模块,大数据处理技术,Hadoop,开源Apache项目,灵感来源于Google的三篇论文:BigTable、MapReduce、GFS;,Hadoop核心组件包括:,-分布式文件系统(,HDFS,),-分布式数据库存储系统(,Hbase,),-分布式计算构架(,MapReduce,),使用Java编写,运行平台:Linux,HDFS 体系架构,HDFS:,-,分布式文件存储系统,,存储海量的数据;,- 数据冗余,硬件容错;,- 流式的数据访问;,- 存储大文件;,- 适合数据批量读写,吞吐量高;适,一次写入,多次读取,顺序读写。,- 不适合交互式应用,低延迟很难,满足不支持多用户并发写相同文件。,HDFS 分布式文件系统,大数据系统 整体架构,Data,Value,:,数据挖掘与分析,数据挖掘,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但潜在的有用信息和知识的过程。,数据挖掘与分析,知识发现,(KDD)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。,数据挖掘是数据库知识发现(KDD)中不可缺少一部分,数据挖掘基本方法,预测建模,:将已有数据和模型用于对未知变量的语言。(1)分类,用于预测离散的目标变量(2)回归,用于预测连续的目标变量,关联分析,:反映一个事物与其他事物之间的相互依存性和关联性。用来发现描述数据中强关联特征的模式。,聚类分析,:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似,异常检测,:识别其特征显著不同于其他数据的观测值,实战项目1 Python 网络爬虫,网络爬虫,是一个自动提取网页的程序/脚本,它可以搜索引擎从万维网上下载网页,是搜索引擎的重要组成。,做为通用搜索引擎网页收集器(Google、Baidu),做垂直搜索引擎(51job、zhaoping、chinahr),科学研究:在线人类行为,在线社群演化,复杂网络,数据挖掘领域的实证科学研究,快速收集大量数据,Task:携程数据库(游客数据、点评记录),实战项目2 数据分析及可视化应用,1.Python2012年美国总统大选数据分析,2.动态气泡图的实现,3.热力感应图(heatmap.js),管理大数据“易”,理解大数据“难”,目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据,资源化、知识化、普适化,的核心,.,非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,.,大数据驱动架构概念图,2024/11/27,27,大,数据存储,云计算技术是最理想的解决方案,!?,2024/11/27,28,社会计算研究,2024/11/27,29,城市计算的基本框架,2024/11/27,NWU,智能信息处理研究所,30,数字足迹与城市计算,出租车,GPS,数字足迹,:不同时刻的城市热点检测、城市区域的功能特性分类、路径规划、出租车司机寻客策略、异常轨迹检测、城市道路交通流量预测等;,移动社交网络数字足迹,:探索个人和群体移动模式、群体事件监测、个性化的兴趣点推荐和搜索服务、交叉重叠式社群的发现与诠释等;,移动电话数字足迹,:测量城市交通系统效率、优化城市道路、人的移动性、地区经济发展、传染病预测、监测群体移动位置预测群体事件等。,大数据时代的发展趋势,大数据时代的发展趋势,大数据时代的发展趋势,大数据时代的发展趋势,
展开阅读全文