大数据研究现状探讨

上传人:无*** 文档编号:120774508 上传时间:2022-07-18 格式:PPTX 页数:44 大小:4.27MB
返回 下载 相关 举报
大数据研究现状探讨_第1页
第1页 / 共44页
大数据研究现状探讨_第2页
第2页 / 共44页
大数据研究现状探讨_第3页
第3页 / 共44页
点击查看更多>>
资源描述
1/42基于云平台(云数据)?基于云平台(云数据)?大数据描述理论、处理与大数据描述理论、处理与分析架构、应用领域?分析架构、应用领域?大数据研究现状探讨大数据研究现状探讨沈来信沈来信2013年年12月月20日日2/42大数据是数据库的自然延伸大数据是数据库的自然延伸?l忘不掉ACID,舍不得Relation,忽视实际应用l潜意识地奉行“一招鲜”(One Size Fits All)l结构化+半结构化/非结构化数据(二八原则)l管理和处理需求 -落实“One Size Fits a Bunch”-查询检索统计挖掘 -离线在线即时连续 -本地远程“云”?可回溯的可视化分析 -事务型与分析型 -多领域应用(教育、医疗、交通)大数据常用的处理框架大数据常用的处理框架l流处理(直接处理)和批处理(先存储后处理)l流处理:数据持续到达,速度快,规模巨大,不永久存储,数据不断变化-难以掌握全貌;代表的开源系统:Twitter的storm、Yahoo的S4、Linkedin的kafkal批处理:MapReduce 1)将问题分而治之 2)把计算推到数据而不是把数据推到计算,避免数据传输过程中产生的大量通信开销3/425/420-大数据与云计算、云平台大数据与云计算、云平台lHadoop(数据密集型分布式应用,Apache)-分布式数据处理MapReduce(并行计算框架)-分布式文件系统HDFS(google的DFS基础上)-分布式数据库Hbase(Nosql,列,BigTable)-数据仓库工具Hive()-分布式锁Zookeeper()-大数据分析平台Pig(提供多种接口)-管理工具Ambari(监控、部署、管理)-Sqoop:在集群与传统数据库间的数据传递00 分布式集群分布式集群Hadoop6/4201 并行计算框架并行计算框架Mapreduce7/4202 分布式文件系统分布式文件系统HDFS8/4203 分布式分布式NoSql列数据库列数据库Hbase04 数据仓库数据仓库Hive05 脚本语言脚本语言Pig Google后后Hadoop时代的新三驾马车时代的新三驾马车lDremel:web数据级别的交互式数据分析系统 列存储、多层次查询树,毫秒级海量数据分析lCaffeine:为Google网络搜索引擎提供支持,能够更迅速的添加新的链接到自身大规模的网站索引系统中,丢弃MapReduce转而将索引放置在分布式数据库BigTable上lPregel:主要绘制大量网上信息之间关系的“图形数据库”13/421-Brighthouse:An Analytic Data Warehouse for ad-hoc QuerieslPVLDB08 Dominik Slezak,Infobright,inc.,PolandlAn Analytic Data Warehouse for Ad-hoc QuerieslColumn-oriented data warehouse with automatically tuned(基于列的自调整数据仓库)lData management:DP、DPN、KNl粗集Rough set+粒度计算Granular Computingl知识网格Knowledge Gridl优化与执行Optimization and Execution14/42DP(Data Pack)、DPN(Data Pack Node)、KN(Knowledge Node)15/42行存储、列存储比较行存储、列存储比较数据块(数据块(Data Packs)知识网格(知识网格(Konwledge Grid)18/42知识网格(知识网格(Konwledge Grid)19/422-Starfish:A Self-tuning System for big data analyticslCIDR11-Herodotos Herodotou,Duke UniversitylTimely and cost-effective analytics(及时,效益)lA Self-tuning system(自调整)lBased on Hadoop(基于Hadoop)lExtensible MapReduce execution engine(可扩展)lPluggable distributed storage engines(插拔式)lMAD(吸引力Magnetism灵活Agility深度Depth)20/423 希尔伯特技术希尔伯特技术Hilbert technologylHilbert technologylOrganizing&Analyzing;Large&Media;Patented;Cost effective;lSearch;Clustering&Categorization;Data Consolidation;Data QualitylUltra High-Speed;Smart Processes;Ad-hoc Flexibility;Scale&ConsolidatelSpeed;Flexibility;Smartness;Scalability25/4227/424-Extreme-Point Symmetric Mode Extreme-Point Symmetric Mode Decomposition Method for Data AnalysisDecomposition Method for Data Analysisl极点对称模态分解方法;在HHT基础上四点创新四点创新:-使用更多个内插值曲线去实现筛选过程(1,2,3)-最后的剩余作为最优曲线,拥有一定数目的极值点,而不是带有自多一个极值点的一般趋势 -使用极值点对称取代包络线对称 -使用基于数据的直接插值方法去计算瞬时频率和振幅 -确定一个优化全局平均曲线时,使用的自适应方法,比一般的最小二乘法和平均运行方法要好;-确定瞬时频率和振幅,用的是直接的方法,比希尔伯特谱更好 -这些将提高自适应的数据分析,可用在大气和海洋科学、信息学、经济学、生态学、医药、地震等领域4.1-经验模态分解经验模态分解EMD(Empirical Mode Decomposition):lEMD 方法在理论上可以应用于任何类型的时间序列(信号)的分解l该方法的关键是它能使复杂信号分解为有限个本征模函数(Intrinsic Mode Function,简称IMF),所分解出来的各IMF分量包含了原信号的不同时间尺度的局部特征信号。EMD分解方法是基于以下假设条件:(1)数据至少有两个极值,一个最大值和一个最小值;(2)数据的局部时域特性是由极值点间的时间尺度唯一确定;(3)如果数据没有极值点但有拐点,则可以通过对数据微分一次或多次求得极值,然后再通过积分来获得分解结果。l经验模态分解的基本思想:将一个频率不规则的波化为多个单一频率的波+残波的形式。原波形=IMFs+余波。4.2-筛选过程(筛选过程(Sifting)l这种方法的本质是通过数据的特征时间尺度来获得本征波动模式,然后分解数据。这种分解过程可以形象地称之为“筛选(sifting)”过程。l分解过程是:-找出原数据序列X(t)所有的极大值点并用三次样条插值函数拟合形成原数据的上包络线;-同样,找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线 -上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该平均包络ml,得到一个新的数据序列hl:X(t)-ml=hl 由原数据减去包络平均后的新数据,若还存在负的局部极大值和正的局部极小值,说明这还不是一个本征模函数,需要继续进行“筛选”。4.3-EMD实例实例金融金融1例如沪指的IMF如下图所仅仅示意的最后4个低频IMF函数序列:上图中的IMF1-IMF3叠合起来,就基本可以重构出沪指的走势:基本与股指一致,类似与一根均线。4.4-EMD实例实例金融金融2从上面的分解到重构的过程看:其实就是个减法到加法的过程,减法求异,剥离出频率(周期)大致相同的IMF,而加法求同,回到原波形。余波其实是个趋势线,即频率极低(周期很长)的波,可以看成是个基底,其它IMF都建筑在它之上。4.4-EMD实例实例金融金融3l有意思的是,筛选出的本征模函数IMF(包括余波)可以代表实在的物理意义,即其震动模式必然地对应有物理成因。而在股指分解出的IMF则应该对应宏观经济成因。比如第一幅图中的IMF2就与CPI或PPI走势几乎一致,且周期也一致;而IMF1则与平滑后季度GDP增长率基本一致,也与发电量或工业增加值的大趋势大体一致。l也就是说,这种新颖的技术分析也得出:股指是反映宏观基本面的。我国的CPI这10几年来一直遵循大概42个月的循环规律,可以用一个正弦波形象之。而IMF则是几个正弦波的复合结果。l浮动频率法仅是找出信号序列中的实际频率,而IMF是既找出浮动频率也找出包括不同振幅的复杂信号序列中的震动模态序列。IMF更接近实际的时间序列。尝试把二者结合起来是个可能的路径。Performance of ESMD_IPerformance of ESMD_variance ratio v一些想法与困惑一些想法与困惑lHadoop+Brighthouse?Dremel+Caffeine?l云计算与大数据如何结合?网格计算与大数据?l大数据OLAP方案?大数据OLTP方案?l大数据到底是什么?如何表述与建模?l大数据的理论基础?大数据可计算的基础理论?l重要扩展与证明“大数据的正确性”与应用的“出错根源”l能量、绿色计算、安全?l领域应用与大数据的计算理论l希尔伯特空间-勒贝格测度-优美图-标号-大数据WSN测量测量+大数据大数据+领域应用?领域应用?l国家基金面上项目/国家基金重点项目/国家基金重大项目国家基金超级大项目l国家基金委主任杨卫半年来的足迹:-3月12日卸任浙大校长任基金委主任;-5月21日调研国家天文台观测基地,雾霾检测和环境气象业务、青藏高原大气科学试验 -10月份相应调研中科院化学所、理化所、北大,人大;会见美国驻华大使骆家辉l到12月19日到同济谈到国家要立项有关雾霾检测、环境气象的国家基金超级大项目系列课题l祝贺王老师国家文物局项目立项“ADSN的大数据古民居实时探测与分析系统研究”l交流!l谢谢!42/42演讲完毕,谢谢观看!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!