大数据时代和大数据背景下的科研转变.ppt

上传人:tia****nde 文档编号:12636755 上传时间:2020-05-13 格式:PPT 页数:19 大小:1.56MB
返回 下载 相关 举报
大数据时代和大数据背景下的科研转变.ppt_第1页
第1页 / 共19页
大数据时代和大数据背景下的科研转变.ppt_第2页
第2页 / 共19页
大数据时代和大数据背景下的科研转变.ppt_第3页
第3页 / 共19页
点击查看更多>>
资源描述
大数据时代和大数据背景下的科研转变,大数据的概念,数据海量化和数字化数据量的爆发式、几何式增长:从人类文明出现到2003年,人类总共才产生了5EB(ExaBytes,1EB=10亿GB)的数据,但是当前的人类两天内就创造出了相同的数据量,全球90%的数据都是在过去两年中生成的,到2020年全球数据使用量将大概需要376亿个1TB的硬盘进行存储。越来越多的数据存储为数字数据:在2000年,数字存储信息仍只占全球数据量的四分之一;而在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据;到2013年,世界上存储的数据预计能达到约1.2ZB(1ZB=1000EB),其中非数字数据只占不到2%。,数据分析和管理效率的大大提高模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数据数字化和云计算技术的发展使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管理效率。,大数据的4V特征,“高容量(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,量Volume,多样性Variety,价值Value,速度Velocity,数据体量巨大大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),数据的多样性数据类型繁多(文本、图像、视频、机器数据、地理位置信息等等),大量的不相关信息价值密度低需要强大的计算技术进行“提纯”,数据产生和更新的频率快,处理速度快,大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。,“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”全球知名咨询公司麦肯锡,大数据时代数据处理思维的三个转变,全数据模式,而不再依赖于随机抽样很长一段时间以来,准确统计和分析大量数据对我们而言都是一种挑战,比如人口普查。通常我们只能收集少量数据进行分析,称之为抽样分析。大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,使我们能够更清楚地看到了样本无法揭示的细节信息并进行新的分析。,为了赢得与癌症的斗争,史蒂夫乔布斯曾花费数十万美元为自己DNA测序,得到了包括整个基因密码的数据文档。这样,史蒂夫乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药,最终这种方式帮助乔布斯延长了好几年的生命。乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”,不再热衷于追求精确度追求精确度的思维方式适用于掌握“小数据量”的情况,此时必须确保记录下来的数据尽量精确。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。拥有了大数据,我们不再需要过于追究细节,只要掌握大体的发展方向即可。比如计算小商品的营业额和计算国民生产总值。,不再执著于寻找因果关系长久以来,我们的研究总是热衷于追寻现象之间的因果关系。而在大数据时代,我们无须再紧盯事物之间的因果关系,应该寻找事物之间的相关关系。如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。2011年,美国个人消费信用评估公司FICO提出了“遵从医嘱评分”它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。,大数据的应用:谷歌流感预测,谷歌流感预测(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等,并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量,不像疾控中心一样要在流感爆发一两周之后才可以做到。2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。,大数据的应用:PCORnet,PCORnet由美国政府资助的患者中心成果研究所(PCORI)建立。据估计该数据库将收录高达3000万患者的详细医疗数据,通过大数据的分析,为临床疾病的治疗提供更真实的数据图景,将极大丰富美国真实世界的临床研究数据。,大数据的应用:百度疾病预测,百度的疾病预测(,大数据时代下的医学科研,临床医学资源发掘、收集、整理和利用(标准化、科学化)。大样本、多中心的临床研究(病因、诊断、治疗及药物开发)。依托临床信息的生物医学资源的整理、利用及研究(基因、蛋白及代谢)。,大数据研究成果:阿奇霉素与心血管死亡风险,分析了田纳西州医院所有患者的数据发现,在疗程5天的阿奇霉素治疗中,心血管(CV)死亡风险小幅增加。研究者分析了1992(阿奇霉素首次引入美国的时间)2006年间田纳西州医疗补助计划中3074岁患者的数据。将347,795个阿奇霉素5日疗程中的CV死亡和全因死亡事件数与未接受抗生素治疗的1,391,180个匹配对照时期进行了比较。结果显示,与未接受抗生素治疗相比,使用阿奇霉素与CV死亡率增高相关(每100万阿奇霉素疗程中发生85.2例CV死亡,每100万无治疗时期中发生29.8例CV死亡)。,大数据研究成果:DDI-CPI,上海交通大学Bio-X研究院联合美国IBM沃森研究院、哈佛大学、加州大学伯克利分校等医药大数据前沿机构的研究人员,共同构建了基于医药大数据的药物互相作用搜索引擎,利用化合物-蛋白互作组(Chemical-ProteinInteractome,CPI)的海量数据在超级计算机上模拟药物相互作用,通过改进了的大数据挖掘算法,比较用户提交分子的指纹图谱来预测潜在药物相互作用,从而及时预测用药风险。部分研究成果已发表在近期的核酸研究(影响因子8.3)上。,大数据发展中的问题:数据的开放和流通,“大数据”发展的障碍,在于数据的“流动性”和“可获取性”。美国政府创建了Data.gov网站,为大数据敞开了大门;英国、印度也有“数据公开”运动。,大数据发展中的问题:技术与硬件设备,除了数据的可获取性,还需要有相应的技术与设备来获取和处理这些数据。传统的数据挖掘方法与工具技术逐渐无法应付迅速涌现的大规模数据,更无法实现对如此量级数据的实时处理与分析。建立包含采集、管理与分析工具的大数据处理系统,使科研工作者可以快速处理和共享海量科研数据。,数据这么大,你能钓到啥,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!