数据可视化基础数据科学课件

资源描述

数据可视化基础数据科学内容提纲大数据时代数据科学简介大数据的案例*大数据用来定义那些大小超出常用软件工具在可承受的运行时间内进行数据捕获、管理和处理的能力的数据集。大数据的定义与特性大数据的3V特性2009年，美国国家标准技术研究所(NIST)帮助发表了一篇题为“控制数据的力量”的报告，对大数据研发计划的开展有许多影响。2011年，总统科技顾问委员会(PCAST)提出增加美国在大数据研发方面投入的建议，同时成立大数据高层指导小组。2012年3月29日奥巴马政府公布了“大数据研发计划”(BigDataResearchandDevelopmentInitiative）美国政府的大数据计划国防部(DoD)自然语言处理(MachineReading)视觉智能(MindsEye)安全云(MissionOrientedResilientClouds)对加密数据的编程计算(PROCEED)对视频和图像的检索和分析工具(VIRAT)CINDER计划Insight计划美国政府的大数据计划国土安全部(DHS)可视化数据分析(CVADA)能源部(DOE)ASCR计划，提供数据管理，可视化和数据分析的社区，包括数字化保存和社区访问生物和环境研究计划(BER)系统生物学知识库(Kbase)美国核数据计划(USNDP)NASA全球地球观测系统(GEOSS)行星数据系统(PDS)美国政府的大数据计划卫生和人类服务部(HHS)生物传感2.0计划癌症成像存档(TCIA)癌症基因组图谱(TCGA)传染病代理研究模型(MIDAS)人口研究数据共享(DSDR)计算神经科学的合作研究(CRCNS)食品药品监督管理局(FDA)虚拟实验室环境(VLE)计划国家安全局(NSA)情报共同体(IC)计划美国政府的大数据计划美国国家自然基金委(NSF)开发、整合一套一体化的数据工具和先进的基础设施方案以支持科学和教育。美国国家卫生研究院(NIH)TheStructuralGenomicsInitiative，通过发现，分析和传播蛋白质的三维结构，RNA和其他生物大分子结构，展现生物的多样性，以促进在生物学，农业和医药的基本认识和应用。美国地质调查局(USGS)利用庞大的数据集、先进的计算能力和协作工具，提高对一些地球问题的认识，如气候变化，地震的复发率。美国政府的大数据计划2011年由国防部高级研究计划局(DARPA)提出。投资：3500万美元。该项目旨在发现和防止内部威胁。系统预期输出对象是反间谍机构。同时可以用于解决大规模数据集的异常检测和特征化，用于商业融资等其他领域。核心技术由乔治亚理工学院高性能计算团队研发。多尺度异常检测(ADAMS)解决目前情报，监视和侦察系统的不足，进行自动化和人机集成推理，使得能够提前对时间敏感的更大潜在威胁进行分析开发新的方法来检测军事计算机网络与网络间谍活动Insight计划国防部高级研究计划局(DARPA)今年提出开始XDATA计划。将在四年里拟投资每年2500万美元。开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。提出的挑战:开发可扩展的算法处理分布式数据中不完整存储的数据。研发有效的人机交互工具促进在各种各样的任务中快速分析并反馈最重要的视觉信息。XDATA计划高级科学计算研究办公室(ASCR)提出。DAX是一个为推动百万兆级计算所需的数据分析和可视化算法提供细粒度并发支持的工具包。基本单元是实现一个网格里元素行为的函数。每个函数只能访问传递和调用的元素，避免了内存冲突从而实现无限数量的线程并发。执行器遍历网格所有元素，调用一个或多个函数处理无差别功能的元素并收集每个元素的值。DAX计划病人报告结果测量信息系统2002年5月，国家卫生研究所召开多个会议为21世纪的医学研究制定了发展路线并提出了NIH共同基金。为支持重要项目之一的慢性疾病病人临床研究动态评估，由NIH共同基金提出了合作项目PROMIS。PROMIS是一个高度可靠，有效，灵活，准确，反应病人健康状况的评估工具系统。核心资源是评估中心：提供工具和数据库，以帮助研究人员收集，存储，分析病人的健康状况有关的数据。PROMIS计划NASA提出的地球科学数据和信息系统研制计划主要目标：a)处理、存储与分发地球科学卫星数据。b)提供用于方便管理地球科学数据的工具。c)促进地球科学数据的跨学科使用。d)通过国际之间地球观测数据的共享和整合，推动地球系统科学，满足气候和环境变化的挑战。有12个数据中心，14个科学研究处理系统以及26个合作伙伴为项目提供支持。EOSDIS计划美国“大数据计划”特点应用单位提出，应用单位主导有非常明确的应用需求，要求解决实际问题应用单位完全掌握大数据资源高校参与关键技术研究我国高校面临的挑战不掌握大数据来源很难得到真正的实际需求无能力建设试验环境不能提供足够的人力资源大数据计划特点总结及高校面临的挑战提取、转换、加载（ETL）商业智能分析数据产品数据准备-复杂化语法错误语义错误缺失值异常检测再归一化编码降维整合数据准备-语法和语义错误利用：日志！维护一个记载错误记录的文件尽可能多地捕捉出错地方的状态能够帮助确定数据源的错误对于文本格式，人来检查是可能的对于二进制格式，使用16进制编辑器进行语法或语义变化，或者检查数据源是否有错？涉及到其他记录和数据源的限制是十分难查的数据准备-扩展性问题已有的数据和需要的数据均是动态的目标数据质量是一个过程经常会在分析数据是发现问题修复找到的错误会是极耗资源或不可能的容错保留初始数据能够将工作流的阶段回滚允许以前工作的重用数据准备-扩展性问题工作流元数据管理现在正在运行什么？自动源捕获对工作流进行版本编号工作流进度估计必须向下流进程通信工作流单元重用在复合时：常用工作流库在执行时：消除工作流常见任务的冗余数据表现数据表现概览图表单变量双变量其他图表的选择设计的考虑表格图表颜色活板印刷数据表现-例子图信息图表格图表信息窗介绍文档视频应用程序数据表现图数据表现图数据表现图数据表现图数据表现信息图数据表现信息图数据表现信息图数据表现信息图数据表现表格数据表现图表数据表现信息窗数据表现信息窗数据表现信息窗数据表现图像设计的考虑表格和图表减少图表垃圾/表格垃圾；增加数据墨水比认知的限制：限制一次展示的物体数量颜色颜色模式对比、强调与公司一致6大格式塔原则：接近、相似、圈围、封闭、连续、连接（proximity,similarity,enclosure,closure,continuity,connection）数据产品不要只关注“思想”你构建了数据集你构建了信息窗你构建了实验平台其他你可以构建的事搜索广告定位垃圾检测内容推荐Facebook大数据案例潜在的朋友提纲推荐谁？静态，离线预测动态，在线重排序性能/热身你可能认识的人前12个推荐会直接显示在Faceboook的主页上查看所有链接会使用户看到更多的推荐很多的好友都是直接在主页而不是“查看所有”页面被添加的Xing某个用户把某人永远地从列表里删除在未来的推荐中取消掉占了Facebook中朋友中的很大一部分内容帮助用户在FB上找到好友推荐已经在很多应用中得到了证明Amazon、NetFlix等都有复杂的系统和他们一样，我们可以通过作出优秀的推荐来增加我们对用户的价值有更多好友的用户更频繁地使用网站，从中也得到更多不像那些系统（协同过滤）我们必须要考虑社交背景好友统计大约每天有两亿的页面互访26%直接来自于PYMK的贡献（点击PYMK添加链接）另外14%是间接引起的新用户（注册帐号不超过两周）每天要连接4千万28%直接通过PYMK，总共为42%没有“你可能认识的人”（PYMK）时很多人可能都无法被他人所发现被从PYMK上移除的新用户在6周以后会少27%的好友如何推荐大部分的友谊来自于朋友的朋友（FriendofFriend,F-F）以前的工作表明FoF（2跳）的友谊比多余3跳的友谊要多五倍以上FB上92%的新朋友关系从实际的角度来看，做比F-F更深入的工作是不可能的了一般用户平均有超过130个好友130130=17KFoFs1302=2.2MFoFoFs特殊的用户会有大约5000个好友推荐朋友的朋友问题陈述：给定一个源用户，找到最佳的朋友的朋友推荐给他挑战：一个典型的用户会有成百上千的FoFs(平均为40K，有一部分人会达到800K！)哪些特性可以帮助我们从中进行选择我们如何结合网络和人口特性共同好友系统概览系统检测所有的FoFs产生前100位候选人列表存储评分并且使用简便易得的数据来预测实时的CTRs候选人被重新排序并且在每次访问时展示结果被反馈到系统并保留实时模型依赖于输出分数，并进行在线训练来保证CTR预测的准确性进行静态预测使用传统机器学习对一个用户u，考虑所有的FoFsw1,wk对每一对(u,wj)生成一系列特性共同好友，很久以前的共同好友，新的共同好友等也结合u和wj各自的特性年龄、性别、国家、总的朋友、在FB的时间等我们使用袋装决策树（许多决策树的平均）训练集来自于以前的PYMK只训练“firstimpression”或主页好友的好友特性两类特性带权的共同好友(MFs)实际的MFs、带时间权重的MFs、有向的MFs、带强度权的MFs、推迟的MFs个人特点年龄、国家、FB年龄、性别、朋友数由于用户平均有40K个FoFs,这些必须在每台机器上进行冗余备份而不是共享用于预测的最重要特性时间流逝的共同好友源用户的国籍和FB年龄好友数目特性选择首要特性1.时间权重，有向共同好友2.国家(u)某些国家的用户相比于其他国家的用户更倾向于使用某些特性3.从u到v的带权重边来自于信息订阅的权重粗略地暗示了联系的强度4和5是其他的共同好友权重，其他重要特性是U的度，V的度以及U的年龄巨大的代价用户平均有40K个FoFs共有超过500M的用户40K500M=20T多台拥有72G内存的机器（40台）每台机器都存了社交图的一部分在内存中（对单台机器来说太大了）即便如此，我们至少要在2天中才能算出新的推荐为了保证对新用户进行最佳的推荐，我们会为他们进行更多的计算推荐生成社交图被40台机器所共享包括边上的注释：创建时间、方向，权重请求会直接送到有用户好友列表的机器这台机器分割好友列表并且向其他机器请求FoFs结果被汇总并排序前100位被返回推荐生成使用了4台机器的简单例子4号用户请求PYMK4号用户和5,6,7,13,26,31,121等用户是好友向其他机器请求FoFs（本地的机器也一样被请求）请求包括去权重（如时间）每个FoF的特征向量被聚集14:2,18,8117:2,53,12123:2,0,0提高效率和内存利用率为每个用户都运行40K个FOFs的决策树评价是不可能的使用启发式方法来缩小范围通过共同好友特性建立logistic模型来选择出前1K使用线性时间排N算法来找到截止（不是nlogn排序）仅在前1K上运行完全决策树算法不想使用网络来获得年龄、性别等信息从前1000用户中选择出前100只有那些人才能被展示为了保证多样性，会暂时不推荐已经向用户推荐了4次以上的好友每次都展示最好的推荐为了优化推荐，我们在每次推荐以后都再次重排决策模型只能每两天运行一次他们为每个用户对(u,wi)输出一个评分不能为每次推荐进行过多的运算，但是可以适量运算简单特性在每次推荐的时候都存在(u,wi)的分数，对(u,wi)的推荐次数，U的朋友数，wi的朋友数将可获得的信息和评分相结合并通过Logistics模型来进行重排通过Logistics回归进行重排简单logistics回归模型进行CTRs预测的表现良好对某个推荐给定特性F1、F2、F3预测CTR=logistics(C0+C1*F1+C2*F2+)从两方面来提高质量不要不断重复某个推荐，展示过往的最佳推荐如果用户从来都不用PYMK，就停止推荐通过Logistics回归进行重排简单logistics回归模型进行CTRs预测的表现良好对某个推荐给定特性F1、F2、F3预测CTR=logistics(C0+C1*F1+C2*F2+)从两方面来提高质量不要不断重复某个推荐，展示过往的最佳推荐如果用户从来都不用PYMK，就停止推荐实现简单，很多的软件可以被用来学习参数实现简单，很多的软件可以被用来学习参数使用用户历史数据来个个性化推荐能获得巨大的效果提升机器学习挑战对过去数据的良好预测并不总是有价值可能会给予没有出现在以前数据集里的推荐很高的评分如果是从头开始训练，需要一定量的迭代以达到收敛目前使用在线学习系统来进行CTR预测在该数据上训练的模型，部署了以后新模型过高评价了那些没在之前数据中出现的推荐;点击率骤减组合系统上下文PMYK简单扩展以后使得推荐可以根据当前的上下文在确定了一个好友的请求之后，推荐一些该好友的朋友但是应该是哪些人？之前的排序仅根据共同好友数据（在我和他们之间）使用学习好的模型（和其他PYMK基于相同的特性），增加了40%的好友添加性能两个性能指标建立的还有关系CTR总能通过牺牲其他指标来提高某个指标离线模型的首次发送和早期的CTR预测从那时开始的一些不足总的来说，增加了60%同时，有下调趋势的CTR预测下降了1/3因此，CTR提高了130%p经常不断地学习,你就什么都知道。你知道得越多,你就越有力量pStudyConstantly,AndYouWillKnowEverything.TheMoreYouKnow,TheMorePowerfulYouWillBe写在最后谢谢你的到来学习并没有结束，希望大家继续努力Learning Is Not Over.I Hope You Will Continue To Work Hard演讲人：XXXXXX 时间：XX年XX月XX日

展开阅读全文

数据可视化基础数据科学课件

最新文档