某信息技术公司大数据的相关讲义

上传人:百**** 文档编号:243520774 上传时间:2024-09-25 格式:PPT 页数:48 大小:7.78MB
返回 下载 相关 举报
某信息技术公司大数据的相关讲义_第1页
第1页 / 共48页
某信息技术公司大数据的相关讲义_第2页
第2页 / 共48页
某信息技术公司大数据的相关讲义_第3页
第3页 / 共48页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,理解大数据,实践大数据,施水才,北京拓尔思信息技术股份有限公司,2012,年,5,月,31,日,内容,对大数据的理解,拓尔思大数据产品布局和应用实践,反对派认为,我们现在处在一个盲目的大数据崇拜时代,大数据产生的背景,数据的爆发式增长和社会化趋势,新摩尔定律,大数据已经成为一种自然资源,机器数据日益重要,大数据不被利用就是成本,大数据产生的背景,现有的商业软件难以处理大数据的规模和复杂性,获取,(capture),存贮,(storage),搜索,(search),分享,(sharing),分析,(analysis),可视化,(visualization),奥巴马大数据战略,2012年3月29日,白宫发布美国政府的大数据计划,通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究,大数据的4V特性,体量,Volume,多样性,Variety,价值密度,Value,速度,Velocity,非结构化数据,的超大规模和增长,总数据量的,8090%,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务智能,(,咨询、报告等),实时分析,而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,对大数据的理解,大数据比云计算更为落地,大数据不仅仅是“大”,软件是大数据的引擎,大数据的应用不仅仅是精准营销,管理大数据“易”,理解大数据“难”,1、大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,2、大数据不仅仅是“大”,多大?,PB,级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,3、软件是大数据的引擎,和数据中心(Data Center) 一样,软件是大数据的驱动力,软件改变世界,大数据生态:软件是引擎,4、大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,5、管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据更有意义,目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心,非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,拓尔思大数据产品布局,TRS,机器数据挖掘引擎,TRS SMAS,舆情云服务,TRS,大数据管理系统,V7.0,TRS 大数据管理系统发展历程,TRS,全文数据库,TRS,非结构化,数据库,TRS,大数据,管理系统,TRS,大数据管理系统,V7.0,TRS,大数据管理系统,V7.0,分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容,Hadoop,标准,支持结构化、半结构化、非结构化数据的管理和搜索,支持实时及用户行为数据的高效管理和分析,支持,PB,级的海量数据管理,支持海量用户的高并发访问(千万级用户、万级并发),充分释放硬件的潜力(多核、大内存等),大规模部署的自动化和运行状态监控,创新的多检索引擎机制,提供开放的二次开发接口,数据备份,大数据管理系统,数据存储,开发接口,基于,Hadoop,的数据分析,CKM,文本挖掘与数据挖掘,关联规则与序列模式挖掘,推荐引擎的离线分析,MapReduce,数据库监控,机器数据搜索引擎,用户行为挖掘与推荐引擎,基于时间分段的大数据检索与索引接口,搜索引擎,日志采集监控,数据存储层,数据分析层,日志发送节点,Angent 1,Angent 2,Angent 3,Angent n,日志接收集群,Collector 1,Collector 2,Collector 3,Collector n,Master,管理集群,Master 1,Master 2,Master n,日志采集,TRS,机器数据挖掘引擎,TRS 机器数据挖掘引擎特点,支持主流格式机器数据的实时采集、解析、管理和搜索。,基于时间分段和负载均衡的大数据索引与检索机制。,基于Web的机器数据搜索与分析界面。,兼容Hadoop平台的日志挖掘和用户行为分析。,基于多种推荐模型的在线推荐引擎,大规模部署的自动化和运行状态监控,TRS SMAS,功能框架图,新闻,论坛,博客,搜索引擎,微博,wiki,自动排重、自动分类、自动摘要、自动分析,舆情分类,热点跟踪,热点统计,微博分析,人物分析,微博运营,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未知探索,热点变化,意见领袖,传播图谱,关系分类,个性展示,敏感预警,自由分布,数图导出,图表切换,多维检索,探针追踪,元搜索,外网,微博,论坛,SNS,网媒,官网,提高,销量,用户,满意度,用户设计,趋势分析,竞争分析,质量缺陷,设计缺陷,使用缺陷,KOL,维护,声誉管理,危机预警,事件评估,行为分析,产品,公关,营销,SMAS,用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S-,CRM,广义,服务,TRS SMAS,作用于企业,2.0,TRS 在大数据领域的应用实践,新华社多媒体数据库,国家知识产权局专利检索系统,某部信息监控系统,TRS SMAS,云服务(大数据服务),国家质监局,国家药监局,北京市环保局,国家气象局,每日微博热点分析,新华社多媒体数据库系统,是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续,IT,投资已经超过,6,亿人民币,以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的,6,个文种,数据量超,PB,最早采用文件系统,后来改为,Oracle,,效率很低,再改为,Oracle+TRS,,持续服务至今,从大型机改为,PC,服务器集群,1.5,亿条,原创新闻资讯,26000,小时,权威原创视频,700,万张图片,27000,家,注册用户,8000,多种,资源分类,PB,级,数据量,多语种数据,新华社多媒体数据库,数据流转图,新华社多媒体库的技术特点,非结构化数据和结构化数据统一管理,TRS多语言检索引擎,全面采用TRS文本挖掘技术,良好的集群扩展能力,索引服务器读写分离,国家知识产权局专利检索服务系统,1998,年专利局引进了,欧洲,EPOQUE,系统,,基于大型机的专利检索系统,每年的系统维护费用就达数千万元,2005,年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的,PC,服务器,典型的非结构化,/,半结构化数据应用场景,目前公共检索和审查员检索系统全部使用,TRS,检索引擎,专利检索系统的需求特点,数据多样性,结构化、半结构化和非结构化数据的结合,申请人、申请号、名称等著录项很多,;,权利要求书、说明书等全文数据规模大,各库数据结构差异大,查询要求高,严格的查全和查准要求,基于领域知识的智能检索,结构化和非结构化信息联合查询,相关专利推荐,专利检索与服务系统的数据种类与规模,6,亿多条,专利记录,多渠道异构,资源整合,100%,查全率,1,秒,响应时间,700-1000,并发,724,稳定可靠,1,万注册用户,专利检索引擎,数据流转图,专利检索与服务系统,-,外观图像检索,专利图像外观检索,局部检索,形状检索,纹理检索,不变性特征检索,草图检索,数据分类,数据聚类,基于相关反馈的检索,跨语言检索,600,万幅专利图片,查询性能从原来的分钟级提高到秒级,索引性能从原来的天级提高到现在的小时级,某部网监智能搜索和挖掘系统,系统特点:,巨大的数据量,多样性数据,数据极快速增长,系统现状,已经部署数千台服务器,满足了业务需求,挑战,性能和可扩展性,整合和调度,数据量远超过互联网,目前部署,TRS,系统,2000,多套,SMAS的用户,国家质检总局,2012.1,蒙牛致癌门,2012.2,苏泊尔质量门,2012.3,辽源注水肉,2012.3,315,质量报告,2012.4,含氯可口可乐,2012.4,蜜饯质量问题,2012.5,菲律宾香蕉质量,2012,仅,在,2012,年上半年,拓尔思运营团队就为质检总局在产品质量、食品安全方面提供,超过,40,余项,服务,借助数据中心的大数据与云服务平台,进行全面的整合、统计与分析。,国家质检总局,质,检总局的服务依托云服务平台(,SMAS,),从媒体调性、平台分布、网民意见、趋势发展等多种角度进行解析,结合系统的自动分析与分析团队的整合,最终以专题报告的方式,第一时间呈现,为质检总局在公共服务的决策提供重要参考。,国家药监局,2012,年,4,月,15,日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,,SMAS,运营团队对该事件进行了长时间的跟踪与分析,并用一系列的数据、图表和报告捕获了网络数据里的真相与民意。,国家药监局,关键人物,传播趋势,主流观点,关键地区,SMAS,分析团队连续,30,天跟踪毒胶囊事件,从整体传播趋势、观点、人物、地区等视角,还原了这起颇具影响力的公共事件。,-,毒胶囊事件,-,北京市环保局PM2.5分析,报 道 量 排 行,高,低,两会代表委员热议,PM2.5,“,京,V,”,排放标准首规定,PM,限值,珠三角成首个公布,PM2.5,城市群,珠三角,PM2.5,严重超标,环保局回应,PM2.5,数据质疑,借助数据中心的大数据与云服务平台,从,区域分布,的角度对,PM2.5,的相关信息进行归类,进行全面的整合、统计与分析,得到上图分析内容。,北京市环保局PM2.5分析,PM2.5,均匀分布, 监测点为何,不均匀分布?,PM2.5,监测不能 背离公众感受,PM2.5,监测,关键词是“真实”,20,亿元清单, 能否换来清新?,微博,TOP10,意见领袖排行,作家,通过,SMAS,平台的抽样分析,提取网民热点话题内容,得到,TOP10,意见领袖排行。对意见领袖的代表性微博进行传播链分析,可知“意见领袖”巨大的传播影响力。,第一层,第二层,第三层,第四层,第五层,第六层,传播了,712,次 占转发数百分比:,54.39%,传播了,432,次 占转发数百分比:,33.00%,博主自身的二次转发,北京市环保局,PM2.5,分析,气象舆情监测,对气候的影响,三峡,工程,长江中下游干旱,台风,梅花,日本,核辐射,极端天气频发,有多少是人为之祸?公众对气象部门的气象服务有了全新的期待。,依,托数据中心与云服务平台,拓尔思运营团队还原热点气象事件引发的网络舆情,总结气象部门应对气象危机的得失,为气象部门开拓气象服务新领域、提升气象服务水平提供参考。,中国气象局,气象信息月度走势图,年度热门气象事件排行榜,全国气象舆情热度概览,气象口碑媒体分布图,借助数据中心的大数据与云服务平台,拓尔思运营团队为气象局提供了全面的多维度分析。,中国气象局,关系可视化,每日微博热点分析,拓尔思大数据技术的优势,架构,集群,分析,非结构化信息处理方面的技术工程能力,满足企业级客户的能力,和存储、数据库等厂商相比,更强调大数据的分析和挖掘的能力,谢 谢!,联系方式:,shi.,W
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!