资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,理解大数据,实践大数据,理解大数据,实践大数据,内容,对大数据的理解,拓尔思大数据产品布局和应用实践,内容对大数据的理解,反对派认为,我们现在处在一个盲目的大数据崇拜时代,反对派认为,我们现在处在一个盲目的大数据崇拜时代,3,大数据产生的背景,数据的爆发式增长和社会化趋势,新摩尔定律,大数据已经成为一种自然资源,机器数据日益重要,大数据不被利用就是成本,大数据产生的背景数据的爆发式增长和社会化趋势,新摩尔定律,大数据产生的背景,现有的商业软件难以处理大数据的规模和复杂性,获取,(,capture),存贮,(,storage),搜索,(,search),分享,(,sharing),分析,(,analysis),可视化,(,visualization),大数据产生的背景现有的商业软件难以处理大数据的规模和复杂性,奥巴马大数据战略,2012,年,3,月,29,日,白宫发布美国政府的大数据计划,通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究,奥巴马大数据战略2012年3月29日,白宫发布美国政府的大数,大数据的,4V,特性,体量,Volume,多样性,Variety,价值密度,Value,速度,Velocity,非结构化数据,的超大规模和增长,总数据量的,8090%,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务智能,(,咨询、报告等),实时分析,而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,大数据的4V特性体量Volume多样性Variety价值密度,7,对大数据的理解,大数据比云计算更为落地,大数据不仅仅是“大”,软件是大数据的引擎,大数据的应用不仅仅是精准营销,管理大数据“易”,理解大数据“难”,对大数据的理解大数据比云计算更为落地,1,、大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,1、大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身,2,、大数据不仅仅是“大”,多大?,PB,级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,2、大数据不仅仅是“大”多大?比大更重要的是数据的复杂性,有,3,、软件是大数据的引擎,和数据中心(,Data Center,),一样,软件是大数据的驱动力,软件改变世界,3、软件是大数据的引擎和数据中心(Data Center),大,数据生态:软件是引擎,大数据生态:软件是引擎,4,、大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,4、大数据的应用不仅仅是精准营销通过用户行为分析实现精准营销,5,、管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据更有意义,目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心,非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,5、管理大数据“易”理解大数据“难”虽然大数据是一个重大问题,拓尔思大数据产品布局,TRS,机器数据挖掘引擎,TRS SMAS,舆情云服务,TRS,大数据管理系统,V7.0,拓尔思大数据产品布局TRS机器数据挖掘引擎TRS SMAS,15,TRS,大数据管理系统发展历程,TRS,全文数据库,TRS,非结构化,数据库,TRS,大数据,管理系统,TRS 大数据管理系统发展历程TRS 全文数据库TRS 非,16,TRS,大数据管理系统,V7.0,TRS 大数据管理系统V7.0,TRS,大数据管理系统,V7.0,分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容,Hadoop,标准,支持结构化、半结构化、非结构化数据的管理和搜索,支持实时及用户行为数据的高效管理和分析,支持,PB,级的海量数据管理,支持海量用户的高并发访问(千万级用户、万级并发),充分释放硬件的潜力(多核、大内存等),大规模部署的自动化和运行状态监控,创新的多检索引擎机制,提供开放的二次开发接口,TRS 大数据管理系统V7.0分布式并行计算、多副本机制、没,数据备份,大数据管理系统,数据存储,开发接口,基于,Hadoop,的数据分析,CKM,文本挖掘与数据挖掘,关联规则与序列模式挖掘,推荐引擎的离线分析,MapReduce,数据库监控,机器数据搜索引擎,用户行为挖掘与推荐引擎,基于时间分段的大数据检索与索引接口,搜索引擎,日志采集监控,数据存储层,数据分析层,日志发送节点,Angent 1,Angent 2,Angent 3,Angent n,日志接收集群,Collector 1,Collector,2,Collector,3,Collector,n,Master,管理集群,Master 1,Master 2,Master n,日志采集,TRS,机器数据挖掘引擎,数据备份大数据管理系统 数据存储开发接口基于Hadoop的数,19,TRS,机器数据挖掘引擎特点,支持主流格式机器数据的实时采集、解析、管理和搜索。,基于时间分段和负载均衡的大数据索引与检索机制。,基于,Web,的机器数据搜索与分析界面。,兼容,Hadoop,平台的日志挖掘和用户行为分析。,基于多种推荐模型的在线推荐引擎,大规模部署的自动化和运行状态监控,TRS 机器数据挖掘引擎特点支持主流格式机器数据的实时采集、,TRS SMAS,功能框架图,舆情管理,服务共享,信,息挖掘,信息来源,新闻,论坛,博客,搜索引擎,微博,wiki,自,动排重、自动分类、自动摘要、自动分析,舆,情分类,热点跟踪,热,点统计,微博分析,人,物分析,微博运营,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未,知探索,热,点变化,意,见领袖,传播图谱,关系分类,个性展示,敏感预警,自由分布,数,图导出,图,表切换,多,维检索,探针追踪,元搜索,TRS SMAS功能框架图舆情管理服务共享信息挖掘信息来源新,外网,微博,论坛,SNS,网媒,官网,提高,销量,用户,满意度,用户设计,趋势分析,竞争分析,质量缺陷,设计缺陷,使用缺陷,KOL,维护,声誉管理,危机预警,事件评估,行为分析,产品,公关,营销,SMAS,用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S-,CRM,广义,服务,TRS SMAS,作用于企业,2.0,外网 官网用户设计趋势分析竞争分析质量缺陷设计缺陷使用缺,TRS,在大数据领域的应用实践,新华社多媒体数据库,国家知识产权局专利检索系统,某部信息监控系统,TRS SMAS,云服务(大数据服务),国家质监局,国家药监局,北京市环保局,国家气象局,每日微博热点分析,TRS 在大数据领域的应用实践新华社多媒体数据库,新华社多媒体数据库系统,是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续,IT,投资已经超过,6,亿人民币,以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的,6,个文种,数据量超,PB,最早采用文件系统,后来改为,Oracle,,效率很低,再改为,Oracle+TRS,,持续服务至今,从大型机改为,PC,服务器集群,新华社多媒体数据库系统是新华社的核心业务支撑,典型的非结构化,1.5,亿,条,原创新闻资讯,26000,小时,权威原创视频,700,万张图片,27000,家,注册用户,8000,多种,资源分类,PB,级,数据量,多语种数据,1.5亿条26000小时700万张图片27000家8000多,25,新华社,多媒体数据库,数据流转图,新华社多媒体数据库数据流转图,新华社多媒体库的技术特点,非结构化数据和结构化数据统一管理,TRS,多语言检索引擎,全面采用,TRS,文本挖掘技术,良好的集群扩展能力,索引服务器读写分离,新华社多媒体库的技术特点非结构化数据和结构化数据统一管理,国家知识产权局专利检索服务系统,1998,年专利局引进了,欧洲,EPOQUE,系统,,基于大型机的专利检索系统,每年的系统维护费用就达数千万元,2005,年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的,PC,服务器,典型的非结构化,/,半结构化数据应用场景,目前公共检索和审查员检索系统全部使用,TRS,检索引擎,国家知识产权局专利检索服务系统1998年专利局引进了欧洲EP,专利检索系统的需求特点,数据多样性,结构化、半结构化和非结构化数据的结合,申请人、申请号、名称等著录项很多,;,权利要求书、说明书等全文数据规模大,各库数据结构差异大,查询要求高,严格的查全和查准要求,基于领域知识的智能检索,结构化和非结构化信息联合查询,相关专利推荐,专利检索系统的需求特点数据多样性,专利检索与,服务系统的数据,种类与规模,6,亿多条,专利,记录,多渠道异构,资源整合,100,%,查全率,1,秒,响应时间,700-1000,并发,724,稳定可靠,1,万注册,用户,专利检索与服务系统的数据种类与规模6亿多条多渠道异构100%,专利检索引擎,数据流转图,专利检索引擎数据流转图,专利检索与服务系统,-,外观图像检索,专利检索与服务系统-外观图像检索,专利图像外观检索,局部检索,形状检索,纹理检索,不变性特征检索,草图检索,数据分类,数据聚类,基于相关反馈的检索,跨语言检索,600,万幅专利图片,查询性能从原来的分钟级提高到秒级,索引性能从原来的天级提高到现在的小时级,专利图像外观检索局部检索600万幅专利图片,某部网监智能搜索和挖掘系统,系统特点:,巨大的数据量,多样性数据,数据极快速增长,系统现状,已经部署数千台服务器,满足了业务需求,挑战,性能和可扩展性,整合和调度,数据量远超过互联网,目前部署,TRS,系统,2000,多套,某部网监智能搜索和挖掘系统系统特点:数据量远超过互联网,目前,SMAS,的用户,SMAS的用户,国,家质检总局,2012.1,蒙牛致癌门,2012.2,苏泊尔质量门,2012.3,辽源注水肉,2012.3,315,质量,报告,2012.4,含氯可口可乐,2012.4,蜜饯质量问题,2012.5,菲律宾香蕉质量,2012,仅,在,2012,年上半年,,拓尔,思运营团队就为质检总局在产品质量、食品安全方面提供,超过,40,余,项,服务,借助,数,据中心的大数据与云服务平台,进行全面的整合、统计与分析。,国家质检总局2012.1 蒙牛致癌门2012.2 苏泊尔质量,国家质检总局,质,检总局的服务依托云服务平台,(,SMAS,),从媒体调性、平台分布、网民意见、趋势发展等多种角度进行解析,结合系统的自动分析与分析团队的整合,最终以专题报告的方式,第一时间呈现,为质检总局在公共服务的决策提供重要参考。,国家质检总局质检总局的服务依托云服务平台(SMAS),从媒体,国家药监局,2012,年,4,月,15,日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,,SMAS,运营,团队对该事件进行了长时间的跟踪与分析,并用一系列的数据、图表和报告捕获了网络数据里的真相与民意。,国家药监局2012年4月15日央视曝光的“毒胶囊”事件掀起药,国家药监局,关键人物,传播趋势,主,流观点,关键地区,SMAS,分析团队连续,30,天跟踪毒胶囊事件,从整体传播趋势、观点、人物、地区等视角,
展开阅读全文