资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2016/10/11,#,大数据及其在税务中的应用,2016.10,安徽工程大学计算机与信息学院,主要内容,第一章 大数据,的,概,念与技术,第二章 大数据带来的机,遇,与挑战,第三章 大数据在税务中的应用,大数据的概念与技术,第,一,章,大数据,面面观,大数据特征,大数据技术,3,让我们先看看“大数据时代”,一段小视频,4,大数据的概念与技术,第,一,章,大数据面面观,大数据特征,大数据技术,5,数据爆炸式增长(每分钟,),Twitter,上发布,98000+,新微博,13000+,个,iPhone,应用下载,Skype,上,37,万,+,分钟的语音通话,上传,6600,张新照片到,flickr,发出,1.68,亿,+,条,Email,YouTube,上上传,600+,新视频,淘宝光棍节,10680+,个新订单,Facebook,上更新,69.5,万,+,条新状态,12306,出票,1840,+,张,6,GB,TB,PB,EB,ZB,数据,的爆炸式增长,想驾驭这庞大的数据,我们必须了解,”,大数据,”,地球上至今总共的数据量,:,在,2006,年,个人用户才刚刚迈进,TB,时代,,全球一共新产生了约,180EB,的,数据,;,在,2011,年,这个数字达到了,1.8ZB,。,而有市场,研究,机构预测:,到,2020,年,整个世界的数据总量将会增长,44,倍,达到,35.2ZB,(,1ZB=10,亿,TB,)!,1PB,(拍字节,),=,250,字节,1EB,(艾字节,),=,260,字节,1ZB,(泽字节),= 270,字节,7,让我们来认识什么是“大数据”,一段小视频,大数据名称由来,大数据的来源,看待大数据的不同视角,大数据的定义,大数据的市场分析,大数据与国家战略,大数据带来的变革,8,20,世纪,90,年代,数据仓库之父的,Bill Inmon,就经常提及,Big,Data,2011,年,5,月,,在,“云计算相遇大数据”,为主题的,EMC World 2011,会议中,,,EMC,抛出了,Big Data,概念,Big,Data,名词由来,2011,年,6,月,美国咨询界的翘楚麦肯锡咨询公司发布了,大数据:下一个竞争、创新和生产力的前沿领域,的研究报告,首次向学界以外的领域推出大数据的概念。,9,可采集,可衡量,价值,人,的,行为活动,生理行为,自然属性,社会属性,交易行为,文化行为,信仰行为,个体行为,家庭行为,群体,行为,企业经营活动,研发,服务,营销推广,物流,采购,生产,销售,交易活动,交互活动,多样性,相关性,PC,互联网,移动,互联网,物联网,数据获取通道,大数据的来源,“,看,”,数据的不同方式,可视:结构化资料,15%,未视:半,/,非结构化数据,85%,DB/DW,主管们看的,战情数位仪表板,其实是残缺的,11,结构化数据,半结构化数据,非结构化数据,大数据,=,海量数据,+,复杂类型的数据,海量交易,数据:,企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大,数据,包括:,交易数据,和,交互,数据,集在内的所有数据,集,海量交互,数据:,源于,Facebook,、,Twitter,、,LinkedIn,及其他来源的社交媒体数据构成。它包括了呼叫详细,记录,CDR,、,设备和传感器信息、,GPS,和地理定位映射数据、通过管理文件,传输,Manage,File,Transfer,协议,传送的海量图像文件、,Web,文本和点击流数据、科学信息、电子邮件,等等。可以告诉我们未来会发生什么。,海量,数据处理:,大,数据的涌现已经催生出了设计用于数据密集型处理的,架构。例如,具有开放源码、在商品硬件群中运行的,Apache Hadoop,。,大数据的构成,10,万,GB,10,万,TB,需要更高性价比的数据计算与储存方式,数据库,数据仓库,计算更快,存储更省,14,大,数据,=,海量数据,+,复杂类型,数据,增长,如此之块,以至于难以使用现有的数据库管理工具来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视化等,方面,大,数据,的定义,数据量,复杂性:种类和速度,销量,库存,薪酬表,客户信息,合约,ERP/CRM,WEB2.0,广告,博客,搜索营销,文本,/,图像,网络日志,大数据,社会情绪,音频,/,视频,传感器,RFID,维基,/,博客,微博,金融信息,个人数据,位置信息,政府信息,气象数据,保险信息,EB,PB,TB,GB,维基的大数据定义,任何,超过一台计算机处理能力的庞大数据,量,亚马逊的大数据定义,需要,新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产,Informatica,的大数据定义,大,数据,=,交易数据,+,互动数据,+,观测,数据,中国电信的大数据定义,百度的,大数据定义,如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果每一件事情都是确定的、完全可以预测的,则生活将是无趣的。利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。,对大,数据的理性认知,美,C.R,劳,与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么有关,而不必强求为什么有关。,英,舍恩伯格,大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本,=,总体。,英,舍恩伯格,大数据为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。,国家统计局 马建堂,大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高,大数据市场分析,1,2011,年,-2016,年中国大数据市场规模,2,各行业大数据市场规模,政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。,由于各个行业都存在大数据应用需求,潜在市场空间非常可观。,2011,年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。,2012,年,-2016,年,将迎来大数据市场的飞速发展。,2012,年中国大数据市场规模达到,4.7,亿元,,2013,年大数据市场将迎来增速为,138.3%,的飞跃,到,2016,年,整个市场规模逼近百亿。,中央政府对大数据的重视程度,习近平,政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的,应用,,,2014,年,3,月,8,日,“大数据”首次写入政府工作报告,奥巴马,“,将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。,李克强:,加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。,李克强,经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务,汪洋,数据为王,财政工作离不开大数据,18,大数据上升为国家战略,国家,时间,政策,备注,美国,2012-03-29,大数据研究与发展计划,推动政府开放、提升政策预见性(粮食、天气、流感等)、提高政府服务水平、降底运营开支,英国,2010-05,数据权、我的数据,日本,2012-05,ICT,战略,中国,2012-05,互联网大数据技术创新研究,大数据的概念与技术,第,一,章,大数据,面面观,大数据特征,大数据技术,20,大数据的,4V,特征,Value,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务,智能),Big Data,大数据,Volume,全球在,2010,年正式进入,ZB,时代,IDC,预计到,2020,年,全球将总共拥有,35ZB,的数据,量,TB,PB,EB,Velocity,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,Streams,Real time,Near time,Batch,Variety,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义,Structured,Unstructured,Semi-structured,All the above,21,大数据的,4V,特征(,Volume,),1Byte,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,1PB,相当于,50%,的全美学术研究图书馆藏书信息内容,5EB,相当于至今全世界人类所讲过的话语,1ZB,如同全世界海滩上的沙子数量总和,1YB,相当于,7000,位人类体内的微细胞总和,一般情况下,大数据是以,PB,、,EB,、,ZB,为单位进行计量的,22,Social Media,Machine / Sensor,DOC / Media,Web,Clickstream,Apps,Call Log,Log,半结构化,/,非结构化数据,大数据的,4V,特征(,Variety,),23,大数据的,4V,特征(,Variety,),行业,/,企业内,数据,互联网数据,物,联网数据,大,数据,数据来源多,企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。,数据类型多,保存在关系数据库中的结构化数据只占少数,,7080%,的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。,关联性,强,数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。,24,大数据的,4V,特征(,Velocity,),8,22,54,132,215,327,现在及未来几年内美国的移动网络数据流量增长(,PB/,月),源自英国,Coda,研究咨询公司,大数据的增长速度快,大数据的处理速度快,实时数据流处理,的,要求,是,区别大数据引用和传统数据仓库,技术,,BI,技术的关键差别,之一;,1s,是临界点,对于大数据应用而言,必须要在,1,秒钟内形成答案,否则处理结果就是过时和无效的,;,25,大数据的,4V,特征(,Value,),挖掘大数据的价值类似,沙里淘金,从,海量数据中挖掘稀疏但珍贵的,信息,价值密度,低,是,大数据的一个典型,特征,大,数据不仅仅是技术,关键是产生价值,可以从各个层面进行优化,更要考虑整体,26,大数据带来的思维,变革(更多),Google,利用网络大数据预测流感,基于全数据进行相扑比赛的作弊分析,埃齐奥尼的,Farecast,有,10,万亿条数据预测机票价格,乔布斯的癌症抗争,自身所有,DNA,和肿瘤,DNA,排序,27,大数据带来的思维变革(更杂),从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性。,大数据的简单算法比小数据的复杂算法更有效,IBM,的,机器翻译,VS Google,的,机器翻译,纷繁,的数据,越多越好,大,数据时代要求我们重新审视数据精确性的优,略,大,数据不仅让我们不再期待精确性,也让我们无法实现,精确性,错误,不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期,存在,混杂,性,不是竭力避免,而是标准,途径,28,大数据带来的思维变革(更好),佛教,三世因果经,主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。,佛教关于因果报应的解释,原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。,哲学范畴的因果关系,大,数据的相关关系,而不强调因果关系;(舍恩伯格),,,其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;,舍恩伯格对大数据的相关性解释,Kaggle,,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?,探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,29,更好,不是因果关系而是相关关系,更多,不是随机样本而是全部数据,更杂,不是精确性而是混杂性,大数据带来的思维变革,30,大数据的概念与技术,第,一,章,大数据面面观,大数据特征,大数据技术,31,先让我们看看大数据处理应用过程,一段小视频,云计算与大数据,大数据涉及的关键技术,大数据处理与分析,Hadoop,生态系统,传统数据库与大数据,32,待处理的数据,数据规模,大(以,GB,、,TB,、,PB,为处理单位),小(以,MB,为处理单位),数据类型,繁多(结构化、半结构化、非结构化),单一(结构化为主),模式和数据的,关系,先有数据后有模式,模式随数据增多演变,先,有模式后有数据(先有池塘后有鱼),处理对象,“鱼”通过某些鱼判断其他鱼是否存在,数据(池塘中的鱼),数据库(池塘捕鱼),大数据(大海捕鱼),大数据涉及的关键技术,需求,技术,描述,海量数据存储技术,Hadoop,,,x86/MPP,,,Map Reduce,分布式文件系统,实时数据处理技术,Streaming Data,流计算引擎,数据高速传输技术,Infini Band,服务器,/,存储间高速通信,搜索技术,Enterprise,Search,文本检索、智能搜索、实时搜索,数据分析技术,Text Analytics Engine,自然语言处理、文本情感分析、,Visual Data Modeling,机器学习、聚类关联、数据模型,数据采集,数据储存,数据管理,数据分析与挖掘,34,基于,SQL,语言,:,面对,OLAP,的传统行和列,不基于,SQL,或,map-reduce,的,:,由谷歌率先发起,数据流,:,基于运行商数据直接生成任意图形,新平台技术,数据入口,/,汇聚,数据平台,分析,不同范围的服务,传统交付模式,-,单片或基于设备的解决方案,云,:,能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”,- Forrester analyst Jim Kobielus,新的传输方案,大数据涉及的关键技术,35,大数据处理技术,特征,数,据,无,限,分,而,治,之,功能有限复制分发,大数据,的分析模型,研究对象,由组织、用户、大数据和工具构成的运行系统,研究内容,大数据的构成,大数据的行为,大数据的行为和数据的组织,研究方法,知识工程解构大数据系统,研发工程支撑大数据系统,价值工程牵引大数据系统,研究目标,大数据生产平台,大数据开发平台,大数据采集平台,大数据应用平台,研究重点,数据分而治之,资源组织调度,逻辑复制迁移,组织,大数据,用户,工具,知识工程,研发工程,价值工程,社会价值,结构功能,信源信宿信道,控制状态协同,生产,采集,存储,应用,传递,展现,概念,定议,划分,经济价值,科技价值,商业价值,为什么,是什么,怎么,做,云计算与大数据,大数据应用运行在,云平台之上,如果数据是财富,那么大数据就是,宝藏;,云,计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花,;,没有,大数据,的存储和积淀,,云计算也只能是杀鸡用的宰牛刀!,38,什么是云计算(一段小视频),Hadoop,平台,Hadoop,是基于,Google,有关大数据的论文的开源项目,最初的框架由,Doug Cutting,在,2005,年提出,目前是由,Apache,维护的开源项目。从初创到现在,,Hadoop,体系在,10,多年中开发完成了一系列重要的子项目,已经形成一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。,一段视频,介绍,Hadoop,的诞生与发展,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,39,Hadoop,平台,HDFS,分布式文件系统,存储大数据,如同大坝前用于蓄水的水库,(,大坝发电前先要蓄水,),Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,40,Hadoop,平台,HBase,,实时、分布式、高纬数据库,对数据快速读取。,(,弱水三千、只取一瓢,),Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,41,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,Hadoop,平台,MapReduce,,分布式计算框架,实现数据并行处理,(,一头牛拖不动,多头牛一起拖,),42,Hadoop,平台,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,Hive,,数据仓库,支持提取、查询、分析,(,英文,意为:,蜂房,如同在大数据花园中采集花粉酿制蜂蜜,),43,Hadoop,平台,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,Pig,,数据流处理语言,提供编程接口,(,猪,懒惰而又浑身是宝,伸伸懒腰,不用费九牛二虎之力就能完成所需的数据操作,),44,Hadoop,平台,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,Mahout,,数据挖掘,(,英文原意:骑象人,驯象人。,分布式机器学习算法的集合,),45,Hadoop,平台,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,Flume,,日志收集工具,(,英文原意:水管,日志数据如同水管中的涓涓细流汇集到大数据平台,),46,Hadoop,平台,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,Sqoop,,关系数据,ETL,工具,(,数据搬运工,完成外部数据和大数据平台中的数据的“搬运”,),Hadoop,平台,Hadoop Manager,安装、部署、配置、监控、告警和访问控制,Mahout,数据挖掘,Pig,数据流处理语言,Hive,数据仓库,MapReduce,分布式计算框架,HBase,实时、分布式、高纬数据库,HDFS,分布式文件系统,ZooKeeper,分布式协作服务,Sqoop,关系数据,ETL,工具,Flume,日志收集工具,ZooKeeper,,分布式协作服务,(,英文原意:动物园管理员,),48,大数据带来的机遇与挑战,第二章,大数据,的机遇,大数据,的挑战,49,大数据改变生活,50,。,优化,各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策。,革命,大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。,颠覆,银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务,改变,因大数据系统的出现,所有依赖信息不对称盈利的业务都将消失。,大数据对,政府、,金融机构、企业来说,象空气一样不可或缺!,让我们先看看一些生活中的例子,一段小视频,51,消费大数据,52,亚马逊 “预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。,这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。,所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。,亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。,大数据,+,政治,53,奥巴马大选中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。,在大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。,比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。,“,Twitter,的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是,59,,而罗姆尼的只有,53,证监会大数据,54,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达,300,个。,实际上,早在,2009,年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。,而此次在马乐案中亮相的深交所的“大数据” 监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了,200,多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。,马乐,博时基金明星基金经理,在任期间先于、同期或稍晚于其管理的“博时精选”基金账户买入相同股票,76,只,累计成交金额高达,10.5,亿余元,从中非法获利,1883,万余元,金融交易大数据,55,量化交易,程序化交易,高频交易是大数据应用比较多的领域。,全球,2/3,的股票交易量是由高频交易所创造的,参与者总收益每年高达,80,亿美元。,其中,大数据算法被用来作出交易决定。现在,大多数股权交易都是通过大数据算法进行,这些算法越来越多地开始考虑社交媒体网络和新闻网站的信息来在几秒内做出买入和卖出的决定。,当一个产品可以在多个交易所交易时,会形成不同的定价,在这当中,谁能够最快地捕捉到同一个产品在不同交易所之间的显著价差,谁就能捕捉到瞬间套利机会,技术成为了重要因素。,制造业大数据,56,在摩托车生产厂商哈雷,戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷,戴维森同时还使用软件,还寻找制约公司每,86,秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷,戴维森提高了安装该配件的速度。,美国一些纺织及化工生产商,根据从不同的百货公司,POS,机上收集的产品销售速度信息,将原来的,18,周送货速度减少到,3,周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。,57,谷歌基于每天来自全球的,30,多亿条搜索指令设立了一个系统,这个系统在,2009,年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。,谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达,97%,。,这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”,医疗大数据,能源大数据,58,国际大石油公司一直都非常重视数据管理。如雪佛龙公司将,5,万台桌面系统与,1800,个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省,5000,万美元,过去,4,年已获得了净现值约为,2,亿美元的回报。,准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯,( Vestas Wind Systems),,通过在世界上最大的超级计算机上部署,IBM,大数据解决方案,得以通过分析包括,PB,量级气象报告潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同时它将业务用户请求的响应时间从几星期缩短到几小时。,交通大数据,59,UPS,最新的大数据来源是安装在公司,4.6,万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。,大量的在线地图数据和优化算法,最终能帮助,UPS,实时地调配驾驶员的收货和配送路线。该系统为,UPS,减少了,8500,万英里的物流里程,由此节约了,840,万加仑的汽油。,文化传媒大数据,60,与传统电视剧有别,,纸牌屋,是一部根据“大数据”制作的作品。制作方,Netflix,是美国最具影响力的影视网站之一,在美国本土有约,2900,万的订阅用户。,Netflix,成功之处在于其强大的推荐系统,Cinematch,,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。,Netflix,发布的数据显示,用户在,Netflix,上每天产生,3000,多万个行为,比如暂停、回放或者快进,同时,用户每天还会给出,400,万个评分,以及,300,万次搜索请求。,Netflix,遂决定用这些数据来制作一部电视剧,投资过亿美元制作出,纸牌屋,。,Netflix,发现,其用户中有很多人仍在点播,1991,年,BBC,经典老片,纸牌屋,,这些观众中许多人喜欢大卫,芬奇,观众大多爱看奥斯卡得主凯文,史派西的电影,由此,Netflix,邀请大卫,芬奇为导演,凯文,史派西为主演翻拍了,纸牌屋,这一政治题材剧。,2013,年,2,月,纸牌屋,上线后,用户数增加了,300,万,达到,2920,万。,航空大数据,61,Farecast,已经拥有惊人的约,2000,亿条飞行数据记录。用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。,Farecast,预测当前的机票价格在未来一段时间内会上涨还是下降。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。,Farecast,票价预测的准确度已经高达,75,,使用,Farecast,票价预测工具购买机票的旅客,平均每张机票可节省,50,美元。,机遇,大数据技术促进国家和社会发展,大数据蓝海成为企业竞争的新焦点,大数据时代呼唤创新型人才,挑战,大数据技术的运用仍有困难,大数据给信息安全带来新挑战,62,63,机遇,大数据技术促进国家和社会发展,大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。,63,大数据所能带来的巨大商业价值,被认为将引领一场足以与,20,世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。,网民,和消费者的界限正在变得模糊,无处不在的智能终端,随时在线的网络传输,互动频繁的社交网络让以往只是网页浏览者的网民的面孔从模糊变得清晰,,企业第一次,有机会进行大规模的精准化的消费者行为研究:作为保持着持续变革欲望的企业,,主动地拥抱这种变化,从战略到战术层而开始自我的蜕变和进化将会让他们更加适应这个新的时代,大数据蓝海成为未来竞争的制高点。,机遇,大数据蓝海成为企业竞争的新焦点,64,65,机遇,大数据时代呼唤创新型人才,盖特纳咨询公司预测大数据将为全球带,440,万个,IT,新岗位和上千万个非,IT,岗位。麦肯锡公司预测美国到,2018,年需要深度数据分析人才,44,万,-49,万,,缺口,14,万,-19,万人,;需要既熟悉本单位需求又了解大数据技术与应用的管理者,150,万,这方面的人才缺口更大。中,国是,人才大国,但能理解与应用大数据的,创新,人才却是,稀缺资源。,65,大数据带来的机遇与挑战,第二章,大数据,的机遇,大数据,的挑战,66,67,今天,大数据似乎成了“灵丹妙药”,“包治百病”,无所不能。但千万别把“大数据”用做解决世界上所有问题的全能办法,无论是管理城市到消除贫困,制止恐怖袭击、疾病流行到拯救地球环境等,以为有了“大数据”,就没有解决不了的问题,这也是一种误解。人类的思想、个人的文化和行为模式、不同国家及社会的存在发展都非常复杂、曲折和独特,显然不能全部由计算机来“数字自己说话”。,无论到何时,其实都还是人在思考和“说话”。,当你有了锤子,,好像什么问题都看上去像钉子!,大,数据的挑战,大数据的技术挑战,数据收集,(去伪存真),数据存储,(低成本、低能耗、高可靠性),数据处理,(多源异构、参数多、动态及时性要求等),可,视化呈现,(大规模、非结构化数据),摘自工程院院士邬贺铨的报告,大,数据的挑战,大数据的安全威胁,大数据基础设施,大数据存储安全,数据访问安全,隐私泄露,持续攻击,PRISM,面临的主要问题:,未建立税源信息语义标准及数据采集规范。,税源信息采集通道狭窄,缺乏有效的采集工具,无法保证采集质量。,载体限于增值税发票。“金税工程” 三期仍然未解决税源的基础数据,交易数据采集问题。,税源管理体系存在缺陷,不能将企业交易与经营过程信息有机结合,税源信息分析亟需创新的系统支撑。,“信息管税”能力和水平有待进一步提高和加强。,税务管理的机会与挑战,发票和申报信息,交易及其相关信息,需要,关注,的问题:,税源数据获取是一切工作的基础!,新模式,推广的方式转变,如何由“抓管理”变化为“抓管理、重服务”?,税务管理的机会与挑战,解决问题的主要思路:,建立新的数据标准与采集规范。,扩大税源信息采集通道,积极采用新技术、新工具,获取更多的数据,以大数据思维和技术,提高涉税信息分析水平和利用能力,更强大的数据分析处理能力,推进财税物联网系统,提高税源信息管理能力,系统能力建设,税务管理未来展望,大幅度提升税务管理涵盖面和服务效率:,税源数据的,完整性,得到大幅度提升,由,“开票数据”和“申报数据”,拓展为,“交易及交易过程数据”和“交易相关数据”,税源信息,分析处理方式,的变革,由,样本抽样数据分析,变革为,全数据(全样本)分析,由,单纯统计归纳数据分析,变革为,多因素相关性动态分析(大数据分析),税源数据采集和处理的,时效性,得到大幅度提升,采集:由,准实时数据、事后数据为主,提升为 以,实时数据为主,处理:由,周期性和专项事务处理为主,提升为 以,敏捷服务响应为主、自助式服务为特色,税务,管理与服务,模式提升,由,固定周期和专项事务处理为主,提升,为,以实时快速服务响应 和 动态管理为主,由,侧重于结果分析与总结,提升为,过程与结果并重的管理与服务,由,事后快速响应处理,提升为,事前准确预测与风险防控,大数据在税务中的应用,第三章,74,让我们先看看一些实际应用的例子,一段小视频,75,财税,税源交易信息采集系统对,企业,和,消费者,的服务和价值,精准、高效、全面、便捷,数据准确,采集高效,信息全面,部署使用便捷,管理与服务相结合,以服务为先导,帮助企业提升服务品质和盈利能力,为消费者提供定制化的服务,优化消费体验,系统化数据采集,规避偷漏,以交易环节为核心,采集覆盖顾客消费行为、企业营销相关数据,通过数据关联比对甑别作弊,规避偷漏,掌握自主核心技术,立足于原创,技术领先,系统建设的理念和准则,76,财税物联网系统示意图,77,手机,MAC,服务转发器,POS,机,小,票,打印机,手机,MAC,MAC,MAC,定位设备,定位设备,商家,磁盘阵列,磁盘阵列,磁盘阵列,数据处理服务器,数据处理中心,财税管理部门,用户群,手机,税源数据采集系统拓扑图,GAG ,交易数据采集设备,服务转发器,多功能数据接收器,#,商店名称,会员,:#,会员,收银员,:#,收银员,流水号,:#,流水号,交易时间,:#,交易时间,-,商品 条码 单价 数量 小计,-,#item,#,商品名称, #,导购员,#,条码, #,单价, #,数量, #,小计,#item,-,总件数,:#,总件数,整单折扣,:#,整单折扣,付款方式,:#,付款方式,总计,:#,总计,实收,:#,实收,找零,:#,找零,-,联系电话,:#,联系电话,联系地址,:#,联系地址,-,请当面点清所购商品和找零,并保管好,收银小票以做开发票,退换货凭证,谢,谢惠顾!欢迎下次光临,-,税源数据采集,交易明细数据,精准,税源交易信息,卖方商家,交易时服务转发器位置,买方消费者,手机定位位置,交易地点,准确位置数据,卖方商家信息,组织名称,工商登记号,税务登记号,经营地址等,买方,(,个人,),信息,姓名,身份证号,会员卡号,联系电话,快递地址等,交易主体,准确身份信息,税源采集,交易关联数据,详细内容请点击,ST850,服务转发器,ST600,服务转发器,交易数据获取核心设备,服务转发器,服务转发器工作机制:,服务转发器采用,Gooagoo,独有的专利技术,无需对商家的收银系统做接口开发,利用操作系统消息通讯机制,在应用软件与底层操作系统间获得应用软件向操作系统传输的消息数据,从而获得交易明细数据、会员相关数据、条码扫描数据等交易关联数据。,E-Pad 900,服务转发器,81,交易数据获取核心设备,服务转发器,服务转发器基本功能:,与收银机,POS,进行数据双向交互,,实时,获取交易数据,(能够获取收银小票的所有数据),实时,获取,并上传,企业,(交易参与方)的机构,身份信息,每台服务转发器绑定一家指定企业(卖方),通过与工商、税务等管理机构的监管数据库连接,能够实时获取到该企业的年检、经营资质及范围等合法、合规身份信息,实时,获取,并上传,个人,(交易参与方)的,身份信息,通过与移动设备(手机)的交互,获取交易参与方个人(买方)的信息:手机硬件唯一识别码、,APP,应用的注册信息、商家会员信息等,获取交易,地点,位置,信息,每台服务转发器在部署时,都会标注准确的位置信息(,GPS,经纬度坐标、具体地址、室内区域等信息),在交易过程中会向平台系统上传具体位置数据,服务转发器与室内定位设备配合使用,能够对服务转发器的非授权位置移动进行监控,后台,远程统一管理,平台系统对服务转发器的工作状况进行统一监控、远程升级维护、位置移动监控,82,刷卡,扫描商品,手机,APP,推送订单,现金结账,手机,APP,推送账单,平台系统,多种交易流程支持,示例:,手机交易流程,灵活支持多种交易流程,完成交易数据获取。,商家,信息实体,店,管理操作,平台系统后台,查看商家详细信息,平台系统后台,查看商家交易信息,商家收银位置,转发器生成位置,消费者结账位置,声波采集手机位置,商家收,银台,消费者手机位置,平台系统后台,查看交易关联详细信息,消费者进入商业综合体区域,位置传感器就能够实时捕捉到其位置信息并进行比对识别,通过,Mall,或者联盟商家,Apps,为消费者提供定制化的卖场相关服务信息和促销活动信息(由,Mall,主导的整体促销活动和消费频次最高的商铺),对消费者的位置进行精准定位,当到达目标热点区域或特定商铺时,提供即时的促销信息和消费提示,在消费者付款时,根据消费者的个人偏好和消费习惯,即时推送场内其他商铺的服务信息,提供给商家的整合营销数据服务,以,城市商业综合体为,例:,87,场内即时,PP Message,信息诱导,基于位置的商家优惠信息诱导,基于位置的品牌产品激励信息诱导,收银,台服务客户互动屏诱导,账单即时省钱诱导,会员综合服务诱导,结账票据追加信息诱导,扫描票据二维码成为会员获取奖励,线下会员发展,基于移动身份的会员发展,88,在店中经营你的消费者,路过时经营,数字身份抓取和身份匹配识别,会员发展,个性化店面,进店时经营,会员发展,个性化堆头,个性化海报,进入品类时区域经营,品类区域堆头,品类区域个性化海报,货架前浏览时经营,个性化陈列,货架个性化海报,结算过程中经营,会员发展,购物优惠、积分活动,线上服务联动,促销券发放,交叉营销,89,个性化店面,客显屏个性化,推荐,个性化陈列,基于购买商品的营销,历史消费商品,基于消费整体的营销,好友推荐,基于支付方式的营销,店家吆喝,个性化诱导,离店状态经营你的消费者,90,平台系统后台,税源数据分析,平台系统后台,税源数据分析,提供电子发票管理,手机发送发票信息管理,发票信息录入,交易单据凭证管理,Gooagoo,服务转发器,商户自有,POS,发票打印机,发票管理,内屏:用户手机传送的发票信息,+,发票信息录入,+,交易单据信息,打印发票,发票业务模块,93,电子发票,电子发票的环境因素,电子商务迅猛发展,但电子商务立法不完善,社会信息化水平大幅度提升,技术手段已经成熟,用户使用习惯也有了较好基础,信息安全仍存在隐患,信息安全已经上升到国家战略,电子发票的优势,为国家征税和计税提供了便利,帮助企业的降低运营成本(例如:减少打印发票的纸张成本、发票管理的人工成本),降低企业税费征缴成本,为消费者带来便利,改善用户(消费)体验,需要跨越的障碍,在国家税法、财政以及税务管理体制上需进行变革,推进的难度大,电子发票如何纳入现有的税收体制、财务管理体制,存在规范、标准、流程、信息系统支持等诸多需解决的问题,解决好试点与全国推广之间的矛盾,解决好省市属地管理与全国统一规范之间的矛盾,94,电子发票,支持电子发票的生成、,存储、,核对、打印,。,95,发票自助和优惠券、停车券申领,发票打印服务,停车,券打印服务,优惠凭证打印服务,商品、品牌、店铺查询服务,积分查询服务,与消费者互动,支持手机二维码互动,支持手机精细声波 互动,支持,NFC,、,RFID,会员卡互动,支持磁条卡、,IC,卡等会员卡互动,发票业务模块,自助打印,96,优惠券,分享,扫,二维码将该笔交易,优惠券直接,分享朋友,圈(无需关注电商账号),电子账单下发,关注电商微信账号的用户自动下发详细账单,非关注用户扫二维码获取账单,并可直接分享朋友圈,产品和服务分享,产品和服务评论,关联产品分享,基于微信的逛伴群,品牌逛伴群,零售商家逛伴群,轻松进行社交内容,分发,我在菱角湖万达广场用万汇,卡优惠了,50,元,太赞了!,微信互动模块,97,当前,大数据,的应用只是,冰山一角,绝大部分隐藏在表面之下。,未来,大数据所带来的精彩值得期待!,98,Thank You !,99,
展开阅读全文