大数据与审计文档资料

上传人:无*** 文档编号:182491949 上传时间:2023-01-24 格式:PPT 页数:27 大小:976.50KB
返回 下载 相关 举报
大数据与审计文档资料_第1页
第1页 / 共27页
大数据与审计文档资料_第2页
第2页 / 共27页
大数据与审计文档资料_第3页
第3页 / 共27页
点击查看更多>>
资源描述
1大数据与审计概述马西涛2目录1.信息技术的相关背景知识信息技术的相关背景知识2.大数据的由来及技术体系大数据的由来及技术体系3.大数据在审计中的应用大数据在审计中的应用4.关于大数据审计的几点建议关于大数据审计的几点建议3信息化变革信息化变革发生时间发生时间标志标志解决问题解决问题代表企业代表企业第一次变革1980年前后个人计算机数据处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次变革1995年前后互联网数据传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次变革2010年前后物联网、云计算和大数据数据存储ARM,高通,通用电气,思科,华为,海尔,大唐电信信息化技术发展的三次变革4数据的度数据的度计算机中数据大小的表示1Byte=8 Bit(=bps)1KB =1,024 Bytes1MB =1,024 KB=1,048,576 Bytes1GB =1,024 MB=1,048,576 KB=1,073,741,824 Bytes1TB =1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB =1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes1EB =1,024 PB=1,048,576 TB=1,152,921,504,606,846,976 Bytes1ZB =1,024 EB=1,180,591,620,717,411,303,424 Bytes1YB =1,024 ZB=1,208,925,819,614,629,174,706,176 Bytes5数据的量n在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB)n在2010年时,全球数据总量增加到了1.8ZBn据预计到2020年,全球将总共拥有44ZB的数据量n我国将达到8ZB,占全球总量的18%6大数据起源(Big Data)20082008年年9 9月月科学科学(ScienceScience)杂志发表了一篇文)杂志发表了一篇文章章“BigData:Science in the Petabyte Era”,从此,从此“大数据大数据”这个词开始广泛传播这个词开始广泛传播7大数据大数据4V特征特征结构化数据、半结构化数据和非结结构化数据、半结构化数据和非结构构化数据化数据如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理 能力提出了更高要求数据更新速度快数据更新速度快据统计,淘宝每日的数据量约在10万G左右,百度搜索每日的搜索量达70亿次,新浪微博每日更新数达5千万次,人人网的每日访问量达4亿次。数据量巨大数据量巨大全球在2010 年正式进入ZB 时代,预计到 2020 年,全球将总共拥有44ZB 的数据量沙里淘金,价值密度低沙里淘金,价值密度低虽然数据量很大,但是价值密度较低。通过强大的机器算法更迅速地完成数据价值“提纯”,是目前 大数据亟待解决的难题1.海量(海量(VolumeVolume)3.速度(速度(VelocityVelocity)4.价值(价值(value)2.多样(多样(VarietyVariety)8大数据的定义大数据的定义定义定义 大数据是指无法在一定时间内用常规软件大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据工具对其内容进行抓取、管理和处理的数据集合。集合。维基百科维基百科 大数据是指无法在一定时间范围内用常大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。增长率和多样化的信息资产。百度百科百度百科9google的三大论文(三驾马车)Google公开的三篇论文(2003,2004,2006)The Google File System分布式文件存储系统MapReduce:Simplified Data Processing on Large Clusters分布式并行计算Bigtable:A Distributed Storage System for Structured Data分布式数据库10Hadoop的诞生Hadoop之父Doug CuttingDoug Cutting 根据Google公开的三篇论文思想,以JAVA语言,实现了论文中关于分布式存储、分布式并行计算的机制,由此开启了大数据应用的新时代11大数据核心技术分布式存储分布式处理MapReduce大数据HDFS12HADOOP的体系结构Ambari(安装、部署配置和管理工具)HDFS分布式文件管理系统MapperReduce2/YarnHive数据仓库Pig数据流处理Mahout数据挖掘Zookeeper(分布式协调服务)(分布式协调服务)Sqoop(数据库(数据库TEL工具)工具)Flume(日志收集)(日志收集)HBase(分布式数据库)(分布式数据库)13大数据平台下数据挖掘算法u分类(Classification)u支持向量机(SVM)u神经网络(Neural Network)与深度计算u朴素贝叶斯(Nave Bayes)u决策树(Decision Trees)u聚类(Clustering)u关联规则挖掘 u参数估计(Parameters Estimation)u高维度数据降维(Dimension Reduction)u集成学习(Ensemble Learning)u大图数据算法 u图聚类 u图分类/图划分u图模式匹配(子图同构、最大公共子图)14大数据与传统数据大数据与传统数据GB/TB级高质量干净强结构化关系简单传统数据传统数据vs大数据大数据传统数据传统数据PB级以上有冗余非结构化有缺失关系复杂大数据大数据分布式存储分布式并行计算特征1515两项工作:1、建立标准表2、建立数据分析指引16161、标准表含义:就是按一定规则对被审计单位数据整理后的具有一定规则的数据表2、如何建立标准表:1)部分市局已经统一建立(如财政)2)个别可以交给专业人员建立,或者直接使用17171、数据分析指引的含义:就是审计项目中所有问题形成的清单2、如何建立数据分析指引:将审计事项清单能用SQL语句实现的,写上SQL语句,不能查询的写上怎么查资料1818定义:实质是建立在常规数据基础上信息技术的全面应用技术:主要运用的技术是以SQL查询、比对与关联分析等方法特点:数据类型多,关联性强,各类数据的相互验证应用更加突出19191、转变思路:必须彻底改变传统的思维模式,真正树立数据先行的理念,从原来的经验到账本,变为经验到语句。2、树立信心:大数据审计针对的是常规数据,采用的常规方法。3、学点知识:目前只需要掌握SQL查询语言就可以20201、需要掌握的内容:1)查询一张表 select*from 财务数据2)查询两张表 select*from 财务数据 join 业务数据2、需要掌握的命令:绝大部分:Select from where join on(5)一少部分:group by having(3)系统函数:sum count(2)3、需要牢记的格言:学习三天和学习三年,差距只有一步之遥21211、重点完成统一开展的数据分析项目2、围绕项目,集思广益,发掘思路,建设体系3、提升财务审计智慧化程度4、积极开展大数据核心技术领域的研究2222重点完成统一开展的数据分析项目1、学习、领会统一编发的数据分析指引2、调通数据分析指引的语句3、结合实际经验,完善数据分析思路,丰富指引内容2323围绕项目,发掘思路,集思广益,建设体系1、常规项目中树立建立数据指引意识2、积极汇聚数据分析思路,建立行业数据分析指引2424提升财务审计智慧化程度1、积极固化财务审计方法和思路2、大胆的开拓审计思路3、发掘数据分析思路4、整合数据分析成果,提升审计工具智慧化2525积极开展大数据核心技术领域的研究1、针对大数据核心技术领域开展研究2、积极探索新技术与审计的结合点26261、切实转变传统的审计观念,树立大数据思维2、积极开展数据分析,大胆假设3、创建鼓励和支持大数据审计的氛围,加大支持和保障力度2727谢谢!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!