数据采集的流程与方法课件

上传人:仙*** 文档编号:241432880 上传时间:2024-06-25 格式:PPTX 页数:72 大小:7.59MB
返回 下载 相关 举报
数据采集的流程与方法课件_第1页
第1页 / 共72页
数据采集的流程与方法课件_第2页
第2页 / 共72页
数据采集的流程与方法课件_第3页
第3页 / 共72页
点击查看更多>>
资源描述
1第2章数据采集数据采集统计与数据分析基础&02数据采集统计与数据分析基础&0212第2章数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据目录/Contents2.12.22.32.4数据的类型与来3第2章数据采集2.1.1数据的类型图数据的类型2.1.1 数据的类型图 数据的类型34第2章数据采集2.1.2数据的来源一手数据也称原始数据,是指通过直接调查或科学实验等方式直接获取的数据。具体而言,采取实验观察、问卷调查、抽样调查等方法可以获取一手数据,如图2-2所示。1.一手数据图一手数据的获取方法2.1.2 数据的来源一手数据也称原始数据,是指通过直接调45第2章数据采集2.1.2数据的来源二手数据即他人通过调查或实验取得的数据,如从统计年鉴中获取的居民消费价格指数、从房地产管理部门数据库获取的房价数据等。2.二手数据根据渠道的不同,数据的来源还有内部数据和外部数据之分。内部数据主要包括组织或个人在生产或生活中形成的各种数据;外部数据则是非组织或个人直接产生的数据。专家点拨2.1.2 数据的来源二手数据即他人通过调查或实验取得的数56第2章数据采集云计算和数据库数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的使用。在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。云计算和数据库数据库有很多种类型,从最简单的存储有各种数据的7第2章数据采集云计算和数据库数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。这种数据集合具有如下特点:云计算和数据库数据库中的数据指的是以一定的数据模型组织、描述8第2章数据采集云计算和数据库(1)尽可能不重复;(2)以最优方式为某个特定组织的多种应用服务;(3)数据结构独立于使用它的应用程序;(4)对数据的增、删、改、查由统一软件进行管理和控制。云计算和数据库(1)尽可能不重复;9第2章数据采集云计算和数据库数据库的基本结构分三个层次,反映了观察数据库的三种不同角度。以内模式为框架所组成的数据库叫作物理数据库。以概念模式为框架所组成的数据叫概念数据库。以外模式为框架所组成的数据库叫用户数据库。数据库不同层次之间的联系是通过映射进行转换的。云计算和数据库数据库的基本结构分三个层次,反映了观察数据库的10第2章数据采集云计算和数据库云计算和数据库11第2章数据采集云计算和数据库(1)物理数据层:它是数据库的最内层,是物理存储设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令操作处理的位串、字符和字组成。(2)概念数据层:它是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。(3)用户数据层:它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。云计算和数据库(1)物理数据层:它是数据库的最内层,是物理存12第2章数据采集关系型数据库在现代的计算系统上每天网络上都会产生庞大的数据量,这些数据有很大一部分是由关系数据库管理系统来处理的。1970年E.F.Codd提出的关系模型数据库的论文Arelationalmodelofdataforlargeshareddatabanks,使得数据建模和应用程序编程更加简单。关系型数据库在现代的计算系统上每天网络上都会产生庞大的数据量13第2章数据采集数据库准则关系数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。通过应用实践证明,关系模型非常适合于用户服务器编程,是结构化数据存储在网络和商务应用的主导技术。数据库准则关系数据库是建立在关系模型基础上的数据库,借助于集14第2章数据采集数据库准则当前主流的关系型数据库有Oracle、DB2、PostgreSQL、MicrosoftSQLServer、MicrosoftAccess、MySQL、K-DB等。关系模型是由埃德加科德(EdgarF.Codd)于1970年首先提出,由关系数据结构、关系操作集合、关系完整性约束三部分组成。埃德加科德(EdgarF.Codd)提出的“科德十二定律”是数据存储的传统标准。数据库准则当前主流的关系型数据库有Oracle、DB2、Po15第2章数据采集数据库准则准则0:一个关系形的关系数据库管理系统必须能完全通过它的关系能力来管理数据库。准则1:信息准则,关系数据库管理系统的所有信息都应该在逻辑一级上用表中的值这一种方法显式的表示。准则2:保证访问准则,依靠表名、主码和列名的组合,保证能以逻辑方式访问关系数据库中的每个数据项。准则3:空值的系统化处理,全关系的关系数据库管理系统支持空值的概念,并用系统化的方法处理空值。数据库准则准则0:一个关系形的关系数据库管理系统必须能完全通16第2章数据采集数据库准则准则4:基于关系模型的动态的联机数据字典,数据库的描述在逻辑级上和普通数据采用同样的表述方式。准则5:统一的数据子语言,一个关系数据库管理系统可以具有几种语言和多种终端访问方式,但必须有一种语言,它的语句可以表示为严格语法规定的字符串,并能全面的支持各种规则。准则6:视图更新准则,所有理论上可更新的视图也应该允许由系统更新。准则7:高级的插入、修改和删除操作,系统应该对各种操作进行查询优化。数据库准则准则4:基于关系模型的动态的联机数据字典,数据库的17第2章数据采集数据库准则准则8:数据的物理独立性,无论数据库的数据在存储表示或访问方法上作任何变化,应用程序和终端活动都保持逻辑上的不变性。准则9:数据逻辑独立性,当对基本关系进行理论上信息不受损害的任何改变时,应用程序和终端活动都保持逻辑上的不变性。准则10:数据完整的独立性,关系数据库的完整性约束条件必须是用数据库语言定义并存储在数据字典中的。准则11:分布独立性,关系数据库管理系统在引入分布数据或数据重新分布时保持逻辑不变。准则12:无破坏准则,如果一个关系数据库管理系统具有一个低级语言,那么这个低级语言不能违背或绕过完整性准则。数据库准则准则8:数据的物理独立性,无论数据库的数据在存储表18第2章数据采集数据库准则实体关系模型是PeterP.SChen在关系模型的基础上,于1976年提出的一套数据库的设计工具,他运用真实世界中事物与关系的观念,来解释数据库中的抽象的数据架构。实体关系模型利用图形的方式来表示数据库的概念设计,有助于设计过程中的构思及沟通讨论。数据库准则实体关系模型是Peter P.S Chen在关系模19第2章数据采集ACID原则(1)原子性A(Atomicity):事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚。如银行转账,从A账户转100元至B账户,分为两个步骤:从A账户取100元;存入100元至B账户。这两步要么一起完成,要么一起不完成,如果只完成第一步,第二步失败,钱会莫名其妙少了100元。ACID原则(1)原子性A(Atomicity):20第2章数据采集ACID原则(2)一致性C(Consistency):数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。例如现有完整性约束a+b=10,如果一个事务改变了a,那么必须得改变b,使得事务结束后依然满足a+b=10,否则事务失败。ACID原则(2)一致性C(Consistency):21第2章数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据目录/Contents2.12.22.32.4数据的类型与来22第2章数据采集2.2.1数据采集的流程在采集数据之前,应该清楚需要采集什么样的数据和采集数据的目的,这样才能根据需求和分析对象开展数据采集工作,其基本流程如图2-3所示。图数据采集的基本流程2.2.1 数据采集的流程在采集数据之前,应该清楚需要采集2223第2章数据采集2.2.2数据采集的方法1.问卷调查(1)问卷内容不能过多,题目应当简洁明了,让受访对象感觉可以不用花费过多时间就能完成调查任务。(3)问题的答案选项不能过多,一般应以多项式或等级式的方式显示,方便受访对象填写。(2)问题设计应紧扣受访对象的行为、态度和基本信息等方面。一些敏感信息可以通过物质刺激的方式获取,如要求受访对象填写手机号码一栏,可以不用强制填写,但如果填写,会将优惠券以短信形式发送到手机上以供使用。2.2.2 数据采集的方法1.问卷调查(1)问卷内容不能2324第2章数据采集2.2.2数据采集的方法u就线上采集而言,首先应充分利用线上平台现有的下载功能直接下载数据;u如果不具备该功能,则可考虑通过复制粘贴的方式采集到需要的数据对象;u如果复制操作也无法实现,则考虑使用各种数据爬取工具爬取数据。u就目前而言,由于互联网科技的不断发展,大数据应用越来越广泛,因此线上采集数据的方式显得更加可行和高效。2.下载、复制与爬取2.2.2 数据采集的方法就线上采集而言,首先应充分利用线2425第2章数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据目录/Contents2.12.22.32.4数据的类型与来26第2章数据采集2.3.1生意参谋登录到淘宝、天猫等阿里巴巴电商平台后,单击上方导航栏中的“千牛卖家中心”超链接,然后在显示的页面左侧单击“数据中心”栏中的“生意参谋”超链接,如图2-5所示,即可进入生意参谋数据分析与采集平台,单击该平台导航栏中的不同功能选项卡,则可进入到对应的功能板块。1.基本功能概述图生意参谋入口2.3.1 生意参谋登录到淘宝、天猫等阿里巴巴电商平台后,2627第2章数据采集2.3.1生意参谋生意参谋中的数据可以通过复制粘贴的方式采集到Excel中,其操作非常简单,只需设置需要显示的数据内容,然后拖曳鼠标复制数据,然后在Excel中进行粘贴即可。2.数据采集方法图采集行业数据1TOP1:采集行业数据2.3.1 生意参谋生意参谋中的数据可以通过复制粘贴的方式2728第2章数据采集2.3.1生意参谋图采集行业数据22.3.1 生意参谋图 采集行业数据22829第2章数据采集2.3.1生意参谋TOP2:粘贴数据2.3.1 生意参谋TOP2:粘贴数据2930第2章数据采集2.3.2京东商智京东商智可以对店铺的流量、商品、交易、服务、供应链和客户等数据进行全方位分析。1.基本功能概述u概览u实时图京东商智首页的核心指标区域2.3.2 京东商智京东商智可以对店铺的流量、商品、交易、3031第2章数据采集2.3.2京东商智u实时u流量u商品1.基本功能概述图京东商智的搜索关键词分析界面2.3.2 京东商智实时1.基本功能概述图 京东商智的3132第2章数据采集2.3.2京东商智u交易u服务u供应链u客户u行业1.基本功能概述图京东商智的交易分析界面2.3.2 京东商智交易1.基本功能概述图 京东商智的3233第2章数据采集2.3.2京东商智u竞争1.基本功能概述图京东商智的行业分析界面2.3.2 京东商智竞争1.基本功能概述图 京东商智的3334第2章数据采集2.3.2京东商智2.数据采集方法图通过下载方式采集数据与生意参谋相比,京东商智在采集数据方面更加人性化,当需要采集数据时,只需在相应的功能板块中设置需要采集的日期后,单击界面右上角的按钮,即可根据向导提示将数据保存下来,如图2-16所示。2.3.2 京东商智2.数据采集方法图 通过下载方式采3435第2章数据采集2.3.3店侦探1.基本功能概述监控中心关键词分析监控店铺分析此功能主要用于添加并管理监控的店铺和商品。例如,要添加监控店铺时,首先需要注册并登录店侦探网站,单击左侧导航栏中的“监控中心”功能下的“店铺管理”超链接,然后单击右侧的”添加监控店铺”按钮,此时将打开添加监控店铺的对话框,在其中的文本框中输入或复制竞争店铺的某一款商品的网址,然后依次单击“预览店铺”和“添加监控”按钮即可添加该竞店单击店侦探顶部导航栏中的“全网展示词”超链接,在显示的页面中输入需要分析的关键词,如“新款”,单击“搜索”按钮即可显示淘宝和天猫的关键词综合搜索排名情况单击店侦探左侧导航栏中的“监控店铺分析”功能,在展开的目录中即可分析竞店的各种数据,包括竞店整体状况分析、销售分析、流量来源分析、活动分析、宝贝分析等。使用方法为:单击某个分析超链接,展开其下的子目录,然后单击对应的超链接即可。2.3.3 店侦探1.基本功能概述监控中心关键词分析监控3536第2章数据采集2.3.3店侦探2.数据采集方法在店侦探中,可以利用“导出数据”按钮或“导出”按钮将当前界面中的数据采集到计算机中,方法为:单击“导出数据”按钮或“导出”按钮,自动启动已有的下载软件,设置文件下载后的保存名称和保存位置即可。采集到的数据将保存在Excel表格中,需要时便可打开该表格进行处理和分析。2.3.3 店侦探2.数据采集方法在店侦探中,可以利用“3637第2章数据采集2.3.4八爪鱼采集器八爪鱼采集器内置了大量的采集模板,模板中已经设置好采集任务和采集内容,启用模板就能快速完成数据采集工作。1.模板采集【实验室】采集京东商品搜索数据TOP1:登录八爪鱼采集器TOP2:新建模板任务2.3.4 八爪鱼采集器八爪鱼采集器内置了大量的采集模板,3738第2章数据采集2.3.4八爪鱼采集器TOP4:选择采集模板TOP3:选择网站模板2.3.4 八爪鱼采集器TOP4:选择采集模板TOP3:选3839第2章数据采集2.3.4八爪鱼采集器TOP5:所选模板详情2.3.4 八爪鱼采集器TOP5:所选模板详情3940第2章数据采集2.3.4八爪鱼采集器TOP6:设置任务的基本信息和配置参数TOP7:选择采集方式2.3.4 八爪鱼采集器TOP6:设置任务的基本信息和配置4041第2章数据采集2.3.4八爪鱼采集器TOP8:显示采集过程TOP9:数据采集完成2.3.4 八爪鱼采集器TOP8:显示采集过程TOP9:数4142第2章数据采集2.3.4八爪鱼采集器TOP10:选择导出方式TOP11:设置保存位置和名称2.3.4 八爪鱼采集器TOP10:选择导出方式TOP114243第2章数据采集2.3.4八爪鱼采集器TOP12:导出数据TOP13:采集到的数据2.3.4 八爪鱼采集器TOP12:导出数据TOP13:采4344第2章数据采集2.3.4八爪鱼采集器2.自动识别【实验室】通过自动识别采集租房数据TOP1:自定义采集任务2.3.4 八爪鱼采集器2.自动识别【实验室】通过自动识4445第2章数据采集2.3.4八爪鱼采集器TOP2:新建任务TOP3:自动识别网页数据2.3.4 八爪鱼采集器TOP2:新建任务TOP3:自动识4546第2章数据采集2.3.4八爪鱼采集器TOP4:完成识别TOP5:页面滚动设置2.3.4 八爪鱼采集器TOP4:完成识别TOP5:页面滚4647第2章数据采集2.3.4八爪鱼采集器TOP6:设置翻页采集数据TOP7:删除字段2.3.4 八爪鱼采集器TOP6:设置翻页采集数据TOP74748第2章数据采集2.3.4八爪鱼采集器TOP8:修改字段名称TOP9:删除数据2.3.4 八爪鱼采集器TOP8:修改字段名称TOP9:删4849第2章数据采集2.3.4八爪鱼采集器TOP10:调整字段排列顺序TOP11:生成采集设置2.3.4 八爪鱼采集器TOP10:调整字段排列顺序TOP4950第2章数据采集2.3.4八爪鱼采集器TOP12:开始采集数据TOP13:本地采集2.3.4 八爪鱼采集器TOP12:开始采集数据TOP135051第2章数据采集2.3.4八爪鱼采集器TOP14:停止采集TOP15:确认停止采集数据2.3.4 八爪鱼采集器TOP14:停止采集TOP15:确5152第2章数据采集2.3.4八爪鱼采集器TOP16:导出数据TOP17:去掉重复数据TOP18:选择导出方式TOP19:设置保存位置和名称2.3.4 八爪鱼采集器TOP16:导出数据TOP17:去5253第2章数据采集2.3.4八爪鱼采集器TOP20:采集到的数据2.3.4 八爪鱼采集器TOP20:采集到的数据5354第2章数据采集2.3.4八爪鱼采集器3.手动采集如果需要采集数据的网页既没有模板,也无法识别,则可以通过手动采集的方式采集数据。其方法为:新建采集任务,取消自动识别数据的状态,手动采集需要的各个字段,设置字段名称和位置,然后采集数据并导出到Excel中即可,其流程如图2-53所示。图手动采集数据的流程2.3.4 八爪鱼采集器3.手动采集如果需要采集数据的网5455第2章数据采集2.3.5火车采集器1.普通网址采集【实验室】采集豆瓣图书数据TOP1:登录火车采集器TOP2:新建采集任务TOP3:复制网址2.3.5 火车采集器1.普通网址采集【实验室】采集豆瓣5556第2章数据采集2.3.5火车采集器TOP4:审查元素TOP5:查看代码TOP6:继续查看代码TOP7:设置过滤条件TOP8:采集测试2.3.5 火车采集器TOP4:审查元素TOP5:查看代码5657第2章数据采集2.3.5火车采集器TOP9:继续设置过滤条件TOP10:再次测试TOP11:修改字段名称TOP12:继续修改字段名称2.3.5 火车采集器TOP9:继续设置过滤条件TOP105758第2章数据采集2.3.5火车采集器TOP13:添加字段TOP14:复制代码TOP15:粘贴代码2.3.5 火车采集器TOP13:添加字段TOP14:复制5859第2章数据采集2.3.5火车采集器TOP16:设置前后字符串TOP17:设置代码TOP18:继续设置代码2.3.5 火车采集器TOP16:设置前后字符串TOP175960第2章数据采集2.3.5火车采集器TOP19:测试成功 TOP20:设置保存参数TOP21:打开文本文件模板 TOP22:设置模板内容2.3.5 火车采集器TOP19:测试成功 TOP20:设6061第2章数据采集2.3.5火车采集器TOP23:设置文件保存位置TOP24:保存采集任务TOP26:查看采集到的数据TOP25:开始采集数据2.3.5 火车采集器TOP23:设置文件保存位置TOP26162第2章数据采集2.3.5火车采集器2.批量网址采集TOP1:批量网址设置向导TOP3:设置参数变化规则 TOP2:复制网址TOP4:保存任务2.3.5 火车采集器2.批量网址采集TOP1:批量网址6263第2章数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据目录/Contents2.12.22.32.4数据的类型与来64第2章数据采集2.4.1实训目标及思路本次实训将在BOSS直聘网站中采集与“室内设计师”相关的招聘信息,需要采集到公司名称、成立时间、法人代表、招聘职位、月薪等数据。采集时将涉及到详情页内容的采集,具体操作思路如图2-84所示。2.4.1 实训目标及思路本次实训将在BOSS直聘网站中采6465第2章数据采集2.4.2操作方法TOP1:复制网址TOP2:新建任务2.4.2 操作方法TOP1:复制网址TOP2:新建任务6566第2章数据采集2.4.2操作方法TOP3:建立任务TOP4:取消自动识别2.4.2 操作方法TOP3:建立任务TOP4:取消自动识6667第2章数据采集2.4.2操作方法TOP5:选择网页元素TOP6:创建循环采集规则2.4.2 操作方法TOP5:选择网页元素TOP6:创建循6768第2章数据采集2.4.2操作方法TOP7:采集网页元素TOP8:设置字段2.4.2 操作方法TOP7:采集网页元素TOP8:设置字6869第2章数据采集2.4.2操作方法TOP9:修改字段名称TOP10:启动本地采集功能2.4.2 操作方法TOP9:修改字段名称TOP10:启动6970第2章数据采集2.4.2操作方法TOP11:采集完成TOP12:设置导出方式TOP13:设置保存位置和名称2.4.2 操作方法TOP11:采集完成TOP12:设置导7071第2章数据采集2.4.2操作方法TOP14:数据导出完成TOP15:采集到的招聘数据2.4.2 操作方法TOP14:数据导出完成TOP15:采7172第2章数据采集谢谢观看统计与数据分析基础&人民邮电出版社谢谢观看统计与数据分析基础&人民邮电出版社72
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!