商业分析第5章商业信息的管理

上传人:wux****ua 文档编号:22891406 上传时间:2021-06-02 格式:PPT 页数:45 大小:4.04MB
返回 下载 相关 举报
商业分析第5章商业信息的管理_第1页
第1页 / 共45页
商业分析第5章商业信息的管理_第2页
第2页 / 共45页
商业分析第5章商业信息的管理_第3页
第3页 / 共45页
点击查看更多>>
资源描述
-商业数据的分析、挖掘和应用华东师范大学出版社 数据库和数据仓库数据仓库设计数据集市商业信息仓储设计商业智能 数据库和数据仓库 数据库 概念:数据库(Database)是依照某种数据模型组织起来并存放二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复;以最优方式为某个特定组织的多种应用服务;其数据结构独立于使用它的应用程序;对数据的增、删、改和检索由统一软件进行管理和控制。从发展的历史看,数据库由文件管理系统发展起来的,它是数据管理的高级阶段。 数据库建设的必要性: 1.劣质信息要付出成本 2.难以辨别企业最有价值的客户 3.由于不准确的单据,难以对收入进行追踪 4.优质信息将带来明显的好处 数据库管理系统 数据库管理系统之于数据库,就如同文字处理软件之于文件,或电子表格软件之于电子表格。一个是信息,而另一个是人们用来操作这些信息的软件。数据库管理系统层次数据库模型网状数据库模型关系数据库模型 优势更高的灵活性和性能更少的数据冗余和错误更高的安全性 数据仓库 概念: 1990年比尔恩门(Bill Inmon)提出了数据仓库(Data Warehouse)的概念。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。面向主题(Subject Oriented)集成(Integrate)相对稳定(Non-Volatile)反映历史变化(Time Variant) 传统数据库到数据仓库决策处理中的系统响应问题决策数据需求的问题决策数据操作的问题 数据库与数据仓库的区别面向事务设计存储实时数据采用符合范式的规则来设计(尽量避免冗 余)数据库面向主题设计存储历史数据采用反范式的方式来设计(有意引入冗余)数据仓库从数据量来说,数据仓库要比数据库更庞大得多在为应用服务的过程中,数据库与数据仓库往往要结合使用。 5.2.1 相关概念1. 三层结构 三层体系结构,是在客户端与数据库之间加入了一个中间层。三层体系结构的应用程序将业务规则、数据访问、合法性校验等工作放到了中间层进行处理。通常情况下,客户端不直接与数据库进行交互,而是通过与中间层通讯建立连接,再经由中间层与数据库进行交互。 )表示层(Browser)中间层(WebServer)数据层 (DBServer) 表示层位于客户端,一般没有应用程序,借助于Javaapplet、Actives、Javascript、vbscript等技术可以处理一些简单的客户端处理逻辑。 中间层是用户服务和数据服务的逻辑桥梁。它负责接受远程或异地的用户请求,对用户身份和数据库存取权限进行验证,运用服务器脚本,借助于中间件把请求发送到数据库服务器(即数据层),把数据库服务器返回的数据经过逻辑处理并转换成HTML及各种脚本传回客户端。 数据层位于最底层,它负责管理数据库,接受Web服务器对数据库操纵的请求,实现对数据库查询、修改、更新等功能及相关服务,并把结果数据提交给Web服务器。 2. 三级模型和二层映射l 数据库的设计有一个严谨的体系结构,即:三级模式,它包括外模式、概念模式、内模式。三级模式有效地组织、管理数据,提高了数据库的逻辑独立性和物理独立性。l 数据库管理系统在这三级模式之间提供那个了两层映像:外模式/模式映像,模式/内模式映像。 数据仓库的生成05 数据字典和元数据06 物理模型设计04总体分析设计01 逻辑模型设计03 概念模型设计02 1. 总体分析设计 确定研究内容 这一环节主要是明确要研究的内容,即要研究的问题,围绕该问题所需要的数据和信息及如何获得这些信息等方面问题进行研究。 确定主题 这一步中,需要根据所研究的内容确定相应的主题,并尽可能明确主题之间的关系。 以企业为例,当企业在选择促销商品的时候,它可能考虑的主题包括:商品、顾客、供应商。 其中商品主题包含商品编号、商品名称、价格、库存、产品、颜色、大小等;顾客主题包含顾客编号、年龄、姓名、性别、职业等;供应商主题包含供应商编号、供应商所在地、供应商品编号、供应商品名称等。 在这三个主题中,一个供应商可以供应多种商品,一种商品可以由多个供应商供应,供应商主题和商品主题之间的联系就是商品供应关系;一位顾客可以买多种商品,一种商品可以被多个顾客购买,商品主题和顾客主题之间的联系是购买关系;顾客主题和供应商主题之间没有 直接关系,它们之间的关系是通过商品来实现的。 技术环境准备在这一阶段,一般包括两个步骤:a) 要根据要处理的问题来确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括: 管理大数据量的能力; 进行灵活数据存取的能力; 根据数据模型重组数据的能力; 数据发送和接收的能力; 周期性成批装载数据的能力; 可设定完成时间的作业管理能力。 b) 要根据上面的各项性能指标来确定相应的软硬件配置。 2.概念模型设计l 将总体分析设计中得到的用户需求抽象为计算机表示的信息结构,即概念模型。它是从客观世界(用户)到计算机世界的一个中间层次,即用户需求的数据模型。l 概念模型常用的表示方法是实体-关系法(E-R图法),这种方法用E-R图作为描述工具。 3.逻辑模型设计 逻辑模型设计描述了数据的形式,是数据仓库需求部分的重要文档,是数据仓库细化的准备工作。主要包括以下几方面内容: 分析主题域l 主题域是对某个主题进行分析后确定的主题集合的边界。l 选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快的实施。如果所选择的主题域很大并且很复杂,可以针对它某个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域分析。 粒度层次划分l 数据粒度是指数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越高。l 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。 l 通过估算数据行数和所需的直接存取存储设备数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。 确定数据分割策略 在选择数据分割的标准时,一般要考虑以下几个方面因素:数据量、数据分析处理的实际情况、简单易行以及粒度划分策略等。 数据量的大小是决定是否进行数据分割和如何分割的主要因素。 数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的。 关系模式定义 数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,已经确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述,接下来就要对选定的当前实施的主题进行模式划分,形成多个表,最终确定各个表的关系模式。 与概念模型设计中的E-R图相对,逻辑模型设计中需要将其转化为逻辑模型,主要包括星形模型、雪花型模型。 星形模型 用星形模型来表示逻辑模型,设计简单,容易被用户理解。星形模型主要包含两部分:指标实体和维度实体。指标实体是位于星形模型中间的实体,它是用户最关心的实体,为用户的商务活动提供定量的数据,指标实体用矩形表示。维度实体是位于星形模型角星上的实体,其作用是限制用户的查询结果,用菱形表示。雪花型模型 雪花型模型是星形模型的进一步细化。与星形模型相比,雪花模型增加了一个详细类别实体,详细类别实体代表维度内的一个单独层次,用结束符号表示。 4.物理模型设计 物理模型设计主要是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。 要实现数据仓库的物理模型,设计人员必须做到以下几点:a) 全面了解所选用的数据库管理系统,特别是存储结构和存取方法。b) 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些事对空间和时间效率进行平衡和优化的重要依据。 c) 了解外部存储设备的特性,如分块原则、块大小的规定、设备的I/O特性等。根据这些要求,所做的工作包括以下四点: 确定数据的物理存储结构 确定索引策略 确定存储分配 5.数据仓库的生成 这一环节主要是把数据放入数据仓库中,并进行接口的设计,一旦完成,就可以在其上建立数据仓库的应用。设计接口 将操作型环境下的数据装载进数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。 在这一过程中,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明。 数据装入 在这一步里所要进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是: 确定数据装入的次序。 清除无效或错误数据。 数据粒度管理。 数据刷新等。 数据仓库生成完后数据是稳定的,但并不是一成不变的,而是要根据需求在使用过程中不断地维护和更新。 6.数据字典和元数据 严格来说,这并不是建立数据仓库的一个步骤,而是建立数据仓库过程中所要涉及的特殊数据。 数据字典是数据库中各类数据描述的集合,通常包括数据项、数据结构、数据流、数据存储和处理过程五个部分,其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。 数据项 数据项是不可再分的数据单位。对数据项的描述通常包括数据项名、数据项含义说明、数据类型、长度、取值范围、取值含义等。数据结构 数据结构反映了数据之间的组合关系。一个数据结构可以由若干个数据项组成,也可以由若干个数据结构组成。数据结构的描述通常包括数据结构名、含义说明、数据项等。 数据流 数据流是数据结构在系统内传输的路径,对数据流的描述通常包括数据流名、说明、数据流来源、数据流去向、平均流量等。其中“数据流来源”用于说明该数据流来自哪个过程。“数据流去向”用于说明该数据流将到哪个过程去。“平均流量”是指单位时间(如每天)里的传输次数。 数据存储 数据存储是数据结构保存数据的地方,数据存储的描述通常包括数据存储名、说明、编号、输入的数据流、输出的数据流、数据量、存取频度、存取方式。 其中“存取频度”指每小时或每天或每周存取几次、每次存取多少数据等信息。“存取方式”包括是批处理还是联机处理、是检索还是更新、是顺序检索还是随机检索等。另外,“输入的数据流”要指出其来源,“输出的数据流”要指出其去向。“输出的数据流”要指出其去向。 处理过程 处理过程一般用判定表或判定树来描述。数据字典中只需要描述处理过程的说明性信息,通常包括处理过程名、说明、输入、输出、处理。其中“处理”主要说明该处理过程的功能及处理要求。 可见,数据字典是关于数据库中数据的描述,而不是数据本身。数据字典是数据库的元数据。 元数据(MetaData)被定义为关于数据的数据(Data about Data)。 目前,元数据这一术语实际用于各种类型信息资源的描述记录。元数据在数据仓库中是描述数据仓库中数据及其环境的数据。 元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则的说明,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改、跟踪、抽取、装入、综合以及使用等。由于元数据遍及数据仓库的所有方面,因此它已成为整个数据仓库的核心。 数据仓库的元数据共包含有四类元数据,除对数据仓库中数据的描述(数据字典)外,还有以下三类元数据:关于数据源的元数据 关于抽取和转换的元数据 关于最终用户使用数据仓库的元数据 数据库的诞生是一次变革,让数据的存储变得便捷而有序,发展出的数据仓库技术又是一次变革,让数据的价值通过整理和分析更加得以发挥。数据集市是由数据仓库发展而来,某种层面上讲,它是属于企业某个部门的小型数据仓库,强化了一部分功能,拥有更专业的目的。虽然数据集市比企业的数据仓库应用范围更小,包含数据更少,但是进一步支撑了所属部门的数据处理和信息获取能力,是一次体系结构上的巨大进步,是对“大而全”目标反向思考的成功结果。对于部门而言,了解和应用数据集市,并将其与企业数据仓库整合,可能比单纯的使用数据仓库更有效。概述:数据集市(DataMarts),作为一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找 到进入新市场的具体解决方案。是满足部分特殊用户群体用来收集、管理他们本部门、本专业信息的数据仓库。独立数据集市从属数据集市数据集市 数据集市的几个特征: 面向部门,由部门定义、设计和开发,也由部门来管理和维护。数据集市面向部门的,这就要求它的整个实施过程需要由部门来主导,才能达到更贴近部门需求,提高部门实力的效果。 规模小,便于实施,购买较便宜,投资快速回收。数据集市相对数据仓库的规模较小,能够快捷的设立,发挥作用,产生的效益能够较快的覆盖为设立数据集市付出的投资。 提供更详细的、预先存在的、数据仓库的摘要子集,可升级到完整的数据仓库。无论如何,数据集市的数据和功能都是数据 仓库的一个子集,并不拥有数据仓库的全部,一些公司通过先行建立数据集市再完善成数据仓库,这绝对是可以做到的,尽管一些专家认为这可能导致后生成的数据仓库整体性不够而产生问题。 数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持决策支持系统(Decision Support System,DSS)功能。数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性和性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据仓库是面对企业整体事务,数据集市面对部门级业务无论企业的数据仓库是直接建立还是由小型的数据系统逐渐扩充,它都要保证数据对于整个企业内部的协调和统一,这由数据仓库的作用范围所决定。数据集市作为部门级和主题向的相对小型的数据应用,针对他所服务 的对象,必将进行特别的实用性优化,对数据的选取和组合方式也就各有不同,这些数据集市之间设计的不同,并不会对企业的运行产生不良影响,相反可以为服务对象提供更优质的信息服务。数据仓库具有统一性,数据集市各有不同 5.3.3关于商业集市的误区数据集市是一个数据分支子集,它可以从一个数据仓库中找到,或者是为一个单独业务单元提供决策支持而建立的。甚至企业的大部分战略都可以由数据集市来完成,在这个过程中制定行动方针。但是,在建立一个数据集市之前,企业应该知道几个关于数据集市的不切实际的看法。单纯用数据量大小来区分数据集市和数据仓库 用大小来判断一个企业是在实施数据仓库还是数据集市的做法是很片面的。尺寸大小不是数据集市的本质特征,真正的问题在于,数据集市(它可能是一个数据仓库的子集)的数据模型一定是满足应用的特定需求的。简单地理解数据集市容易建立数据集市的确比数据仓库的复杂程度低一些,因为它只针对某一需要解决的特定的商业问题,但是围绕数据获取的很多复杂问题并没有减少。数据集市要从多个数据源中提取数据,这个过程很耗时,因为这个过程与建立一个数据仓库一样,需要相同的计划和管理,并且需要把数据模型化。 数据集市很容易升级成数据仓库事实上,数据集市针对特殊的业务需要,不可能很容易地伸缩。如果没有事先扩展数据模型,追加数据是非常困难的。例如,一个数据集市可以很快找到最畅销款式的鞋的销售数字,为了增加关于这种鞋的信息,比如新顾客的百分比,就需要新的数据模型,这种数据集市的扩充是困难的。 一个组织为何要构建数据集市呢?虽然OLTP和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、“智能的”或易于访问的信息需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市将会:发布特定用户群体所需的信息,且无需受制于数据来源系统(如业务数据库)的大量需求和操作性危机。支持访问非易变的业务信息(非易变的信息是以预定的时间间隔进行更新的,并且不受OLTP系统进行中的更新的影响)。调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的数据。 通过提供对于遗留系统和OLTP应用程序的选择来减少对这些应用程序的要求,以获得更多所需信息。 5.3.5 建模一般数据集市模型的建设是在数据仓库的基础上基于需求分析得到的结果,数据集市的建模主要针对事实表和维表的设计。例如,部门员工关系表,如果事实表包含部门编码,则数据可以分析到部门;如果事实表又包含员工编码,则数据既可以分析到部门,又可以分析到员工。一张事实表除了包含所要分析的维度编码外,还包括需要分析的度量值。例如,用户用电分析事实表,它的主题描述就是按地区、时间、电压等级统计用户的耗电量、应收电费,并进行同期对比;它的维度就是地区、时间、电压等级,度量值包括耗电量、应收电费等;指标来源就是数据仓库中的计费结果表、用户基本信息表。维表一般采用增量的方式进行抽取。 2006年,中国移动决定将数据集市作为移动地市级公司的建设重点之一。电信行业对于数据仓库并不陌生,为了实现从产品导向往客户导向的转变,电信公司纷纷建立以客户为中心的数据仓库,希望依据客户的需要、期望及喜好来制订策略,提升企业竞争力。经过近几年的努力,吉林移动通信有限责任公司已经成功在省级公司建立起了面向决策支持的经营分析系统,商业智能(Business Intelligence,BI)系统也逐渐完善。省级公司从业务系统中将相关业务数据进行抽取、清洗、加工、整理、加载到数据仓库中,在数据仓库中形成基础的分析数据的存储,对地市一级公司的营销策略进行指导。 问题也随之产生,由于下属分公司在客户群体、市场容量、利润来源等地域差异明显,省级公司通过全省范围内分公司数据的汇总和分析,难以对单个地市级分公司产生个性化决策支持。另一方面,地市一级的分公司在开拓终端市场的过程中,激发了旺盛的应用需求,具体表现为对数据粒度的要求更加精细、需求更加灵活多变、要求更强的可操作性。 2005年6月,中国移动通信有限公司制定了中国移动经营分析系统数据集市(试点)业务技术建议书。吉林省吉林市成为12个试点中第一个“吃螃蟹”的城市。吉林移动希望通过数据集市的建设及时准确地了解掌握地市公司的分析需求,更好地为一线地市公司的生产营销服务。吉林市分公司也希望提升自身的经营分析水平,落实集团公司的精细化营销战略。 数据集市项目从2005年6月开始组织需求调研,经历了5个月的建设时间,于2005年11月底上线使用,完成了中国移动集团公司试点所要求完成的所有基本集功能以及符合吉林本地特色的扩展集的内容。 5.4.1信息仓储的开始5.4.2数据仓库还是数据集市5.4.3敏感的商业收益5.4.4资源分配 1.简述数据库、数据库和数据仓库的区别有哪些。 2简述数据库设计流程。 3.对数据集市的误区有哪些,如何正确理解数据集市。 4.数据仓库有哪些实现方案,并简述这些实现方案的优缺点。 5.通过一个商业案例,谈谈你对商业智能的理解。 Click to edit company slogan
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!