超市数据仓库的构建课件

上传人:痛*** 文档编号:166042147 上传时间:2022-10-31 格式:PPT 页数:82 大小:887.50KB
返回 下载 相关 举报
超市数据仓库的构建课件_第1页
第1页 / 共82页
超市数据仓库的构建课件_第2页
第2页 / 共82页
超市数据仓库的构建课件_第3页
第3页 / 共82页
点击查看更多>>
资源描述
第第8章数据仓库开发实例章数据仓库开发实例 第第8章章 数据仓库开发实例数据仓库开发实例 8.1超市销售数据仓库的规划与分析超市销售数据仓库的规划与分析 8.2数据仓库开发工具简介数据仓库开发工具简介 8.3SQL Server的数据仓库创建的数据仓库创建 8.4SQL Server数据仓库事实表与多维数据集的建立数据仓库事实表与多维数据集的建立第第8章数据仓库开发实例章数据仓库开发实例 8.1 超市销售数据仓库的规划与分析超市销售数据仓库的规划与分析 某大型连锁超市的业务涵盖于3个省范围内的1000多家门市。每个门市都有较完整的日用品和食品销售部门,包括百货、杂货、冷冻食品、奶制品、肉制品和面包食品等,大约5万多种,其中大约45000种商品来自外部生产厂家,并在包装上印有条形码。每个条形码代表了唯一的商品。为该超市建立一个能够提高市场竞争能力的数据仓库,首先需要进行数据仓库的规划分析。这就涉及到对数据仓库的需求分析、模型构建两个过程。第第8章数据仓库开发实例章数据仓库开发实例 8.1.1 超市销售数据仓库的需求分析超市销售数据仓库的需求分析 1超市营销售策略分析超市营销售策略分析 超市最高层管理所关注的是如何通过商品的采购、储存与销售,最大限度地获取利润。需要通过加强对每种商品的管理,减低商品的采购成本和管理费用,吸引尽可能多的客户。其中最重要的是关于商品促销的管理决策。需要依靠合适的促销活动,应用适当的促销策略针对合适的客户,以增加超市的销售利润,是超市数据仓库建设的基本需求。超市不同商品的销售利润是有差别的。希望在数据仓库中通过对商品的赢利分析,了解不同商品的销售赢利状态,以确定企业的销售重点,对那些可以为企业带来较大赢利的商品加大促销力度。第第8章数据仓库开发实例章数据仓库开发实例 8.1.1 超市销售数据仓库的需求分析超市销售数据仓库的需求分析 2超市商品库存分析超市商品库存分析 超市商品的库存状况对超市的利润具有巨大的影响。超市商品的库存状况对超市的利润具有巨大的影响。超市如果能够在合适的时候销售合适的商品,在不出超市如果能够在合适的时候销售合适的商品,在不出现脱销的情况下尽可能减少商品库存的库存成本,是现脱销的情况下尽可能减少商品库存的库存成本,是超市商品库存分析的主要目的。在商品库存分析中,超市商品库存分析的主要目的。在商品库存分析中,管理人员还经常要根据商品的库存量和商品库存成本管理人员还经常要根据商品的库存量和商品库存成本确定商品的销售价格。从超市的商品库存情况来看,确定商品的销售价格。从超市的商品库存情况来看,库存分析实质上是对超市的价值链进行分析,分析商库存分析实质上是对超市的价值链进行分析,分析商品库存在超市的整个价值链上所发挥的作用。品库存在超市的整个价值链上所发挥的作用。第第8章数据仓库开发实例章数据仓库开发实例 8.1.1 超市销售数据仓库的需求分析超市销售数据仓库的需求分析 3超市商品采购分析超市商品采购分析 超市在商品采购工作中需要分析哪些商品是热销的商超市在商品采购工作中需要分析哪些商品是热销的商品,尽可能采购销售热销商品。热销商品往往是加快品,尽可能采购销售热销商品。热销商品往往是加快企业资金流动的动力,快速流动的资金可以使企业在企业资金流动的动力,快速流动的资金可以使企业在一定的时间内取得比其他企业更多的利润。而且超市一定的时间内取得比其他企业更多的利润。而且超市营销管理人员在了解热销商品后,可以大量采购热销营销管理人员在了解热销商品后,可以大量采购热销商品,重新安排热销商品的货架,向更多的客户推销商品,重新安排热销商品的货架,向更多的客户推销热销商品,便于更多客户的购买,以进一步加快企业热销商品,便于更多客户的购买,以进一步加快企业资金的流动。资金的流动。第第8章数据仓库开发实例章数据仓库开发实例 8.1.1 超市销售数据仓库的需求分析超市销售数据仓库的需求分析 4超市客户关系分析超市客户关系分析 用用80:20理论分析,占企业客户群理论分析,占企业客户群20%左右的客户购左右的客户购买金额往往占据了企业销售金额的买金额往往占据了企业销售金额的80%。对客户群体。对客户群体的划分有利于企业了解企业的主要客户群体状况、主的划分有利于企业了解企业的主要客户群体状况、主要客户群对企业销售服务的需求状况、不同客户群为要客户群对企业销售服务的需求状况、不同客户群为企业所带来的利润状况。企业所带来的利润状况。在对客户进行类型划分的基础上,可以针对不同客户在对客户进行类型划分的基础上,可以针对不同客户群体的特点采用不同的营销策略,对客户群体的消费群体的特点采用不同的营销策略,对客户群体的消费进行合理的引导。进行合理的引导。超市客户的流失,意味着企业赢利的降低。企业管理超市客户的流失,意味着企业赢利的降低。企业管理者希望了解哪些客户可能会流失,使企业能够提前设者希望了解哪些客户可能会流失,使企业能够提前设法加以挽留。法加以挽留。第第8章数据仓库开发实例章数据仓库开发实例 8.1.2 超市销售数据仓库超市销售数据仓库E-R模型构造模型构造 数据仓库设计中就首先考虑营销主题的设计,确定超数据仓库设计中就首先考虑营销主题的设计,确定超市营销主题模型市营销主题模型 采用了星型模型,没有采用雪花模型。因为雪花模型采用了星型模型,没有采用雪花模型。因为雪花模型通过对维表的分类细化描述,对于主题的分类详细查通过对维表的分类细化描述,对于主题的分类详细查询具有良好的响应能力。但是雪花模型的构造在本质询具有良好的响应能力。但是雪花模型的构造在本质上是一种数据模型的规范化处理,会给数据仓库操作上是一种数据模型的规范化处理,会给数据仓库操作带来不同表的连接困难带来不同表的连接困难。但是在对维度表进行维护时,。但是在对维度表进行维护时,可能需要对大量重复值进行修改。可能需要对大量重复值进行修改。星型模型通过对维表的冗余应用,以牺牲维表空间来星型模型通过对维表的冗余应用,以牺牲维表空间来换取数据仓库的高性能与易使用的优势。换取数据仓库的高性能与易使用的优势。第第8章数据仓库开发实例章数据仓库开发实例 8.1.2 超市销售数据仓库超市销售数据仓库E-R模型构造模型构造日期商品促销客户门市商品营销第第8章数据仓库开发实例章数据仓库开发实例 8.1.3 超市数据仓库事实表模型超市数据仓库事实表模型 确定在数据仓库中,怎样的粒度数据才能满足管理人员对数据仓库营销策划分析的需要。超市商品销售主题中,最理想的原子数据是来自POS机上的每个销售事务数据 分析超市高层管理人员通过那些角度,即需要通过那些维度来考察、选择营销方案。一般情况下,在确定超市营销策划时,超市管理人员需要通过日期、商品、门市、促销和客户五个维度对促销方案进行分析,了解促销方案的可用性和效果 第第8章数据仓库开发实例章数据仓库开发实例 超市营销数据仓库事实表模型超市营销数据仓库事实表模型 超市营销主题日期关键字门市关键字商品关键字促销关键字商品销售编号商品销售量商品销售额商品成本商品销售利润日期维日 期 关键字商品维商 品 关键字门市维门 市 关键字促销维促 销 关键字客户维客 户 关 键字第第8章数据仓库开发实例章数据仓库开发实例 超市营销数据仓库事实表模型超市营销数据仓库事实表模型 从销售系统中可直接获取商品销售量、销售单价、商从销售系统中可直接获取商品销售量、销售单价、商品成本。但管理人员考察超市的营销策略时,需要考品成本。但管理人员考察超市的营销策略时,需要考虑营销策略和相应的商品销售利润。商品销售利润可虑营销策略和相应的商品销售利润。商品销售利润可以直接通过商品销售量、销售单价和商品成本计算获以直接通过商品销售量、销售单价和商品成本计算获得,但商品销售利润具有良好的可加性,管理人员又得,但商品销售利润具有良好的可加性,管理人员又经常需要查看。将利润数据存放在事实表中可大大减经常需要查看。将利润数据存放在事实表中可大大减少数据仓库工作时的工作量,还可以保证所有用户在少数据仓库工作时的工作量,还可以保证所有用户在使用商品销售利润这一重要数据时的一致性。使用商品销售利润这一重要数据时的一致性。商品销售单价对于计算商品利润十分重要,但将某个商品销售单价对于计算商品利润十分重要,但将某个商品一段时间内的所有销售单价相加是毫无意义的。商品一段时间内的所有销售单价相加是毫无意义的。管理人员可能只对某一时间段内某个商品的平均销售管理人员可能只对某一时间段内某个商品的平均销售价感兴趣。平均销售价格可以用该时间段内的商品销价感兴趣。平均销售价格可以用该时间段内的商品销售额除以商品销售量获取。在事实表中可以不用商品售额除以商品销售量获取。在事实表中可以不用商品销售单价,代之以商品销售额,销售额也常常是管理销售单价,代之以商品销售额,销售额也常常是管理人员衡量营销策略好坏的重要指标。人员衡量营销策略好坏的重要指标。第第8章数据仓库开发实例章数据仓库开发实例 超市营销数据仓库事实表模型超市营销数据仓库事实表模型 超市管理者还可能对商品销售的利润率感兴趣,该数据可以用商品销售利润除以销售额获得,该数据不是一个可加数据。将比率或百分数的数据进行相加,所获得的数据是没有什么意义的。管理人员在了解某一时期某些商品的利润率时,完全可以利用该时期该商品利润和销售额获得。因此,事实表中确定度量数据为商品销售量、商品销售额、商品成本和商品销售利润。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计 1.1.日期维日期维 日期维模型是许多数据仓库应用中的常用维度,其设日期维模型是许多数据仓库应用中的常用维度,其设计方式与其他多数维模型有差别。具体设计时,日期计方式与其他多数维模型有差别。具体设计时,日期维可以存放以日期表示的维可以存放以日期表示的5到到10年的数据行,也可以将年的数据行,也可以将3至至4年的数据行作为日期维内容。如果对年的数据行作为日期维内容。如果对10年的每一年的每一天都进行存储,也只需要天都进行存储,也只需要3650行行 日期维的每列由行所代表的特定日期进行定义。日期维的每列由行所代表的特定日期进行定义。“星星期期”列含有像列含有像“星期一星期一”这样的名称内容,该列可用这样的名称内容,该列可用于创建比较于创建比较“星期一星期一”与与“星期日星期日”销售情况对比的销售情况对比的查询。日历日期编号从查询。日历日期编号从1开始取值,然后根据月份的情开始取值,然后根据月份的情况取到况取到28、29、30或者或者31,这一列主要用于对每个月,这一列主要用于对每个月的同一天进行比较。同样,可以给出日历周编号、和的同一天进行比较。同样,可以给出日历周编号、和日历月编号日历月编号(1,12)。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计 纪元表示法采用从某纪元开始连续对日期进行计数的方纪元表示法采用从某纪元开始连续对日期进行计数的方法来给出日编号,在表中还可以给出法来给出日编号,在表中还可以给出“星期星期”与与“月份月份”的绝对编号列。这些数据支持跨年度跨月份的简单数据的绝对编号列。这些数据支持跨年度跨月份的简单数据运算。在生成报表时,经常要给出像运算。在生成报表时,经常要给出像“一月一月”这样的月这样的月份名称。因此,为报表确定一个份名称。因此,为报表确定一个“年月年月”(YYYY-MM)列标题也有必要。报表中很可能需要季度编号列标题也有必要。报表中很可能需要季度编号(Q1,Q4)或年季度编号列。如果企业的财政年度与日历表在或年季度编号列。如果企业的财政年度与日历表在周期上不一致,还需要为财政年度给出类似列。周期上不一致,还需要为财政年度给出类似列。在在“节假日节假日”列中给出列中给出“节假日节假日”或者或者“非节假日非节假日”的的内容,维表属性作为数据分析的导航,简单地在内容,维表属性作为数据分析的导航,简单地在“节假节假日日”列中给出列中给出“Y”或者或者“N”对数据分析没有多大用处。对数据分析没有多大用处。例如,在生成某种商品的节假日与非节假日销售情况比例如,在生成某种商品的节假日与非节假日销售情况比较查询时,列中给出较查询时,列中给出“节假日节假日”或者或者“非节假日非节假日”这样这样有意义的值要比一个简单的有意义的值要比一个简单的“Y”或者或者“N”之类的值有之类的值有用得多。用得多。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计“星期六星期六”与与“星期日星期日”要归入要归入“周末周末”之列。当然,之列。当然,可以对多个日期表属性进行共同约束,从而能够实现可以对多个日期表属性进行共同约束,从而能够实现一些像平日假期销售与周末假期销售进行比较的数据一些像平日假期销售与周末假期销售进行比较的数据仓库应用。仓库应用。“销售时节销售时节”列应设置为销售时节的名称,例如,春列应设置为销售时节的名称,例如,春节、情人节、端午节、五一节、国庆节、中秋节、重节、情人节、端午节、五一节、国庆节、中秋节、重阳节、圣诞节、或者标为阳节、圣诞节、或者标为“不是不是”。“重大事件”列与“销售时节”列情形类似,可以标记为“周日大采购”或者“中秋合家欢”这样与日期有特殊联系的促销事件。而一般性的促销活动通常不放在日期表中处理,以促销维表的形式进行更加完整的描述。因为促销事件并不是仅仅由日期来定义,通常还需要由日期、商品与商店的组合来定义。第第8章数据仓库开发实例章数据仓库开发实例 日期维度销售事实日期关键字日期关键字星期商品关键字日历日期编号门市关键字日历周编号促销关键字日历月编号客户关键字纪元日编号POS事务编号纪元周编号销售量纪元月编号销售额财政月日编号成本额年度日历周数利润金额年度日历月数日历年月(YYYY-MM)日历季度日历年季度日历半年度第第8章数据仓库开发实例章数据仓库开发实例 日历年财政周年度财政周数财政月年度财政月数财政年月财政季度财政年季度财政半年度财政年节假日指示符星期指示符销售时节重大事件第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计2.商品维商品维一般超市门市可能存储一般超市门市可能存储60000个商品编号,但大型连锁超市保留个商品编号,但大型连锁超市保留不再销售的历史商品营销方案情况,商品维度可能至少需要不再销售的历史商品营销方案情况,商品维度可能至少需要150000行乃至多达百万行。行乃至多达百万行。商品维度数据主要来源于业务系统的商品主文件。超市总部对所商品维度数据主要来源于业务系统的商品主文件。超市总部对所销售商品的主文件进行统一管理。销售商品的主文件进行统一管理。商品主文件的一个重要作用,就是维护每个商品存储标志的许多商品主文件的一个重要作用,就是维护每个商品存储标志的许多描述属性。商品维是一组重要的属性。描述属性。商品维是一组重要的属性。某个商品种类包含多个商品子类,商品子类包含多个商标,商标某个商品种类包含多个商品子类,商品子类包含多个商标,商标包含多个商品存储标志。包含多个商品存储标志。还应包含描述商品形状或存储位置的层次属性,例如商品的包装还应包含描述商品形状或存储位置的层次属性,例如商品的包装类型、包装尺寸、包装数量、托盘中的包装数,以及与商品存储类型、包装尺寸、包装数量、托盘中的包装数,以及与商品存储的层次:存储类型、货架结构等维度。的层次:存储类型、货架结构等维度。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计 3.门市维门市维 门市维表用于描述超市的各个链锁店。门市维表是基门市维表用于描述超市的各个链锁店。门市维表是基本的地理维度,每个门市可被看成一个位置。这样,本的地理维度,每个门市可被看成一个位置。这样,可以由门市形成诸如街道、邮政编码、县、市、省这可以由门市形成诸如街道、邮政编码、县、市、省这样的任意地理属性。地理体系与门市地区体系对每个样的任意地理属性。地理体系与门市地区体系对每个门市来说,都有良好的定义。门市来说,都有良好的定义。在连锁超市所使用的门市维表中有建筑面积、金融服在连锁超市所使用的门市维表中有建筑面积、金融服务、最早开业时间等描述特定门市的文字描述。描述务、最早开业时间等描述特定门市的文字描述。描述销售面积的列应该是数字型的,并且在理论上是跨门销售面积的列应该是数字型的,并且在理论上是跨门市可相加的,以表示某一地区的销售面积。它是门市市可相加的,以表示某一地区的销售面积。它是门市的一个不变属性,通常作为报表约束或者行标题使用。的一个不变属性,通常作为报表约束或者行标题使用。而且为了能够分析不同种类商品对超市销售利润的贡而且为了能够分析不同种类商品对超市销售利润的贡献情况,还需要设立不同商品的销售面积。献情况,还需要设立不同商品的销售面积。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计 4.促销维促销维 超市的促销方案可能包含:临时降价、柜台展销、报超市的促销方案可能包含:临时降价、柜台展销、报纸广告与优惠券发放等。促销维应该可以反映商品促纸广告与优惠券发放等。促销维应该可以反映商品促销方案的成效。销方案的成效。促销的成效评估因素:促销商品的销售是否在促销区促销的成效评估因素:促销商品的销售是否在促销区间出现增长、是否在促销进行之前或者随后出现减少间出现增长、是否在促销进行之前或者随后出现减少状况;是否发生促销商品的销售出现增长,而临近货状况;是否发生促销商品的销售出现增长,而临近货架上的其他商品销售却呈现出相应的降低情况架上的其他商品销售却呈现出相应的降低情况(同类相同类相食食);促销类别中所有商品的销售是否都经历了一个实;促销类别中所有商品的销售是否都经历了一个实际的总体增长;促销是否赢利。促销利润的计算要考际的总体增长;促销是否赢利。促销利润的计算要考虑促销类别的利润增量与时间过渡、同类调剂以及销虑促销类别的利润增量与时间过渡、同类调剂以及销售底线等各种情况。售底线等各种情况。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计 4.促销维促销维 在促销维度中为促销出现的每种组合都建立一行记录是很有在促销维度中为促销出现的每种组合都建立一行记录是很有意义的。在一年的销售活动中,可能出现意义的。在一年的销售活动中,可能出现1000个广告,个广告,5000次临时降价和次临时降价和1000次柜台展销,但可能只有次柜台展销,但可能只有10000个组合促个组合促销能影响任何特定的商品。例如,在某给定维度中,大多数销能影响任何特定的商品。例如,在某给定维度中,大多数门市都会同时运作所有促销售手段,而只有少数几个门市不门市都会同时运作所有促销售手段,而只有少数几个门市不进行柜台展销。在这种情况下,就需要两个单独的促销记录进行柜台展销。在这种情况下,就需要两个单独的促销记录行,一个用于通常的降价并外加广告与柜台展销,而另一个行,一个用于通常的降价并外加广告与柜台展销,而另一个用于降价并外加单纯的广告。用于降价并外加单纯的广告。超市的促销维度可以包含促销名称、减价类型、促销媒体类超市的促销维度可以包含促销名称、减价类型、促销媒体类型、广告类型和优惠券类型等。超市的主要促销方式是降价、型、广告类型和优惠券类型等。超市的主要促销方式是降价、广告、柜台展销与优惠券。如果将这些因素分别建立促销维广告、柜台展销与优惠券。如果将这些因素分别建立促销维度,就可以记录分析这些促销方法非常相似的信息,使用户度,就可以记录分析这些促销方法非常相似的信息,使用户更加容易理解促销方案的作用。但是将所有的促销因素合并更加容易理解促销方案的作用。但是将所有的促销因素合并在一个维表中,则能够方便用户的浏览,能够弄清各种不同在一个维表中,则能够方便用户的浏览,能够弄清各种不同的价格降低、广告、展销与优惠券是如何在一起共同发挥促的价格降低、广告、展销与优惠券是如何在一起共同发挥促销作用的。销作用的。第第8章数据仓库开发实例章数据仓库开发实例 8.1.4 超市数据仓库维表模型设计超市数据仓库维表模型设计 5.客户维客户维 超市的客户维度可以包含客户账号、姓名、地址、所在地区、超市的客户维度可以包含客户账号、姓名、地址、所在地区、邮政编码、电子信箱、电话、日常活动范围、出生日期、收邮政编码、电子信箱、电话、日常活动范围、出生日期、收入、孩子数量、住房和汽车等内容。在客户维中的地址由于入、孩子数量、住房和汽车等内容。在客户维中的地址由于客户可能会给出其家庭地址、工作地址或其它一些常用地址,客户可能会给出其家庭地址、工作地址或其它一些常用地址,因此在维表中可以设置因此在维表中可以设置4个地址,对于电话的设置也是出于个地址,对于电话的设置也是出于相同因素的考虑。在数据仓库的应用中有时需要对客户按照相同因素的考虑。在数据仓库的应用中有时需要对客户按照不同的地区进行分析,为此,在维表中就按照省、市、县不同的地区进行分析,为此,在维表中就按照省、市、县(区)邮政编码进行地区的设置。性别、婚姻状况、家庭人(区)邮政编码进行地区的设置。性别、婚姻状况、家庭人口、住房条件和自有汽车情况均是超市销售管理人员对超市口、住房条件和自有汽车情况均是超市销售管理人员对超市营销策略进行分析的主要依据。出于超市营销策略制定的考营销策略进行分析的主要依据。出于超市营销策略制定的考虑,还需要了解客户的日常活动范围,以便有针对性地进行虑,还需要了解客户的日常活动范围,以便有针对性地进行促销广告的发送。促销广告的发送。第第8章数据仓库开发实例章数据仓库开发实例 8.1.5 超市数据仓库模型的关键字设计超市数据仓库模型的关键字设计 采用代理关键字技术,而不是依赖业务系统中的各种关键字采用代理关键字技术,而不是依赖业务系统中的各种关键字(许多业务系统中的各种编码往往具有某种特定的含义)(许多业务系统中的各种编码往往具有某种特定的含义)代理关键字一般采用在填充维度时按需要而顺序分配的整数代理关键字一般采用在填充维度时按需要而顺序分配的整数值。例如,为第一条商品记录分配一个值为值。例如,为第一条商品记录分配一个值为1的商品代理关的商品代理关键字,第二条分配键字,第二条分配2,第,第n条分配条分配n等。代理关键字仅仅用于等。代理关键字仅仅用于维度表到事实表的连接。维度表到事实表的连接。代理关键字的好处还能够对数据仓库环境的操作型变化进行代理关键字的好处还能够对数据仓库环境的操作型变化进行缓冲,不会受到商品编码生成、更新、删除、再生与重用等缓冲,不会受到商品编码生成、更新、删除、再生与重用等操作型规则的妨碍。代理关键字允许数据仓库对来自多个业操作型规则的妨碍。代理关键字允许数据仓库对来自多个业务型系统的数据进行合并,即使它们之间缺乏一致的源关键务型系统的数据进行合并,即使它们之间缺乏一致的源关键字也无所谓。字也无所谓。第第8章数据仓库开发实例章数据仓库开发实例 8.1.5 超市数据仓库模型的关键字设计超市数据仓库模型的关键字设计 使用代理关键字还可以获得性能上的优势。代理关键字可能只有一个整数所占据的空间大小,却能确保充裕地容纳维度行以后可能需要的序号或者最大编号。而业务型编码常常是一个混合了字母与数字的区间编码体系。代理关键字还能够用于记录那些诸如“不在促销之列”这样的可能没有业务系统中编码的维度情形。通过对数据仓库的关键字施加控制,就能够做到不管是否缺少业务型编码,总可以分配一个代理关键字将这类情况标识出来。将代理日期关键字处理成日期序号,可以允许事实表在日期关键字基础上进行物理分区。第第8章数据仓库开发实例章数据仓库开发实例 8.1.5 超市数据仓库模型的关键字设计超市数据仓库模型的关键字设计 目前在超市数据仓库中已经包含了6个实际的表:营销事实表与日期、商品、门市、促销和客户维表。每个维表有一个主关键字,而事实表除了有一个退化的销售事务编号之外,还有由五个外关键字组成的一个复合关键字。如果五个关键字都是进行了紧凑处理的连续整数,那么仅仅需要为所有五个关键字保留18个字节的小存储空间(日期、商品、促销和客户维各用4个字节,而门市用2个字节)。同时,销售事务编号可能另外需要8个字节。如果事实表4类事实(销售量、销售额、成本和利润)中的任何一个都是4字节的整数,则仅仅需要再保留另外的16个字节,这样事实表只有42个字节宽。对一个10亿行的事实表也只占用大约42GB的存储空间就可以存储所有事实数据。第第8章数据仓库开发实例章数据仓库开发实例 8.1.6 超市数据仓库元数据设计超市数据仓库元数据设计 销售主题元数据名称Sales描述整个超市中每个门市中每个POS机所记载的商品销售状况目的用于进行超市销售状况和促销情况的分析联系人各个门市销售经理维时间、商品、客户、商店、促销事实销售事实表度量值销售成本、销售额、销售利润、销售量第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据名称Sales_Fact_年份描述记录每个门市每个POS机所发生的销售数据目的作为销售主题的分析事实使用状况每天平均查询次数每天平均查询返回行数每天查询平均执行时间(分钟)每天最大查询次数每天查询返回最大行数每天查询最大执行时间(分钟)存档规则每个月将前36个月的数据存档存档状况最近存档处理日期已经存档数据日期更新规则每个月将前60个月的数据从数据仓库中删除更新状况最近更新处理日期已更新数据日期第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据销售事实元数据数据质量要求及确认由于从各个门市POS机上所产生的数据可能会由于极少的人工输入,而使数据质量不能得到保证,但也真实地反映了销售现状,不能随意修改,应被认可。数据准确性要求必须百分百地反映各个门市销售状况数据粒度要求能够反映每一项商品的销售状况,不对数据进行汇总表键事实表的键是时间、商品、客户、商店和促销维中键的组合数据来源超市销售业务系统中的销售表(sales_fact_年份)加载周期每天一次加载状况最后加载日期加载的行数加载规则每天清晨3:00将各个超市门市中前一天的销售事实数据拷贝到本表,拷贝过程中要根据各个数据成员所定义的加载规则进行筛选和清理第第8章数据仓库开发实例章数据仓库开发实例 维元数据 销售事实元数据名称客户(Customer)定义从超市任何一个门市购买货物的任何个人或组织都称为客户,一个客户可以与多个销售地区发生联系(即出现在地理维的不同层次体系中)层次结构一个客户的数据可以在3个级别上进行统计:最低级别是出现在客户所在的县/区,其上为市、省更改规则新的客户位置作为新的一行插入维中。对已有位置的修改,则在原处更新加载频率每天一次加载统计数据最后加载日期加载的行数使用的统计数据每天平均查询个数每天查询返回的平均行数每天查询平均执行时间(分钟)每天最大的查询个数每天查询返回的最大行数每天查询执行的最长时间(分钟)第第8章数据仓库开发实例章数据仓库开发实例 维元数据 销售事实元数据存档规则每个月将前36个月的数据存档已经存档数据日期更新规则每个月将前60个月的数据从数据仓库中删除更新状况最近更新处理日期已经更新数据日期数据质量增加一个新客户时,先检查是否已在其他地方和该客户做过交易。少数情况下,由于检查失败,会将一个客户的不同部门作为不同客户保存。直到客户注意到在不同的地方与公司交易时,以前的记录仍保持不变。地区属性并不是销售业务系统原有的,而是根据送货地址属性中的邮政编码进行区分数据的准确程度一个客户与其地理位置的关联出错的可能性在某一百分比以下,该百分比大小要根据对业务数据的研究情况确定关键字客户维的关键字是系统产生的数字第第8章数据仓库开发实例章数据仓库开发实例 维元数据 销售事实元数据产生关键字的方法从销售业务系统中拷贝一个客户时,将检查转换表,检查该客户是否已经存在于数据仓库中。如果否,就产生一个新的关键字。然后将这个关键字和销售业务系统中的CustomID和地区ID插入转换表中。如果该客户和位置已经存在于转换表,就根据表中的关键字决定数据仓库中要更新的记录源表名称超市销售业务系统中的Customer表加载规则每天拷贝每个Customer表中的行。对于已存在的客户,进行更新。对于新客户,确定其所在地理位置之后,产生一个关键字,然后插入一行新记录。在更新插入操作之前,需要检查是否有重复的客户名。如果有,则在客户名后增加一个顺序号,直到名字以及名字和顺序号的组合都没有重复为止。加载规则只选择新的和发生变化的行源表名称Customer_Location表转换规则每天拷贝一次Customer_Location表。对于已存在的客户,更新其送货地址;对于新的客户,则产生一个键,并插入一行。第第8章数据仓库开发实例章数据仓库开发实例 数据成员元数据 销售事实元数据名称客户关键字(Customer_ID)定义用以唯一标识客户和位置的值更新规则一旦分配,就不改变数据类型数值型值域1999,999,999产生规则由系统自动产生,将当前最大值增l来源系统自动生成第第8章数据仓库开发实例章数据仓库开发实例 数据成员元数据 名称客户名称(Customer_Name)定义客户的名称更新规则 客户名称发生改变时,就在原来的记录上更新数据类型 Char(30)值域保证能区分不同客户的名称。对不同而具有相同名称的客户,可在名称后依次加1来区分相同名称来源超市销售业务系统中Customer表中的Name产生规则 对于零售客户,其名称由姓和名组成。对于公司,则将公司名作为客户名称销售事实元数据第第8章数据仓库开发实例章数据仓库开发实例 8.2 数据仓库开发工具简介数据仓库开发工具简介销售事实元数据8.2.1 数据仓库开发工具数据仓库开发工具目前已有许多数据仓库开发工具供应商,可以提供各种构建数据仓库的工具。但有些数据仓库开发工具还要结合第三方供应商工具才能完成整个数据仓库的构建。1.Oracle数据仓库开发工具数据仓库开发工具以Oracle 9i为核心的数据仓库构建体系;可以进行数据建模、数据抽取、数据转移和装载、聚合、元数据管理的Oracle Warehouse Builder;能够为最终用户提供查询、报告、下钻、旋转和WEB公布工具的Oracle Discoverer;可以对数据仓库进行数据挖掘、提供决策树、神经网络等多种数据挖掘方法、具有简单易用的图形化界面、支持海量数据并行处理、进行结果分析和系统集成的Oracle Darwin。第第8章数据仓库开发实例章数据仓库开发实例 2.IBM数据仓库开发工具数据仓库开发工具销售事实元数据基于可视数据仓库的商业智能(基于可视数据仓库的商业智能(BI)解决方案,具有)解决方案,具有集成能力强,面向对象集成能力强,面向对象SQL等特性。其中等特性。其中Visual Warehouse(VW)是一个功能很强的集成环境,可用)是一个功能很强的集成环境,可用于数据仓库建模和元数据管理,又用于数据抽取、转换、于数据仓库建模和元数据管理,又用于数据抽取、转换、装载和调度;装载和调度;Essbase/DB2 OLAP Server支持多维数据支持多维数据库,它是一个(库,它是一个(ROLAP和和MOLAP)混合的)混合的HOLAP服服务器,在务器,在Essbase完成数据装载后,数据存放在系统指完成数据装载后,数据存放在系统指定的定的DB2 UDB数据库中;数据库中;QUEST是一个多任务数据挖是一个多任务数据挖掘系统,系统提供多种开采功能,挖掘算法可适用于任掘系统,系统提供多种开采功能,挖掘算法可适用于任意大小的数据库。意大小的数据库。第第8章数据仓库开发实例章数据仓库开发实例 3Sybase数据仓库开发工具销售事实元数据数据仓库解决方案能够支持多种关系型数据库,能够同时处理几数据仓库解决方案能够支持多种关系型数据库,能够同时处理几十个即席查询。其中十个即席查询。其中Bit_WiscBit_Wisc技术和垂直数据存储技术使系统可以技术和垂直数据存储技术使系统可以只访问特定的少量数据。只访问特定的少量数据。Warehouse ArchitectWarehouse Architect是是Power DesignerPower Designer中的一个设计模块,数据中的一个设计模块,数据集市或数据仓库设计者利用该模块可以自动地对已有的关系数据库集市或数据仓库设计者利用该模块可以自动地对已有的关系数据库进行目标数据库设计、物理设计和进行目标数据库设计、物理设计和DDLDDL设计。设计。Power StagePower Stage、Replication ServerReplication Server、Carleton PASSPORTCarleton PASSPORT是数据抽取与转换工具。是数据抽取与转换工具。Adaptive Server IQAdaptive Server IQ是专为数据仓库设计的关系数据库。是专为数据仓库设计的关系数据库。Power Power DimensionsDimensions、English WizardEnglish Wizard、Info MakerInfo Maker、Power DynamoPower Dynamo是数据是数据分析与展现工具。分析与展现工具。Warehouse Control CenterWarehouse Control Center、Sybase CentralSybase Central、Distribution DirectorDistribution Director是数据仓库的维护与管理工具。是数据仓库的维护与管理工具。Industry Warehouse StudioIndustry Warehouse Studio包括相应行业所需的商业智能应用软包括相应行业所需的商业智能应用软件和数据分析模型,可以针对不同行业进行业绩分析、促销活动分件和数据分析模型,可以针对不同行业进行业绩分析、促销活动分析、销售分析和收益分析等,具有数据仓库设计、元数据管理等功析、销售分析和收益分析等,具有数据仓库设计、元数据管理等功能、支持广泛的应用软件和报表,并提供能、支持广泛的应用软件和报表,并提供Warehouse Studio Warehouse Studio 的设计的设计工具、工具、Warehouse Control CenterWarehouse Control Center等工具。等工具。第第8章数据仓库开发实例章数据仓库开发实例 4Informix数据仓库开发工具销售事实元数据Fast StartFast Start数据仓库解决方案,可以快速便捷地设计开发具有可数据仓库解决方案,可以快速便捷地设计开发具有可伸缩性的数据仓库或数据集市。采用伸缩性的数据仓库或数据集市。采用ROLAPROLAP的星型模式与的星型模式与Informix Informix IDS IDS、IDS/ADIDS/AD紧密集成提供预先汇总、抽样、后台查询等性能优化紧密集成提供预先汇总、抽样、后台查询等性能优化手段。手段。InformixInformix产品还能够集成产品还能够集成Microsoft IISMicrosoft IIS或或Netscape Netscape Enterprise/Fast TrackEnterprise/Fast Track服务器,从而支持服务器,从而支持webweb访问。访问。MetaCube ROLAP OptionMetaCube ROLAP Option为基于为基于InformixInformix的数据仓库或数据中心提的数据仓库或数据中心提供了全面、简便易用、可扩展和自动化的商业分析环境。供了全面、简便易用、可扩展和自动化的商业分析环境。Informix InfoMoverInformix InfoMover是一套集成工具,用于从多个工作资源中抽是一套集成工具,用于从多个工作资源中抽取、转换和维护数据。取、转换和维护数据。Seagate Crystal InfoSeagate Crystal Info是企业级报表、分析是企业级报表、分析系统。系统。IDSIDS以及以及AD/XPAD/XP选项是选项是InformixInformix数据仓库系统的核心,提供数数据仓库系统的核心,提供数据仓库数据的存储功能。据仓库数据的存储功能。InformixInformix没有提供自己的报表和数据挖掘工具,它主要集成第三没有提供自己的报表和数据挖掘工具,它主要集成第三方产品(例如结合方产品(例如结合BrioBrio的前端数据分析和报表功能,结合的前端数据分析和报表功能,结合SASSAS的数据的数据挖掘功能)。挖掘功能)。第第8章数据仓库开发实例章数据仓库开发实例 5NCR数据仓库开发工具销售事实元数据NCRNCR可扩展数据仓库的基本框架主要分成三个部分:数可扩展数据仓库的基本框架主要分成三个部分:数据装载、数据管理和信息访问。据装载、数据管理和信息访问。NCRNCR的的TeradataTeradata是高端数据仓库市场最有力的竞争者,是高端数据仓库市场最有力的竞争者,主要运行在主要运行在NCR WorldMark SMPNCR WorldMark SMP硬件的硬件的UnixUnix操作系统平台操作系统平台上,提供交互分析、标准报告和多维度分析。为了开拓上,提供交互分析、标准报告和多维度分析。为了开拓数据集市(数据集市(Data MartData Mart)市场)市场19981998年,该公司也提供了基年,该公司也提供了基于于Windows NTWindows NT的的TeradataTeradata。第第8章数据仓库开发实例章数据仓库开发实例 6SAS数据仓库开发工具销售事实元数据SASSAS公司所提供的工具公司所提供的工具(例如:智能化的客户机例如:智能化的客户机/服务器,多厂商构服务器,多厂商构架等架等)可以帮助企业实现一个灵活和低风险的处理。可以帮助企业实现一个灵活和低风险的处理。SASSAS数据仓库可数据仓库可以支持各种硬件平台、支持不同数据库之间数据的存取,它还可对以支持各种硬件平台、支持不同数据库之间数据的存取,它还可对不同格式的数据进行查询、访问和分析,具有与目前许多流行数据不同格式的数据进行查询、访问和分析,具有与目前许多流行数据库软件和老的数据文件的接口,并可在库软件和老的数据文件的接口,并可在SASSAS环境中建立对应外部异构环境中建立对应外部异构数据的统一公用数据界面。数据的统一公用数据界面。SASSAS提供的工具包括提供的工具包括3030多个专用模块。其中:多个专用模块。其中:SAS/WASAS/WA(Warehouse AdministratorWarehouse Administrator)是建立数据仓库的集成管)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理和数据集市的实现等;管理和数据集市的实现等;SAS/MDDBSAS/MDDB是是SASSAS用于在线分析的多维数据库服务器;用于在线分析的多维数据库服务器;第第8章数据仓库开发实例章数据仓库开发实例 7CA数据仓库开发工具销售事实元数据CACA能够提供以能够提供以“元数据元数据”为核心的,结构化的,包容构造数据仓为核心的,结构化的,包容构造数据仓库各项技术的全面解决方案。它具有独特的库各项技术的全面解决方案。它具有独特的“元数据元数据”管理与应用管理与应用特性,具有用三维可视化技术解析处理的功能。特性,具有用三维可视化技术解析处理的功能。CACA解决方案提供解决方案提供ODBCODBC接口,并将数据存储在第三方关系数据库接口,并将数据存储在第三方关系数据库(如如OracleOracle、SybaseSybase、SQL ServerSQL Server、InformixInformix和和IBM DB2IBM DB2等等)中。中。ErwinErwin是数据库是数据库/数据仓库模型设计工具;数据仓库模型设计工具;DecisionBaseDecisionBase是图形界面的元数据管理和数据转移工具;是图形界面的元数据管理和数据转移工具;InfoPumpInfoPump是可编程控制的双向数据转移工具;是可编程控制的双向数据转移工具;InfoBeaconInfoBeacon是是OLAPOLAP服务器;服务器;Forest&Trees DSS/EISForest&Trees DSS/EIS开发工具;开发工具;RepositoryRepository是企业环境下元数据的集中管理工具;是企业环境下元数据的集中管理工具;第第8章数据仓库开发实例章数据仓库开发实例 8.2.2 SQL Server数据仓库开发应用工具数据仓库开发应用工具销售事实元数据SQL的数据仓库开发工具数据仓库工具名称在数据仓库中的作用关系型数据库数据转换工具数据复制工具OLE DBAnalysis ServicesEnglish QueryMeta Data ServicesPivotTable数据仓库的创建和维护数据仓库的数据加载分布式数据仓库的数据发布、加载应用系统与数据源的接口数据挖掘与分析数据仓库的语言查询数据仓库的元数据浏览客户端多维数据的定制与操作第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据1.1.创建数据准备区创建数据准备区数据准备区的创建可以利用SQL Server中的数据库创建与表创建工具实现。2.创建数据仓库创建数据仓库数据仓库的框架通常由事实表和一些维表组成,可以用SQL Server中的数据库创建工具和表创建工具完成。3.从业务系统提取数据从业务系统提取数据SQL Server中的数据抽取工具主要有Transact-SQL、分布式查询、DTS、命令行应用程序、bcp实用工具、从文本文件加载的BULK Insert语句和ActiveX脚本。4.清理和转换数据清理和转换数据SQL Server提供了Transact-SQL查询、DTS包、命令行应用程序、ActiveX脚本等工具完成清理工作,并对数据进行必要的转换。5.将数据加载进数据仓库SQL Server提供的Transact-SQL、DTS和bcp工具实现数据加载。6.将数据发布到数据集市SQL Server提供了数据复制技术来完成数据集市的初始装载,并提供了各种数据加载工具对数据集市进行数据加载。第第8章数据仓库开发实例章数据仓库开发实例 8.2.2 SQL Server数据仓库开发应用工具数据仓库开发应用工具销售事实元数据7.SQL查询SQL Server提供了Transact-SQL来实现SQL查询。8.OLAP应用SQL Server中的Analysis Services可以实现OLAP应用的创建和管理。8.数据挖掘SQL Server在Analysis Services中还提供了数据挖掘技术的创建和管理功能,可以实现决策树和聚集两种数据挖掘功能。10.Web访问SQL Server所提供的Analysis Services、English Query可以与Internet信息服务(IIS)一起,用多种方法在Web上对数据仓库进行查询和更新。11.更新数据仓库数据数据仓库在实际应用中还需要定期地进行数据更新维护,这些工作可以用SQL Server的Transact-SQL、DTS和bcp实用工具完成。第第8章数据仓库开发实例章数据仓库开发实例 8.3 SQL Server的数据仓库创建的数据仓库创建销售事实元数据8.3.1 创建数据库创建数据库 右键单击数据库,选择弹出菜单中新建数据库菜单项命令 选择数据库,单击 单击建立数据库 星型按钮建立数据库 按钮,建立数据库第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据数据库属性设置窗口数据库属性设置窗口 第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据8.2.2 创建表创建表在“表”上用鼠标右键单击,调出弹出式菜单,选择其中的“新建表”菜单项。第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据表结构输入窗口表结构输入窗口 第第8章数据仓库开发实例章数据仓库开发实例 8.4 SQL Server数据仓库事实表与多维数数据仓库事实表与多维数据集的建立据集的建立销售事实元数据8.4.1 Analysis Manager数据库的创建与数据源确定数据库的创建与数据源确定Analysis Server系统是一个管理多维数据集的有力工具,可以用来创建对数据仓库访问、分析多维数据集和知识发现的数据挖掘模型。在使用Analysis Server以前,必须要从SQL Server的安装光盘上将其安装到机器上。1.Analysis Manager数据库的创建数据库的创建用户可以利用Analysis Manager在数据仓库中建立起多维数据集合,以有效地访问数据仓库中数据。第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据1.Analysis Manager数据库的创建数据库的创建 第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据2.Analysis Manager中中ODBC数据源的确定数据源的确定 第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据进入进入“数据链接属性数据链接属性”对话框对话框 第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据在数据源要求用户在连接时给出用户名和口令时,就需要在输入登录服务器的信息部分的“用户名称”文本框中输入用户名,“口令”文本框中输入口令。复选框“空白密码”用于禁止输入口令,“允许保存密码”用于使机器保存用户口令。在“输入要使用的初始目录”下拉列表框中选择相应的位置。完成这些设置后,可以单击“测试连接”按钮,测试连接是否成功,测试结果将以对话框方式告知。高级标签页用于设置一些连接数据源的高级选项。其中的网络设置部分,用于设置用户连接网络的网络安全等级。其他部分的连接超时设定文本框设置连接超时的时间(秒),访问权限列表框设置连接数据源的7种权限:只读(Read)、读写(ReadWrite)、可共享(ShareDenyNone)、除读以外的共享(ShareDenyRead)、除写以外的共享(ShareDenyWrite)、其它共享(ShareExclusive)、可写(Write)。在所有标签页中,用一个列表框显示了前面所进行的设置内容,如果对设置不满意,可以单击“编辑值”按钮,编辑这里的设置。完成设置后,可以单击“确定”按钮完成数据源指定操作。第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据3.A n a l y s i s Manager中SQL Server数据源的确定可以选择系统自带的Access数据库FoodMart2000完成数据连接属性的设置后,可以单击其中的“测试连接”按钮 第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据“高级”标签页 第第8章数据仓库开发实例章数据仓库开发实例 销售事实元数据“所有”标签页 第第8章数据仓库开发实例章数据仓库开发实例 8.4.2 SQL Server数据仓库的维创建数据仓库的维创建销售事实元数据1.调调出维出维度向度向导欢导欢迎对迎对话框话框第第8章数据仓库开发实例章数据仓库开发实例 2.“选择维度的创建方式选择维度的创建方式”对话框对话框销售事实元数据在维度向导欢迎对话框中单击“下一步”,调出“选择维度的创建方式”对话框。该对话框中包含5种维结构选项:星型架构、雪花架构、父子维度、虚拟维度、挖掘模型。星型架构可以从一个表中选择一列或几列,每一个列都可以作为维的一个层次。如果选择多个列,列就要有一种逐渐变化的信息。例如,可以选择商店所在省、商店所在市、商店所在县/区、商店名称作为商店维的层次。选择年、季度、月作为日期维的层次。选择省、市、县、姓名作为客户维的层次;雪花架构可以创建多个相关的维表,从多个维表中可以选择一个或多个列,每一个
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!