资料仓储与资料采掘概述课件

上传人:仙*** 文档编号:241776694 上传时间:2024-07-23 格式:PPT 页数:110 大小:2.39MB
返回 下载 相关 举报
资料仓储与资料采掘概述课件_第1页
第1页 / 共110页
资料仓储与资料采掘概述课件_第2页
第2页 / 共110页
资料仓储与资料采掘概述课件_第3页
第3页 / 共110页
点击查看更多>>
资源描述
資料倉儲技術篇第 1 章 資料倉儲與資料採掘概述1.1 資料倉儲的發展與展望(zhnwng)(zhnwng)1.2 資料倉儲的架構1.3 資料倉儲的參照結構1.4 資料採掘技術1.5 資料採掘技術與工具 1.6 資料倉儲與資料採掘的應用 1.7 資料倉儲應用1.8 資料倉儲導向的決策支援系統1.9 資料倉儲的商業應用1.10 資料倉儲與資料採掘的應用習題 第一页,共一百一十页。隨著資訊技術的不斷推廣和應用,許多企業都已經隨著資訊技術的不斷推廣和應用,許多企業都已經在使用管理資訊系統在使用管理資訊系統(MIS)(MIS)處理管理交易處理管理交易(jioy)(jioy)和日常業和日常業務。這些管理資訊系統為企業累積了大量的資訊務。這些管理資訊系統為企業累積了大量的資訊因此,在資訊處理中,產生了與傳統資料庫有很大因此,在資訊處理中,產生了與傳統資料庫有很大差異的資料環境要求,和從這些巨量資料中獲取特差異的資料環境要求,和從這些巨量資料中獲取特殊知識的工具的需要。殊知識的工具的需要。第二页,共一百一十页。1.1 資料倉儲的發展與展望(zhnwng)(zhnwng)傳統資料庫只保存了當前的業務處理資訊,缺乏決傳統資料庫只保存了當前的業務處理資訊,缺乏決策分析所需要策分析所需要(xyo)(xyo)的大量歷史資訊。為滿足管理人員的大量歷史資訊。為滿足管理人員的的決策分析需求,就需要在資料庫的基礎上產生適應決策分析需求,就需要在資料庫的基礎上產生適應決策分析的資料環境決策分析的資料環境 資料倉儲資料倉儲(DW(DW,Data Data Warehouse)Warehouse)。第三页,共一百一十页。1.1.1 從傳統資料庫到資料倉儲1.決策處理的系統回應問題決策處理的系統回應問題2.在傳統的業務處理系統中,客戶對系統和資料庫在傳統的業務處理系統中,客戶對系統和資料庫的的3.3.要求是資料存取頻率要高,操作要求是資料存取頻率要高,操作(cozu)(cozu)時間要快。時間要快。4.4.在決策分析處理中,客戶對系統和資料的要求則發在決策分析處理中,客戶對系統和資料的要求則發5.生了很大的變化。這些操作必然要消耗大量的系生了很大的變化。這些操作必然要消耗大量的系統統6.6.資源,這是對業務處理即時反應的交易處理系統所資源,這是對業務處理即時反應的交易處理系統所7.7.無法忍受的。無法忍受的。第四页,共一百一十页。2.2.決策資料需求的問題決策資料需求的問題在進行決策分析時,需要有整體、正確的整合式資在進行決策分析時,需要有整體、正確的整合式資料,這些整合式資料不僅包含企業內部各部門的有料,這些整合式資料不僅包含企業內部各部門的有關資料,而且還包含企業外部的,甚至關資料,而且還包含企業外部的,甚至(shnzh)(shnzh)競爭對手競爭對手的的相關資料。但是在傳統資料庫中,只儲存了本部門相關資料。但是在傳統資料庫中,只儲存了本部門的交易處理資料,而沒有與決策問題有關的整合式的交易處理資料,而沒有與決策問題有關的整合式資料,更沒有企業外部的資料。資料,更沒有企業外部的資料。第五页,共一百一十页。在決策資料的整合中還需要解決資料混亂問題。例在決策資料的整合中還需要解決資料混亂問題。例如,企業進行併購活動之後,被併購企業的資訊系如,企業進行併購活動之後,被併購企業的資訊系統與併購企業的系統不相容,資料無法共享。統與併購企業的系統不相容,資料無法共享。例如例如(lr)(lr),在系統開發中,由於資金的缺乏,只考慮了,在系統開發中,由於資金的缺乏,只考慮了一些關鍵系統的開發,而對其他系統不予考慮,使一些關鍵系統的開發,而對其他系統不予考慮,使決策資料無法整合。決策資料無法整合。第六页,共一百一十页。例如,員工的性別在人力資訊系統中可能例如,員工的性別在人力資訊系統中可能(knng)(knng)用邏輯值用邏輯值“M“M和和“F“F表示,在財務系統中可能用數字表示,在財務系統中可能用數字“0“0和和“I“I表表示。示。例如,名稱為例如,名稱為“GH“GH的欄位名稱在人事系統中表示為的欄位名稱在人事系統中表示為員工的員工的“員工號碼,但是在銷售管理系統中卻表示員工號碼,但是在銷售管理系統中卻表示為為“購貨號碼。這樣在使用這些資料作出決策之購貨號碼。這樣在使用這些資料作出決策之前,必須對這些資料作分析,確認其真實含義。前,必須對這些資料作分析,確認其真實含義。第七页,共一百一十页。在決策分析中,系統常常在決策分析中,系統常常(chngchng)(chngchng)需要從資料庫中萃取需要從資料庫中萃取資資料、搜尋有用的資料,然後將這些資料導入其他文料、搜尋有用的資料,然後將這些資料導入其他文件或資料庫中,供客戶使用。這些被萃取出來的資件或資料庫中,供客戶使用。這些被萃取出來的資料,有可能被其他客戶再次萃萃取。由於這種不加料,有可能被其他客戶再次萃萃取。由於這種不加限制的資料連續萃取,使企業的資料空間構成了一限制的資料連續萃取,使企業的資料空間構成了一個錯綜複雜的資料個錯綜複雜的資料“蜘蛛網蜘蛛網(Spiders Web)(Spiders Web),即形成,即形成了自然演化架構了自然演化架構 第八页,共一百一十页。資料的整合資料的整合(zhn h)(zhn h)還涉及到外部資料與非結構化資料的應還涉及到外部資料與非結構化資料的應用問題。例如行業的統計報告、顧問公司的市場調用問題。例如行業的統計報告、顧問公司的市場調查分析資料。這些資料必須經過格式、類型的轉查分析資料。這些資料必須經過格式、類型的轉換,才能被決策系統應用。換,才能被決策系統應用。為完成交易處理的需求,傳統資料庫中的資料一般為完成交易處理的需求,傳統資料庫中的資料一般只保存當前的資料。但是對於決策分析而言,歷史只保存當前的資料。但是對於決策分析而言,歷史的、長期的資料卻具有重要的意義。的、長期的資料卻具有重要的意義。第九页,共一百一十页。在決策分析程序中,決策人員往往需要的並不是在決策分析程序中,決策人員往往需要的並不是(b shi)(b shi)非非常詳細的資料,而是一些經過匯總、彙總的資料。常詳細的資料,而是一些經過匯總、彙總的資料。第十页,共一百一十页。3.3.決策資料操作的問題決策資料操作的問題4.4.決策分析決策分析(fnx)(fnx)人員則往往希望以專業客戶的身份而人員則往往希望以專業客戶的身份而不是不是5.參數客戶的身份對資料進行操作,他們往往希望參數客戶的身份對資料進行操作,他們往往希望能能6.夠用各種工具對資料進行多種形式的操作,希望夠用各種工具對資料進行多種形式的操作,希望資資7.料操作的結果能以料操作的結果能以商業智慧商業智慧商業智慧商業智慧(Business Intelligence(Business Intelligence,8.BIBI)的形式呈現出來。的形式呈現出來。第十一页,共一百一十页。4.資料倉儲與傳統資料庫的對比資料倉儲雖然是從資料庫發展而來的,但是(dnsh)(dnsh)兩者在許多方面都存在著相當大的差異,如表1-1所示。第十二页,共一百一十页。資料庫只存放當前之值,而資料倉儲則存放歷史值資料庫只存放當前之值,而資料倉儲則存放歷史值資料庫中資料的目標是面對業務操作資料庫中資料的目標是面對業務操作(cozu)(cozu)人員資料人員資料倉儲則是面對中高層主管倉儲則是面對中高層主管資料庫內的資料是動態變化的,資料倉儲則是靜態資料庫內的資料是動態變化的,資料倉儲則是靜態的歷史性資料的歷史性資料 資料庫中的資料結構比較複雜,資料倉儲中的資料結資料庫中的資料結構比較複雜,資料倉儲中的資料結構則較為簡單。構則較為簡單。第十三页,共一百一十页。資料庫中資料的存取頻率較高,但是資料庫中資料的存取頻率較高,但是(dnsh)(dnsh)存取資料的存取資料的數量較少;資料倉儲的存取頻率較低,但是數量較少;資料倉儲的存取頻率較低,但是(dnsh)(dnsh)資料資料存取量要遠高於資料庫。存取量要遠高於資料庫。資料庫在存取資料時要求回應速度很快,資料倉儲的反資料庫在存取資料時要求回應速度很快,資料倉儲的反應時間則可能長達數小時。應時間則可能長達數小時。第十四页,共一百一十页。1.1.2 資料倉儲的定義與根本(gnbn)(gnbn)特色William H.InmonWilliam H.Inmon在在19931993年所寫的論著年所寫的論著?Building the?Building the Data Warehouse?Data Warehouse?則首先系統地闡述了關於資料倉則首先系統地闡述了關於資料倉儲的理論,為資料倉儲的發展奠定了里程碑。在內儲的理論,為資料倉儲的發展奠定了里程碑。在內文中,他將資料倉儲定義為:文中,他將資料倉儲定義為:“一個主題是導向的、整合式、隨時間變化的、不易一個主題是導向的、整合式、隨時間變化的、不易(b y)(b y)失漏失漏性資料的集合,用於支援管理層的決策程序。性資料的集合,用於支援管理層的決策程序。第十五页,共一百一十页。1.主題式導向主題式導向(Subject oriented)(Subject oriented)資料倉儲的創建、使用都是焦距於主題執行的。因此,資料倉儲的創建、使用都是焦距於主題執行的。因此,我們必須了解我們必須了解(lioji)(lioji)如何按照決策分析來萃取主題;所如何按照決策分析來萃取主題;所萃取出的主題應該包含哪些資料內容;這些資料內容應萃取出的主題應該包含哪些資料內容;這些資料內容應該如何組織。該如何組織。第十六页,共一百一十页。在確定主題之後,需要確定主題所應該包含的資在確定主題之後,需要確定主題所應該包含的資料。此時,應該注意不能將鎖定主題的資料與交易處理料。此時,應該注意不能將鎖定主題的資料與交易處理系統中的資料相混淆。系統中的資料相混淆。在主題的資料組織中應該注意,不同的主題之間可能會出在主題的資料組織中應該注意,不同的主題之間可能會出現相互重疊的資訊。現相互重疊的資訊。主題在資料倉儲中可以主題在資料倉儲中可以(ky)(ky)用多維資料庫方式進行儲存。用多維資料庫方式進行儲存。第十七页,共一百一十页。2.整合式資料整合式資料(Integrated Data)(Integrated Data)3.3.資料倉儲的整合性是指根據決策分析的需求,將分資料倉儲的整合性是指根據決策分析的需求,將分4.4.散於各處的原始散於各處的原始(yunsh)(yunsh)資料進行萃取、篩選、淨化、資料進行萃取、篩選、淨化、整合整合5.5.等工作,使資料倉儲中的資料具有整合性。等工作,使資料倉儲中的資料具有整合性。第十八页,共一百一十页。3.資料的時變性資料的時變性(Time-Variant)(Time-Variant)資料倉儲的時變性,就是資料應該隨著時間的推移資料倉儲的時變性,就是資料應該隨著時間的推移而不斷發生變化。而不斷發生變化。資料倉儲資料的時變性,不僅反映在資料的追加資料倉儲資料的時變性,不僅反映在資料的追加方面方面(fngmin)(fngmin),而且還反映在資料的刪除上。,而且還反映在資料的刪除上。資料倉儲中資料的時變性還表現在彙總資料的變化上。資料倉儲中資料的時變性還表現在彙總資料的變化上。第十九页,共一百一十页。4.4.資料的不易失漏性資料的不易失漏性(Nonvolatile)(Nonvolatile)5.5.資料的不易失漏性可以支援不同的客戶在不同的時資料的不易失漏性可以支援不同的客戶在不同的時6.6.間查詢、分析相同間查詢、分析相同(xin tn)(xin tn)的問題時,獲得同一結果。的問題時,獲得同一結果。第二十页,共一百一十页。5.5.資料的聚合性資料的聚合性(Aggregate)(Aggregate)資料倉儲所採用的資料聚合方式,主要是以多維資資料倉儲所採用的資料聚合方式,主要是以多維資料庫方式進行儲存的多維模式料庫方式進行儲存的多維模式(msh)(msh)、以關聯式資料庫方、以關聯式資料庫方式進行儲存的關聯式模式或以兩者相整合的方式進式進行儲存的關聯式模式或以兩者相整合的方式進行儲存的混合模式。行儲存的混合模式。第二十一页,共一百一十页。6.6.支援管理中的決策制定程序支援管理中的決策制定程序7.企業各級主管可以利用資料倉儲進行各種管理決企業各級主管可以利用資料倉儲進行各種管理決策策8.8.的分析,利用自己獨特而敏銳的商業透視力和業務的分析,利用自己獨特而敏銳的商業透視力和業務9.9.知識,從貌似知識,從貌似(mo s)(mo s)平淡的資料中發現潛在的商機。平淡的資料中發現潛在的商機。第二十二页,共一百一十页。1.1.3 資料倉儲的未來趨勢 1.1.關聯式物件資料庫的資料倉儲關聯式物件資料庫的資料倉儲 2.2.關聯式物件資料庫的出現使得資料倉儲設計人員可以將關聯式物件資料庫的出現使得資料倉儲設計人員可以將物件引入到資料倉儲環境中。物件引入到資料倉儲環境中。3.3.物件導向技術引入資料倉儲之後,客戶可以定義適物件導向技術引入資料倉儲之後,客戶可以定義適合某種資料類型的最正确操作。合某種資料類型的最正确操作。4.關聯式物件資料庫作為資料倉儲平台不僅為複雜關聯式物件資料庫作為資料倉儲平台不僅為複雜資料類提供了可延伸功能資料類提供了可延伸功能(gngnng)(gngnng),而且還為資料倉,而且還為資料倉庫平台提供了對資料處理的功能庫平台提供了對資料處理的功能(gngnng)(gngnng)延伸。延伸。第二十三页,共一百一十页。2.2.網路的影響網路的影響3.3.未來的資料倉儲將越來越依賴於網路作資料的傳未來的資料倉儲將越來越依賴於網路作資料的傳4.4.輸、資料的使用輸、資料的使用(shyng)(shyng)申請處理。客戶可以藉助於內申請處理。客戶可以藉助於內部網部網5.路或外部網路使用資料倉儲,這就需要資料倉儲路或外部網路使用資料倉儲,這就需要資料倉儲具具6.6.有網路使用方面的能力。有網路使用方面的能力。第二十四页,共一百一十页。3.3.操作操作(cozu)(cozu)型資料倉儲型資料倉儲 4.4.“操作型資料倉儲就能夠以一種可以接受的標準對操作型資料倉儲就能夠以一種可以接受的標準對5.5.資料倉儲進行操作。這些標準包括可預測性、可利資料倉儲進行操作。這些標準包括可預測性、可利6.6.用性和可存取性。用性和可存取性。第二十五页,共一百一十页。4.4.WebWeb應用中的代理技術應用中的代理技術5.資料倉儲的資料倉儲的WebWeb應用主要是指客戶利用應用主要是指客戶利用(lyng)(lyng)合作夥伴合作夥伴6.(partner)(partner)的資料倉儲或的資料倉儲或Intranet(Intranet(企業內部網路企業內部網路)系統中系統中7.7.的多維資料集合進行決策分析活動。的多維資料集合進行決策分析活動。第二十六页,共一百一十页。1.2 資料倉儲的架構1.2.1 資料倉儲的概念(ginin)(ginin)架構第二十七页,共一百一十页。1.2.2 虛擬資料倉儲結構 第二十八页,共一百一十页。1.2.3 資料市集(shj)(shj)架構第二十九页,共一百一十页。1.2.4 單一資料倉儲結構 第三十页,共一百一十页。1.2.5 分散式資料倉儲結構 第三十一页,共一百一十页。1.3 資料倉儲的參照結構資料倉儲的根本功能包括:資料萃取(cuq)(cuq)、資料篩選和淨化、清理之後的資料載入、建構資料市集、完成資料倉儲的查詢、決策分析和知識採掘等。第三十二页,共一百一十页。1.3.1 資料倉儲根本(gnbn)(gnbn)功能層資料倉儲的根本功能部份包含了資料來源、資料準備區、資料倉儲架構、資料市集或知識採掘庫以及(yj)(yj)資料的存取與使用功能局部,如圖1.7所示。第三十三页,共一百一十页。1.資料倉儲的資料來源資料倉儲的資料來源第三十四页,共一百一十页。(1)(1)業務資料業務資料(2)(2)業務資料是指那些從組織目前正在業務資料是指那些從組織目前正在(zhngzi)(zhngzi)執行的業務執行的業務處理處理(3)(3)系統那裡收集到並保儲存在業務處理系統資料儲存系統那裡收集到並保儲存在業務處理系統資料儲存(4)中的資料。中的資料。(2)(2)歷史性資料歷史性資料指組織在長期的資訊處理程序中所累積下來的資指組織在長期的資訊處理程序中所累積下來的資料,這些資料一般進行了離線處理。料,這些資料一般進行了離線處理。第三十五页,共一百一十页。(3)(3)辦公資料辦公資料(4)(4)主要主要(zhyo)(zhyo)是指組織內部的辦公系統資料,這些資料分為是指組織內部的辦公系統資料,這些資料分為(5)(5)電子資料和非電子資料兩種。電子資料和非電子資料兩種。(4)(4)WebWeb資料資料(5)(5)WebWeb資料是企業透過網際網路所獲取的資料,這些資料是企業透過網際網路所獲取的資料,這些(6)資料可以透過企業的電子商務系統獲取,也可以資料可以透過企業的電子商務系統獲取,也可以透透(7)(7)過網路調查獲取。過網路調查獲取。第三十六页,共一百一十页。(5)(5)外部資料外部資料(6)外部資料是指那些不為企業所操作、所擁有、所外部資料是指那些不為企業所操作、所擁有、所控控(7)(7)制的資料,這些資料有的是電子形式的。制的資料,這些資料有的是電子形式的。(6)(6)資料來源超資料資料來源超資料(7)資料來源資料屬於超資料管理層範圍,在資料倉資料來源資料屬於超資料管理層範圍,在資料倉儲儲(8)(8)中的所有資料都需要中的所有資料都需要(xyo)(xyo)透過超資料管理層來進行管透過超資料管理層來進行管(9)(9)理、控制。理、控制。第三十七页,共一百一十页。2.資料準備區的功能(gngnng)(gngnng)結構第三十八页,共一百一十页。(1)資料的標準化處理資料的標準化處理(2)(2)資料準備區的標準化處理主要是將同名資料準備區的標準化處理主要是將同名(tngmng)(tngmng)不同內容不同內容(3)(3)的、同內容不同名的、同名同內容但不同結構的資的、同內容不同名的、同名同內容但不同結構的資(4)料進行統一處理。料進行統一處理。(2)(2)資料的過濾與適配資料的過濾與適配(3)資料的過濾與適配主要是對進入資料倉儲的資料資料的過濾與適配主要是對進入資料倉儲的資料按按(4)照客戶的需要進行篩選。照客戶的需要進行篩選。第三十九页,共一百一十页。(3)(3)資料的淨化處理資料的淨化處理(4)(4)資料的淨化處理主要是對準備載入到資料倉儲中的資料的淨化處理主要是對準備載入到資料倉儲中的(5)資料進行正確性判斷。資料進行正確性判斷。(4)加蓋資料的時間戳加蓋資料的時間戳由於在資料倉儲中要進行資料的彙總,以分析由於在資料倉儲中要進行資料的彙總,以分析(fnx)(fnx)交易交易的發展趨勢。的發展趨勢。第四十页,共一百一十页。(5)(5)確認資料品質確認資料品質 (6)(6)資料倉儲中資料品量的上下是資料倉儲能否成功的資料倉儲中資料品量的上下是資料倉儲能否成功的(7)(7)關鍵因素之一。關鍵因素之一。(8)超資料萃取與創建超資料萃取與創建(9)資料的持續改善程序資料的持續改善程序(chngx)(chngx)中,還需要從資料來源中,還需要從資料來源中確定中確定(10)這些源資料的超資料內容。這些源資料的超資料內容。第四十一页,共一百一十页。3.資料倉儲功的能結構第四十二页,共一百一十页。(1)資料重整資料重整(2)資料重整是為使資料倉儲能夠更好地為客戶服務資料重整是為使資料倉儲能夠更好地為客戶服務所所(3)(3)進行的一系列預先操作。進行的一系列預先操作。1)1)資料的整合與分解資料的整合與分解(fnji)(fnji)2)2)對來自不同系統的資料進行整合,創建新的資料。對來自不同系統的資料進行整合,創建新的資料。2)2)資料的彙總與聚集資料的彙總與聚集3)3)資料的概括聚集處理就是根據某一屬性將資料進行資料的概括聚集處理就是根據某一屬性將資料進行4)4)匯總。匯總。第四十三页,共一百一十页。3)資料的預算與推導資料的預算與推導預算與推導的結果都是事先預算與推導的結果都是事先(shxin)(shxin)進行的計算,並作為進行的計算,並作為資資料倉儲的欄位儲存在資料倉儲中。料倉儲的欄位儲存在資料倉儲中。4)4)資料的編譯與格式化資料的編譯與格式化5)5)對來自不同資料來源的資料進行編譯和格式化處對來自不同資料來源的資料進行編譯和格式化處6)6)理,便於今後的統一處理。理,便於今後的統一處理。第四十四页,共一百一十页。5)5)資料的轉換與映射資料的轉換與映射6)6)對己經儲存好的資料進行轉移或再映像到資料來源對己經儲存好的資料進行轉移或再映像到資料來源7)中,有利於對新生成或發生變化的資料添加更新。中,有利於對新生成或發生變化的資料添加更新。(2)(2)資料倉儲創建資料倉儲創建(3)(3)資料倉儲創建作為資料倉儲的核心功能應該完成資料倉儲創建作為資料倉儲的核心功能應該完成(wn(wn chng)chng)資資(4)(4)料倉儲的建模、資料的一般性、資料的整合、資料料倉儲的建模、資料的一般性、資料的整合、資料(5)(5)的調整與確認、建構結構化查詢。的調整與確認、建構結構化查詢。第四十五页,共一百一十页。1)資料倉儲的建模資料倉儲的建模 2)2)從己經創建的資料模型中導出資料倉儲的資料模型從己經創建的資料模型中導出資料倉儲的資料模型3)3)(星狀模型或雪花模型星狀模型或雪花模型)。2)資料的彙總資料的彙總3)根據客戶的需要根據客戶的需要(xyo)(xyo),從初步的一般性資料中創,從初步的一般性資料中創建客戶建客戶4)4)所需的高度彙總資料。所需的高度彙總資料。第四十六页,共一百一十页。3)3)資料的聚集資料的聚集(jj)(jj)4)4)從擁有大批量資料的資料倉儲中進行查詢分析是一從擁有大批量資料的資料倉儲中進行查詢分析是一5)個非常費時的操作。個非常費時的操作。4)4)資料的調整與確認資料的調整與確認5)5)在資料完成彙總與聚集之後,需要對彙總與聚集後在資料完成彙總與聚集之後,需要對彙總與聚集後6)6)的資料進行確認。的資料進行確認。7)第四十七页,共一百一十页。5)建構結構化查詢建構結構化查詢6)6)為提高一些結構化查詢,可以預定義這些查詢,並為提高一些結構化查詢,可以預定義這些查詢,並7)將這些結構化查詢作為超資料儲存在超資料庫中。將這些結構化查詢作為超資料儲存在超資料庫中。(3)超資料管理超資料管理(gunl)(gunl)(4)(4)超資料管理功能主要包含超資料瀏覽與導覽、超資超資料管理功能主要包含超資料瀏覽與導覽、超資(5)(5)料的萃取與創建、創建字彙表。料的萃取與創建、創建字彙表。第四十八页,共一百一十页。1)1)超資料瀏覽與導覽超資料瀏覽與導覽2)2)資料倉儲的建構者在資料倉儲的建設和維護程序中資料倉儲的建構者在資料倉儲的建設和維護程序中3)需要利用資料倉儲的超資料瀏覽和導覽功能。需要利用資料倉儲的超資料瀏覽和導覽功能。2)2)超資料的萃取超資料的萃取(cuq)(cuq)與創建與創建3)3)在資料重整程序中需要從整合資料、彙總資料和衍在資料重整程序中需要從整合資料、彙總資料和衍4)4)生資料中捕獲超資料。生資料中捕獲超資料。第四十九页,共一百一十页。3)創建詞彙表創建詞彙表4)4)在創建資料倉儲的程序在創建資料倉儲的程序(chngx)(chngx)中,需要根據所捕獲的中,需要根據所捕獲的超資超資5)5)料建構超資料的詞彙表。料建構超資料的詞彙表。第五十页,共一百一十页。4.資料市集(shj)(shj)/知識採掘庫結構第五十一页,共一百一十页。5.資料倉儲的資料存取與使用(shyng)(shyng)結構 第五十二页,共一百一十页。1.3.2 資料倉儲的管理(gunl)(gunl)層第五十三页,共一百一十页。1.3.3 資料倉儲的超資料管理(gunl)(gunl)層 第五十四页,共一百一十页。1.1.資料倉儲、資料市集和超資料詞彙表管理資料倉儲、資料市集和超資料詞彙表管理(gunl)(gunl)超資料管理層利用超資料詞彙表來管理資料倉儲和超資料管理層利用超資料詞彙表來管理資料倉儲和資料市集中的邏輯資料模型、實體資料模型以及與資料市集中的邏輯資料模型、實體資料模型以及與技術和業務相關的資料說明。技術和業務相關的資料說明。第五十五页,共一百一十页。2.超資料萃取、創建、儲存和更新超資料萃取、創建、儲存和更新(gngxn)(gngxn)管理管理3.超資料在資料倉儲對資料來源進行資料萃取、清超資料在資料倉儲對資料來源進行資料萃取、清4.4.理、載入等操作程序中需要對所涉及到的超資料進理、載入等操作程序中需要對所涉及到的超資料進5.5.行萃取、創建、儲存和更新處理。行萃取、創建、儲存和更新處理。第五十六页,共一百一十页。3.3.預訂定義的查詢、報表和索引管理預訂定義的查詢、報表和索引管理預訂定義的查詢、報表和索引管理預訂定義的查詢、報表和索引管理(gunl)(gunl)4.4.在超資料管理中還需要對設計人員為資料倉儲客戶在超資料管理中還需要對設計人員為資料倉儲客戶5.5.預訂定義的查詢和報表進行管理,將預定義的查詢預訂定義的查詢和報表進行管理,將預定義的查詢6.6.和報表的處理方式甚至處理結果置於超資料庫中。和報表的處理方式甚至處理結果置於超資料庫中。第五十七页,共一百一十页。4.4.更新、複製、恢復、登錄、歸檔與淨化管理更新、複製、恢復、登錄、歸檔與淨化管理資料倉儲所連接的資料源發生了變化時,資料倉儲資料倉儲所連接的資料源發生了變化時,資料倉儲的內容也要定期的內容也要定期(dngq)(dngq)更新。這些更新工作的進行需要依更新。這些更新工作的進行需要依靠超資料庫中所包含約有關說明。靠超資料庫中所包含約有關說明。第五十八页,共一百一十页。1.3.4 資料倉儲的環境支援(zhyun)(zhyun)層 1.資料倉儲的資料傳輸層資料倉儲的資料傳輸層第五十九页,共一百一十页。(1)(1)資料傳輸層的架構資料傳輸層的架構(2)(2)資料傳輸層中的資料傳輸和傳送網路包括網路協資料傳輸層中的資料傳輸和傳送網路包括網路協(3)定、網路管理框架、網路操作系統和網路。定、網路管理框架、網路操作系統和網路。(4)(4)客戶端客戶端/伺服器與中間元件伺服器與中間元件(yunjin)(yunjin)(5)(5)客戶端客戶端/伺服器代理和中間元件局部包括資料庫網伺服器代理和中間元件局部包括資料庫網(6)(6)路、資料倉儲的中間元件、傳輸層的資料倉儲資料路、資料倉儲的中間元件、傳輸層的資料倉儲資料(7)(7)發佈和複製系統等。發佈和複製系統等。(8)(8)第六十页,共一百一十页。(3)(3)資料複製系統資料複製系統(4)(4)在傳輸層的複製系統中有發布與複製系統、資料庫在傳輸層的複製系統中有發布與複製系統、資料庫(5)(5)閘道內所定義的複製工具閘道內所定義的複製工具(gngj)(gngj)、專用的資料倉儲產、專用的資料倉儲產品品(6)等。等。(7)第六十一页,共一百一十页。2.資料倉儲的基礎層 3.資料倉儲的基礎層中包括(boku)(boku)系統管理、工作流程管4.理、儲存系統、處理系統等局部,如圖1.16所示。第六十二页,共一百一十页。1.4 資料採掘技術19891989年年8 8月,在第月,在第1111屆國際人工智慧聯合會議的專題屆國際人工智慧聯合會議的專題研討會上首次提出研討會上首次提出(t ch)(t ch)了資料庫導向的知識發現了資料庫導向的知識發現(KDD(KDD,Knowledge Discovery in Database)Knowledge Discovery in Database)技術。技術。該技術涉及該技術涉及到機器學習到機器學習,模式識別、統計學、智慧型資料庫、知模式識別、統計學、智慧型資料庫、知識獲取、專家系統、資料視覺化、高性能計算等領識獲取、專家系統、資料視覺化、高性能計算等領域。域。第六十三页,共一百一十页。1.4.1 資料採掘的發展1.超大型資料庫的出現超大型資料庫的出現依靠依靠(yko)(yko)電腦自動收集的各種業務處理資料使許多大電腦自動收集的各種業務處理資料使許多大規規模資料庫或資料倉儲擁有了大量的業務處理資料、模資料庫或資料倉儲擁有了大量的業務處理資料、市場變化資料。市場變化資料。2.2.先進的電腦技術先進的電腦技術3.3.先進的電腦技術水準已成為促進資料採掘技術發展先進的電腦技術水準已成為促進資料採掘技術發展4.4.的第二個重要因素。的第二個重要因素。第六十四页,共一百一十页。3.3.管理的需求管理的需求 4.企業所面臨的市場競爭壓力日趨嚴重,企業經營企業所面臨的市場競爭壓力日趨嚴重,企業經營管管5.5.理者希望理者希望(xwng)(xwng)能夠從企業累積的大量歷史資料中能夠從企業累積的大量歷史資料中,找找到應到應6.6.對日趨嚴重競爭壓力的良方,希望能夠從這些資料對日趨嚴重競爭壓力的良方,希望能夠從這些資料7.7.中找到管理中發生問題的根本原因。中找到管理中發生問題的根本原因。第六十五页,共一百一十页。4.4.對資料採掘的精深計算能力對資料採掘的精深計算能力大規模資料的採掘需要複雜的、精深的計算能力,大規模資料的採掘需要複雜的、精深的計算能力,這些精深的計算能力主要這些精深的計算能力主要(zhyo)(zhyo)以統計學、集合論、資以統計學、集合論、資訊訊論、認識論和人工智慧等各種學科理論為基礎。論、認識論和人工智慧等各種學科理論為基礎。第六十六页,共一百一十页。1.4.2 資料採掘的定義資料採掘的定義現在很多,在不同的教科書上有不資料採掘的定義現在很多,在不同的教科書上有不同的定義。呈現方式同的定義。呈現方式(fngsh)(fngsh)雖然不同,但本質都是一樣雖然不同,但本質都是一樣的。這裡主要從技術角度和商業角度給出資料採掘的。這裡主要從技術角度和商業角度給出資料採掘的定義。的定義。第六十七页,共一百一十页。1.1.資料採掘的技術定義資料採掘的技術定義2.從技術角度看,資料採掘是從大量的、不完全的、從技術角度看,資料採掘是從大量的、不完全的、3.3.有噪音的、模糊的、隨機的實際資料中提取隱含在有噪音的、模糊的、隨機的實際資料中提取隱含在4.其中的、人們所不知道其中的、人們所不知道(zh do)(zh do)的但又是潛在有用的的但又是潛在有用的資訊和資訊和5.5.知識的程序。知識的程序。第六十八页,共一百一十页。2.2.資料採掘的商業定義資料採掘的商業定義商業應用角度來看,資料採掘是一種嶄新的商業資商業應用角度來看,資料採掘是一種嶄新的商業資訊處理技術,其主要特點是對商業資料庫中的大量訊處理技術,其主要特點是對商業資料庫中的大量業務資料進行萃取業務資料進行萃取(cuq)(cuq)、轉化、分析和模式化處理,從、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識,即從一個資料庫中提取輔助商業決策的關鍵知識,即從一個資料庫中自動發現相關商業模式。中自動發現相關商業模式。第六十九页,共一百一十页。第七十页,共一百一十页。1.5 資料採掘技術與工具(gngj)(gngj)1.5.1 常用的資料採掘技術資料採掘的發展受到資料庫系統、統計學、機器學資料採掘的發展受到資料庫系統、統計學、機器學習、視覺化技術、資訊技術以及其他學科的影響,習、視覺化技術、資訊技術以及其他學科的影響,例如例如(lr)(lr)類神經網路、模糊類神經網路、模糊 /粗糙集理論、知識表示、粗糙集理論、知識表示、歸納技術、高性能計算等。歸納技術、高性能計算等。第七十一页,共一百一十页。如果如果(rgu)(rgu)從常用的資料採掘技術來看可以分成三大類:從常用的資料採掘技術來看可以分成三大類:1.1.傳統分析類傳統分析類2.2.傳統的統計分析傳統的統計分析 (或稱資料分析或稱資料分析)技術中使用的資料技術中使用的資料3.採掘模型有線性分析、非線性分析、迴歸分析、採掘模型有線性分析、非線性分析、迴歸分析、邏邏4.輯迴歸分析、單變數分析、多變數分析、時間序輯迴歸分析、單變數分析、多變數分析、時間序列列5.5.分析、最近近鄰演算法、群集分析等。分析、最近近鄰演算法、群集分析等。第七十二页,共一百一十页。2.2.知識發現類知識發現類3.知識發現類資料採掘技術包括類神經網路、決策知識發現類資料採掘技術包括類神經網路、決策4.4.樹、基因演算法、粗糙集、規則發現、關聯順序樹、基因演算法、粗糙集、規則發現、關聯順序5.5.等。等。6.6.類神經網路是模擬人腦神經元結構類神經網路是模擬人腦神經元結構 7.7.決策樹是一個類似於流程圖的樹結構決策樹是一個類似於流程圖的樹結構8.8.基因演算法是近幾年發展起來的一種嶄新的整體最正基因演算法是近幾年發展起來的一種嶄新的整體最正确确(zhngqu)(zhngqu)化演算法化演算法 9.9.粗糙集能夠在缺少關於資料先驗知識的情況下粗糙集能夠在缺少關於資料先驗知識的情況下 第七十三页,共一百一十页。3.3.資料採掘技術的發展資料採掘技術的發展在資料採掘技術的最新發展中包括在資料採掘技術的最新發展中包括(boku)(boku)了文字資料採了文字資料採掘、掘、WebWeb資料採掘、視覺化系統、空間資料採掘和資料採掘、視覺化系統、空間資料採掘和分散式資料採掘技術等。分散式資料採掘技術等。第七十四页,共一百一十页。文字資料採掘和文字資料採掘和WebWeb資料採掘是近幾年新發展起來的嶄資料採掘是近幾年新發展起來的嶄新資料採掘技術新資料採掘技術 可視覺化系統是為了便資料採掘能夠以圖形或影像可視覺化系統是為了便資料採掘能夠以圖形或影像(yn(yn xin)xin)的方式在螢幕上顯示出來的方式在螢幕上顯示出來 空間資料採掘是地理資訊系統導向的資料採掘技術。空間資料採掘是地理資訊系統導向的資料採掘技術。分散式資料採掘是分散式資料庫導向並利用分散式分散式資料採掘是分散式資料庫導向並利用分散式演算法從分散式資料庫中採掘知識的技術。演算法從分散式資料庫中採掘知識的技術。第七十五页,共一百一十页。1.5.2 常用(chn yn)(chn yn)資料採掘工具1.1.按使用方式分類的資料採掘工具按使用方式分類的資料採掘工具 決策方案生成工具往往是針對某個特定行業或特定問題決策方案生成工具往往是針對某個特定行業或特定問題而開發的一類資料採掘工具。而開發的一類資料採掘工具。商業分析工具有兩種類型。一種是只為客戶提供一商業分析工具有兩種類型。一種是只為客戶提供一個黑箱,另一種資料採掘工具則向客戶展示個黑箱,另一種資料採掘工具則向客戶展示(zhnsh)(zhnsh)資資料採掘模型料採掘模型 第七十六页,共一百一十页。2.2.按資料採掘技術分類的資料採掘工具按資料採掘技術分類的資料採掘工具按照資料採掘的技術可以按照資料採掘的技術可以(ky)(ky)分成:分成:類神經網路導向的工具類神經網路導向的工具 規則和決策樹導向的工具規則和決策樹導向的工具 模糊邏輯導向的工具模糊邏輯導向的工具 整合性資料採掘工具等整合性資料採掘工具等 第七十七页,共一百一十页。3.3.按應用範圍分類的資料採掘工具按應用範圍分類的資料採掘工具(gngj)(gngj)(1)(1)專用型資料採掘工具專用型資料採掘工具(2)(2)專用型資料採掘工具主要用於某一特定領域。專用型資料採掘工具主要用於某一特定領域。(2)(2)通用型資料採掘工具通用型資料採掘工具(3)(3)通用型資料採掘工具一般不考慮所採掘物件的實際通用型資料採掘工具一般不考慮所採掘物件的實際(4)(4)含義,只提供各種通用採掘演算法。含義,只提供各種通用採掘演算法。第七十八页,共一百一十页。通用型資料採掘工具:IBMIBM公司公司(n s)(n s)的的IMIM智慧型採掘器,這是一套包括了智慧型採掘器,這是一套包括了ExplorerExplorer、DiamondDiamond和和QuestQuest在內的軟體產品。在內的軟體產品。SPSSSPSS公司統計套裝軟體公司統計套裝軟體SPSSSPSS在統計領域處於領先的在統計領域處於領先的地位地位 Red BrickRed Brick公司的公司的Red BrickRed Brick資料採掘工具是第一個將資料採掘工具是第一個將資料採掘解決方案與資料庫整合在一起的資料採掘元資料採掘解決方案與資料庫整合在一起的資料採掘元件。件。第七十九页,共一百一十页。1.5.3 資料採掘工具(gngj)(gngj)的評估標準如何選擇滿足需要的資料採掘工具如何選擇滿足需要的資料採掘工具(gngj)(gngj)就成了資料採掘就成了資料採掘應用中首先要解決的問題。在選擇資料採掘工具應用中首先要解決的問題。在選擇資料採掘工具時,一般可以參照以下評價標準。時,一般可以參照以下評價標準。第八十页,共一百一十页。1.1.模式種類的數量模式種類的數量資料採掘工具資料採掘工具(gngj)(gngj)能夠提供的模式越多,它的知識發現能夠提供的模式越多,它的知識發現能力越強,而且多種類型模式的整合應用,有助於能力越強,而且多種類型模式的整合應用,有助於降低問題的複雜性。降低問題的複雜性。第八十一页,共一百一十页。2.2.解決複雜問題的能力解決複雜問題的能力為了解資料採掘工具為了解資料採掘工具(gngj)(gngj)解決複雜問題的能力,解決複雜問題的能力,可以從採掘工具可以從採掘工具(gngj)(gngj)的模式應用、資料選擇和轉的模式應用、資料選擇和轉換能力、視覺化程度和延伸性等方面審視。換能力、視覺化程度和延伸性等方面審視。資料採掘工具的延伸性也是提高採掘工具解決複資料採掘工具的延伸性也是提高採掘工具解決複雜問題能力的一個重要因素。雜問題能力的一個重要因素。第八十二页,共一百一十页。3.操作性能操作性能操作性能的好壞是一個影響採掘工具性能的重要因操作性能的好壞是一個影響採掘工具性能的重要因素。素。4.資料獲取能力資料獲取能力(nngl)(nngl)5.5.沒有一種工具可以支援所有類型的資料庫或資料倉沒有一種工具可以支援所有類型的資料庫或資料倉6.6.儲,但應該可以通過通用接口連接大多數流行的資儲,但應該可以通過通用接口連接大多數流行的資7.料庫或資料倉儲,這有利於提高資料採掘工具的料庫或資料倉儲,這有利於提高資料採掘工具的使使8.8.用範圍。用範圍。第八十三页,共一百一十页。5.採掘結果的輸出採掘結果的輸出資料採掘工具不僅能夠將採掘結果以多種方式輸資料採掘工具不僅能夠將採掘結果以多種方式輸出,而且要求輸出的結果便於客戶的瞭解與應用。出,而且要求輸出的結果便於客戶的瞭解與應用。6.6.噪音資料的處理及採掘工具的穩健性噪音資料的處理及採掘工具的穩健性7.7.噪音資料的處理從另一個角度說明採掘工具需要具噪音資料的處理從另一個角度說明採掘工具需要具8.8.有一定的穩定性,從資料採掘工具的目標來看,是有一定的穩定性,從資料採掘工具的目標來看,是9.9.希望希望(xwng)(xwng)能夠對未知的物件做出正確的判斷。能夠對未知的物件做出正確的判斷。第八十四页,共一百一十页。1.5.4 常用(chn yn)(chn yn)資料採掘工具的選擇由於資料採掘工具種類繁多,客戶在選擇採掘工由於資料採掘工具種類繁多,客戶在選擇採掘工具時,需要具時,需要(xyo)(xyo)從工具的實用性和技術性方面進行研從工具的實用性和技術性方面進行研究。究。從技術性方面審視資料採掘工具時,需要根據資從技術性方面審視資料採掘工具時,需要根據資料採掘工具評估標準,選擇那些技術性能指標良好料採掘工具評估標準,選擇那些技術性能指標良好的資料採掘工具。的資料採掘工具。第八十五页,共一百一十页。1.6 資料倉儲與資料採掘的應用1.6.1 資料採掘與資料倉儲根據資料採掘的定義,我們可以看出,資料採掘根據資料採掘的定義,我們可以看出,資料採掘包含了一系列旨在從資料集合中發現有用而未發現包含了一系列旨在從資料集合中發現有用而未發現的模式的技術,如果的模式的技術,如果(rgu)(rgu)將其與資料倉儲緊密聯結在一將其與資料倉儲緊密聯結在一起,將獲得意外的成功。起,將獲得意外的成功。傳統的觀點認為資料採掘技術紮根於電腦科學和傳統的觀點認為資料採掘技術紮根於電腦科學和數學,不需要也不會得益於資料倉儲。這種觀點是數學,不需要也不會得益於資料倉儲。這種觀點是不正確的不正確的 第八十六页,共一百一十页。當然從資料採掘與資料倉儲的整合情況來看,資當然從資料採掘與資料倉儲的整合情況來看,資料採掘技術己經成為資料倉儲應用的強大支柱。資料採掘技術己經成為資料倉儲應用的強大支柱。資料採掘技術在資料倉儲中的應用,正好料採掘技術在資料倉儲中的應用,正好(zhngho)(zhngho)彌補了資彌補了資料料倉儲只能提供大量資料,而無法進行深度資訊分析倉儲只能提供大量資料,而無法進行深度資訊分析的缺陷。的缺陷。第八十七页,共一百一十页。1.6.2 資料採掘程序(chngx)(chngx)第八十八页,共一百一十页。1.1.確定採掘物件確定採掘物件2.2.定義清晰的採掘物件,認清資料採掘的目標是資料定義清晰的採掘物件,認清資料採掘的目標是資料3.3.採掘的第一步。在資料採掘的第一步中,有時還需採掘的第一步。在資料採掘的第一步中,有時還需4.4.要客戶提供一些先驗知識,例如概念樹等。要客戶提供一些先驗知識,例如概念樹等。2.2.準備資料準備資料(1)(1)資料的選擇資料的選擇(2)在確定資料採掘的業務物件之後,就需要搜尋所在確定資料採掘的業務物件之後,就需要搜尋所有有(suyu)(suyu)(3)與業務物件有關的內部資料和外部資料,從中選與業務物件有關的內部資料和外部資料,從中選擇擇(4)(4)出適合於資料採掘應用的資料。出適合於資料採掘應用的資料。第八十九页,共一百一十页。(2)(2)資料的預先處理資料的預先處理(3)(3)在選擇好資料之後,還需要在選擇好資料之後,還需要(xyo)(xyo)對資料進行預先處理,對資料進行預先處理,(4)對資料進行淨化,解決資料中的遺漏值、冗餘、對資料進行淨化,解決資料中的遺漏值、冗餘、資資(5)(5)料值的不一致、資料定義的不一致、過時的資料等料值的不一致、資料定義的不一致、過時的資料等(6)(6)問題。問題。第九十页,共一百一十页。3.採掘模型的建構採掘模型的建構4.4.這個分析模型是鎖定採掘演算法而建構的。建構一這個分析模型是鎖定採掘演算法而建構的。建構一5.5.個真正適合採掘演算法的分析模型是資料採掘成功個真正適合採掘演算法的分析模型是資料採掘成功6.6.的關鍵。的關鍵。模型的建構必須從資料的分析開始。模型的建構必須從資料的分析開始。接著,從原始資料中建構新的預示值。接著,從原始資料中建構新的預示值。下一步下一步(y b)(y b),就需要從資料中選取一個子集或樣本,就需要從資料中選取一個子集或樣本來建構模型。來建構模型。最後,需要轉換變數,使之和選定用來建構模型的演算最後,需要轉換變數,使之和選定用來建構模型的演算法一致。法一致。第九十一页,共一百一十页。4.資料採掘資料採掘5.5.對所得到的經過轉化的資料採掘,除了完善與選擇對所得到的經過轉化的資料採掘,除了完善與選擇6.6.合適的演算法需要人工干預之外,資料採掘工作合適的演算法需要人工干預之外,資料採掘工作(gngzu)(gngzu)主主7.要由採掘工具自動完成。要由採掘工具自動完成。第九十二页,共一百一十页。5.結果分析結果分析6.6.當資料採掘出現結果之後,需要對採掘結果作解讀當資料採掘出現結果之後,需要對採掘結果作解讀7.與評估。具體的解讀與評估方法一般應根據資料與評估。具體的解讀與評估方法一般應根據資料採採8.8.掘操作結果所制定的決策成敗來決定。掘操作結果所制定的決策成敗來決定。6.6.知識的應用知識的應用7.資料採掘結果要能夠在實際中得到資料採掘結果要能夠在實際中得到(d do)(d do)應用,需應用,需要將分要將分8.8.析所得到的知識整合到組織機構中去析所得到的知識整合到組織機構中去 使這些知識在使這些知識在9.9.實際的管理決策分析中得到應用。實際的管理決策分析中得到應用。第九十三页,共一百一十页。1.6.3 資料採掘的客戶 如果從資料採掘的程序看,不同如果從資料採掘的程序看,不同(b tn)(b tn)的資料採掘程序需的資料採掘程序需要不同專長的人員,大致為:業務分析人員、資料要不同專長的人員,大致為:業務分析人員、資料分析人員和資料管理人員。分析人員和資料管理人員。業務分析人員或稱其為企業管理顧問。業務分析人員或稱其為企業管理顧問。資料分析人員。要求這些人員精通資料採掘分析技術。資料分析人員。要求這些人員精通資料採掘分析技術。資料管理人員。這些人員需要精通資料管理技術。資料管理人員。這些人員需要精通資料管理技術。第九十四页,共一百一十页。1.7 資料倉儲應用1.7.1 資料倉儲與資料採掘 資訊處理、分析處理和資料採掘是三種主要的資料資訊處理、分析處理和資料採掘是三種主要的資料倉儲應用。倉儲應用。資訊處理資訊處理支援支援(zhyun)(zhyun)查詢和根本的統計分析,並使用交叉分析表、查詢和根本的統計分析,並使用交叉分析表、列表、圖表或圖形報告結果。列表、圖表或圖形報告結果。第九十五页,共一百一十页。2.線上分析處理線上分析處理3.3.支援根本的支援根本的OLAPOLAP操作,包括切片操作,包括切片(qi pin)(qi pin)、切塊、下鑽、切塊、下鑽、上上4.4.捲和轉軸。捲和轉軸。5.5.資料採掘資料採掘6.6.支援知識發現,找出隱藏的模式和關聯,建構分析支援知識發現,找出隱藏的模式和關聯,建構分析7.7.模型,進行分類和預測,並用視覺化工具提供採掘模型,進行分類和預測,並用視覺化工具提供採掘8.8.結果。結果。第九十六页,共一百一十页。1.7.2 資料採掘和資料倉儲的關係 第九十七页,共一百一十页。資料採掘庫是資料倉儲的一個邏輯上的子集資料採掘庫是資料倉儲的一個邏輯上的子集(z j)(z j),而,而不一定是實體上單獨的資料庫。不一定是實體上單獨的資料庫。資料採掘是一個相對獨立的系統,可以獨立於資料資料採掘是一個相對獨立的系統,可以獨立於資料倉儲存在。資料倉儲為資料採掘打下了良好的基礎,倉儲存在。資料倉儲為資料採掘打下了良好的基礎,包括資料萃取、資料淨化整理、資料一致性處理等。包括資料萃取、資料淨化整理、資料一致性處理等。第九十八页,共一百一十页。1.8 資料倉儲導向的決策支援(zhyun)(zhyun)系統第九十九页,共一百一十页。線上分析處理工具線上分析處理工具(gngj)(gngj)(OLAP)(OLAP)和資料採掘和資料採掘(DM)(DM)在整個在整個DSSDSS整體解決方案中,發揮了關鍵性的功能。整體解決方案中,發揮了關鍵性的功能。OLAPOLAP的功能結構是的功能結構是3 3層客戶伺服器結構,此結構由層客戶伺服器結構,此結構由3 3個伺服器組件組成:資料倉儲伺服器、個伺服器組件組成:資料倉儲伺服器、OLAPOLAP伺服器及客伺服器及客戶描述伺服器。戶描述伺服器。第一百页,共一百一十页。多維資料庫的多維資料庫的MOLAPMOLAP以多維度資料庫為重點,它使用以多維度資料庫為重點,它使用(shyng)(shyng)多維資料庫管理系統來管理所需的資料或資料多維資料庫管理系統來管理所需的資料或資料倉儲。倉儲。關聯式資料庫導向的關聯式資料庫導向的ROLAPROLAP以關係型資料庫為重心,而以關係型資料庫為重心,而不是多維度資料庫。不是多維度資料庫。第一百零一页,共一百一十页。DMDM的技術和工具可分為以下的技術和工具可分為以下(yxi)(yxi)三大類:三大類:(1)(1)統計分析統計分析 (2)(2)知識發現知識發現 關聯式規則發現關聯式規則發現 序列模式發現序列模式發現 分類發現分類發現 群集分析群集分析(3)其他工具與技術其他工具與技術(4)第一百零二页,共一百一十页。1.9 資料倉儲的商業應用
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!