资料移动与转换课件

上传人:vosvybf****vycfil... 文档编号:252705010 上传时间:2024-11-19 格式:PPT 页数:34 大小:242.84KB
返回 下载 相关 举报
资料移动与转换课件_第1页
第1页 / 共34页
资料移动与转换课件_第2页
第2页 / 共34页
资料移动与转换课件_第3页
第3页 / 共34页
点击查看更多>>
资源描述
按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,*,*,第 8 章:,資料移動與轉換,第 8 章:資料移動與轉換,1,各種資料轉換的需求,資料清潔,資料移動與轉換的效率調整,資料移動與轉換工具功能,本章學習重點,各種資料轉換的需求 本章學習重點,2,資料移動與轉換包括了三個不同的步驟,:,提取,(Extraction):,由資料來源讀取出資料。,轉換,(Transformation):,將資料轉換成適合分析的型態。,匯入,(Load):,將合適型態的資料匯入資料倉儲系統。,因此,資料移動與轉換簡稱為,ETL,。,資料移動與轉換的定義,資料移動與轉換的定義,3,許多資料倉儲系統至少有一半的建置時間都會花在資料移動與轉換上面。,這是由於以下的幾項原因:,資料倉儲團隊對資料在源頭的儲存方式並不熟悉。,資料型態經常需要經過複雜的轉換。,資料清潔需求。,資料量。,資料移動與轉換會耗費很多時間,許多資料倉儲系統至少有一半的建置時間都會花在資料移動與轉換上,4,資料轉換的類別,簡單轉換,:將原本的資料直接轉換成資料倉儲系統內所需要的格式。,資料清潔,:將有問題的資料篩選出來並做特別處理。,資料整合,:將不同來源的資料做整合以,達到統一資料內容及定義的效果。,合計表格產生,:將一些運算動作先做出,已增加資料查詢的速度。,資料轉換的類別 簡單轉換:將原本的資料直接轉換成資料倉儲系統,5,資料類別轉換,例:,數字轉為日期。,日期及時間的轉變,例:YYYYMMDD DD-MON-YYYY,欄位譯解,例:M,0,、,F,1,、其餘的值一律轉換為,2,。,簡單轉換的做法,資料類別轉換 簡單轉換的做法,6,在源頭系統中的資料經常是有問題的。常見的情況如下:,欄位有不被允許的資料,資料有漏失,資料錯誤,資料清潔的目的是將這些資料在匯入資料倉儲系統之前先做一個整頓。,資料清潔,在源頭系統中的資料經常是有問題的。常見的情況如下:資料清潔,7,不同資料來源的資料整合,緩慢改變維度支持,資料正規化與非正規化,衍生資料的產生,資料整合類別,不同資料來源的資料整合 資料整合類別,8,合計表格能使一個查詢所需要讀取的資料量減低,因而增進查詢的速率。,合計表格的建置是在資料轉換這個步驟中做出。,合計表格產生,合計表格產生,9,如果資料倉儲系統中的資訊的品質不夠,那資料倉儲存在的意義也就消失了。,以下舉出幾項資料源頭可能會發生的問題:,錯誤資料。,資料重複。,物件定義不明。,不合規定資料。,單一欄位中有兩種不同意義的數值。,資料清潔的需求,資料清潔的需求,10,當資料有問題時,我們可以在兩個不同的層面做處理:,資料來源處,資料轉換處,資料清潔的處理層面,資料清潔的處理層面,11,主要的好處是如此一來,資料倉儲系統的資料移動與轉換工作就可以比較快速地完成。,包括以下三種做法:,依照找出來的問題修改資料來源系統的資料。,修改資料來源系統的使用者介面。,替換掉原本的資料來源系統。,資料來源處的處理方式,資料來源處的處理方式,12,這種方式不必動用到系統本身程式和設計,而是只改變裏面所存的資料,所以比較容易執行。,壞處是資料發生問題的原因並沒有消除。,這只是將資料清潔的工作由資料移動與轉換這個步驟上移至源頭執行而已。,依照找出來的問題修改資料來源系統的資料,依照找出來的問題修改資料來源系統的資料,13,許多資料問題的來源是前線員工在輸入資料時打錯。,因此,一種資料清潔的方式是修改原本系統的使用者界面,以此迫使員工一定要輸入正確的值。如此一來,資料就不再會有定義域之外的值出現。,修改資料來源系統的使用者界面,修改資料來源系統的使用者界面,14,如果我們覺得資料來源系統所造成的資料品質問題不是做一些修改就可以改善的,替換掉原本的資料來源系統是一個可以考慮的作法。,這個處理方式極少被採用,因為這勢必牽扯到許多其他的問題(尤其是當資料來源是一個複雜的大系統時)。,替換掉原本的資料來源系統,替換掉原本的資料來源系統,15,這種方式的好處是資料倉儲團隊對這一個步驟有絕對的控制權,所以不必去擔心別的部門的員工需要配合。,這種方式的壞處是這會增加處理資料所需的時間。,資料轉換處的處理方式,資料轉換處的處理方式,16,將不合規定的資料匯入一個錯誤表格。,將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計。,利用資料轉換處理不合規定的資料。,資料轉換處處理的方式,資料轉換處處理的方式,17,將不合規定的資料匯入一個錯誤表格,資料來源,正確/符合規定*,不正確/,不符合規定*,錯誤表格,*規定為出生年不能小於1990 或大於2003。,資料倉儲表格,將不合規定的資料匯入一個錯誤表格資料來源正確/符合規定*,18,錯誤表格中的資料將由資料倉儲團隊做進一步的研究,直到找到了正確的值再匯入資料倉儲中。,由於這種方法需要花費很多人力,所以通常不會被採用。,將不合規定的資料匯入一個錯誤表格,將不合規定的資料匯入一個錯誤表格,19,將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計,資料來源,資料倉儲表格,出生年不能小於,1990 或大於2003,將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資,20,這種方式的運用是當資料品質問題不嚴重時採用。,所有資料都會被匯入資料倉儲內。,能夠很容易獲知哪些是有問題的資料。,將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計,將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資,21,利用資料轉換處理不合規定的資料,資料來源,資料倉儲表格,性別只允許M、F、U;不合乎規定的一律記錄為 U,出生年不能小於1990 或大於2003。不合乎規定的一律記錄為-1,利用資料轉換處理不合規定的資料資料來源資料倉儲表格性別只允許,22,這是最常用的方式。,一般來說,有以下三種方式:,資料對映。,建立新的規則。,以預設的值來替換有問題的資料欄位。,利用資料轉換處理不合規定的資料,利用資料轉換處理不合規定的資料,23,資料擦洗最普遍的例子就是確定單一顧客及由顧客資料導出戶口(,Household,)資料。,確認單一顧客的目的是讓組織可以精確地瞭解客戶的消費習性以及喜好,而進而由這些資訊對這位顧客做出更恰當的服務及促銷。,戶口資料則能讓組織瞭解一個消費個體的消費情形。,資料擦洗目的,資料擦洗目的,24,確定單一顧客及由顧客資料導出戶口資料一般有兩種方法:,由已有的資料中去推測。,向第三者購買顧客或戶口資料,然後再與本身資料合併一起去推測,。,資料擦洗做法,資料擦洗做法,25,確定單一顧客及由顧客資料導出戶口資料並,不是很直接的步驟。這是由於以下兩個原因:,定義問題,資料相符問題,資料擦洗會碰到的問題,資料擦洗會碰到的問題,26,資料移動與轉換的效率調整方式,以下是一些資料移動與轉換上常被用到的效率調整方式:,運用資料平行匯入,資料完整性確認的需要,將資料轉換工作於資料庫外做出,考慮當資料匯入時將表格索引刪除,運用能增進大量資料匯入的速度的檔案型式,資料移動與轉換的效率調整方式,27,當兩段(或是多段)資料匯入過程之間互相無關時,我們就可以考慮將它們同時匯入。,在決定平行運作的策略時,我們必須要考慮硬體設備、運作系統功能、以及資料庫功能。,運用資料平行匯入,運用資料平行匯入,28,某些資料完整性確認程式需要花很多時間去做,而實際上做出來後對滿足分析需求方面來說並沒有多少幫助。,為了節省時間,資料倉儲團隊可以考慮忽略這些資料完整性的需求。,資料完整性確認的需要,資料完整性確認的需要,29,在大部份的情況下,資料轉換在資料庫外進行時的速度比在資料庫內進行時要快。,這是因為以下的原因:,資料庫內的運行受限於,SQL。,許多影響效率的因素,例如資料輸入輸出的速度以及記憶體的運用,在資料庫外都比較容易控制。,將資料轉換工作於資料庫外做出,將資料轉換工作於資料庫外做出,30,若在資料匯入時索引已存在的話,那每一筆資料進入表格時索引都會被更改,導致速度降低。,如果在資料匯入之前將表格索引刪除的話,那就不會有這個問題了。不過,表格索引的建置也是需要時間。,因此,在做決定時,應該將這兩種情況都考慮在內。,考慮當資料匯入時將表格索引刪除,考慮當資料匯入時將表格索引刪除,31,某些檔案型式可能可以增進大量資料匯入的速度,所以應該儘量運用這類型式。,舉例來說,可能增進資料匯入速度的檔案型式包括:,已分類的檔案。,不含特別文字類別的檔案。,運用能增進大量資料匯入的速度的檔案型式,運用能增進大量資料匯入的速度的檔案型式,32,資料移動與轉換工具,功能,可由圖形化使用者介面設計出資料移動與轉換的過程。,能夠做到改變管理。,可以供多人同時使用。,良好的中繼資料記載效能。,能由許多不同的資料來源系統提取資料。,有強大的資料轉換功能。,每一個步驟後結束後,都可以依步驟的成功與否來決定下一步要如何繼續。,重新起動的功能。,資料移動與轉換工具功能,33,資料移動與轉換工具,功能,能夠啟動在工具外設定的程序(,Procedure,)。,將過程詳細記載下來,並能夠產生易瞭解的過程報表。,例外數值處理(Exception Handling)。,將過程詳細記載下來,並能夠產生易瞭解的過程報表。,中繼資料層具備,應用程式設計介面,可以讓別的工具或程式讀出它的,中繼資料。,能夠運用到資料庫與運作系統所提供的平行運算的功能。,廠商需提供適當的教育訓練課程。,資料移動與轉換工具功能,34,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!