极值正规化公式课件

资源描述

1第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結2資料未經處理的問題v資料不完整(data incomplete)資料中某些屬性值有遺缺缺少某些分析時需要用到的屬性v資料有雜訊(noise)資料有錯誤或是特例(outlier)造成v資料不一致(data inconsistency)由不同來源整合而得所產生v商品在台灣是以台幣，在美國則是美金計價v有高品質的資料，才有高品質的探勘結果3第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結4前置處理的主要工作資料整合整合後的資料清理過的資料資料轉換準備進行探勘的資料各種不同來源的資料資料清理5資料整合v資料整合(data integration)解決多重資料來源的整合問題v主要工作消除資料不一致v數值不一致(data value conflict)v綱目不一致(schema conflict)消除資料重複性v數值重複v綱目重複6資料清理(1)v確認資料正確性、完整性常見的資料正確性問題7資料清理(2)v確認資料完整性常見的資料完整性問題：8資料清理(3)v其它清理工作遺缺填補：人工填補或自動填補雜訊消除：雜訊使探勘結果有相當大的偏差，必須將雜訊移除或將資料做平緩化處理(smoothing)9資料轉換v資料統整(data aggregation)加總、統計或是建立資料方塊(data cube)將資料做初步整理，使得資料更適合探勘v資料一般化(data generalization)資料的概念階層(concept hierarchy)向上提升v會員地址用城市或是北中南東四區取代資料精簡的方法之一v建立新屬性(attribute construction)利用舊屬性將探勘所需的新屬性建立10第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結11資料遺缺原因v資料建立時未輸入故意或是不小心造成資料沒有被輸入v設備故障例如收銀機故障，導致顧客消費明細無法輸入v因資料內容不一致而被刪除當資料內容不一致時，為了避免錯誤的資料影響分析的準確性，可能會將該項資料以空值取代，因此產生資料的遺缺12資料遺缺處理方法-直接忽略法v處理資料遺缺最簡單的方法v適用時機進行分類探勘時，若資料的分類標記(class label)為空值，這筆資料因無法被正確分類，便可直接刪除v適用對象蒐集資料量很多、遺缺資料只佔一小部分v缺點資料遺缺比例很可觀時，會造成大量資料流失13資料遺缺處理方法-人工填補法v處理資料遺缺的現象，可採用人工來填補v範例當某會員資料的生日屬性有遺缺，可打電話詢問該會員，以取得其生日並加以填補。v缺點當資料遺缺較多時，耗時且人力負擔沉重。14資料遺缺處理方法-自動填補法v主要兩種方式填入一個通用的常數值填入一個通用的常數值v如填入“未知/unknown”，成為一個新的類別填入該屬性的整體平均值填入該屬性的整體平均值v不會對統計結果造成太大的影響v不影響統計結果的情況下，保留此資料屬性v缺點是不夠客觀更精確作法是用推論法求出較可能的值來填入v方法基本上有兩種，一種是貝式方程式(Bayesian formula)，另一種方法是利用決策樹(decision tree)15第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結16雜訊的處理方法v結合電腦和人工檢視結合電腦偵測與人工檢視v資料平緩化處理回歸分析法(regression analysis)v將資料套入回歸函數以消除雜訊裝箱法(binning method)v將資料排序並切割成數個箱子v用平均值、中位數或邊界值來取代箱子中的每一筆資料以消除雜訊17裝箱法-等寬分割法v等寬分割法(或稱等距分割法，Equal Width/Distance)將資料的數值範圍劃分為N 個間隔相同的區間若A和B分別為此屬性中的最小與最大值，則每個區間的間隔大小為：W=(B-A)/N.假設將12樣商品的價格資料排序如下：12,15,18,21,28,33,36,45,50,52,60,80 欲分割為四個箱子則箱子寬度=(80-12)/4=17v箱子 1(12-28)：12,15,18,21,28v箱子 2(29-45)：33,36,45v箱子 3(46-62)：50,52,60v箱子 4(63-80)：80最直覺的分割法，但特例對分割結果的影響很大不適用於偏斜的資料(skew data)18等寬分割法示意圖12,15,18,21,28 箱子箱子箱子箱子33,36,45 箱子箱子50,52,60 80 箱子箱子19裝箱法-等深分割法v等深分割法(或稱等頻分割法，Equal Depth/Frequency)將資料劃分為N 個資料數量大致相同的區間例假設將12樣商品的價格資料排序如下：12,15,18,21,28,33,36,45,50,52,60,80四個箱子則每個箱子均含三筆資料(寬度12/4=3)v箱子 1：12,15,18v箱子 2：21,28,33v箱子 3：36,45,50v箱子 4：52,60,80資料分布(scaling)良好但類別屬性(categorical attributes)較難處理20等深分割法示意圖12,15,18 箱子箱子21,28,33 箱子箱子箱子箱子52,60,80 36,45,50 箱子箱子21裝箱資料的平緩處理 v以平均值消除雜訊箱子 1(12,15,18)：15,15,15 箱子 2(21,28,33)：28,28,28箱子 3(36,45,50)：44,44,44箱子 4(52,60,80)：64,64,64v以中位數消除雜訊箱子 1(12,15,18)：15,15,15 箱子 2(21,28,33)：28,28,28箱子 3(36,45,50)：45,45,45箱子 4(52,60,80)：60,60,60v以邊界值消除雜訊箱子 1(12,15,18)：12,18,18 箱子 2(21,28,33)：21,33,33箱子 3(36,45,50)：36,50,50箱子 4(52,60,80)：52,52,8022第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結23資料正規化 v資料正規化(Data normalization)將資料重新分布在一個較小且特定的範圍內v例如:台灣的平均所得遠高於菲律賓,即使年收入均以台幣作單位,直接將兩國顧客的年收入用數值相比仍然不夠客觀,此時便需要正規化到同一個標準下做評比。v資料正規化的方法極值正規化(Min-max normalization)Z-分數正規化(Z-score normalization)十進位正規化(Normalization by decimal scaling)24極值正規化v公式範例:：假設一般臺灣上班族的月收入範圍為 20000,100000，而一般菲律賓上班族的月收入範圍為 2000,10000；在台灣收入30000元相當於在菲律賓收入多少？適合用在需要將資料規範在某一個指定範圍內的情況25Z-分數正規化v公式範例：假設臺灣人月收入平均為35000元，標準差是10000元，利用Z-分數法將月收入30000元做正規化，將得到負數表示收入低於平均，正數表示高於平均26十進位正規化v公式範例：假設台灣上班族最高月收入為100000元，因此使得正規化後的結果小於或等於1的最小整數為5。則月收入30000元經由十進位正規化之後將會得到適合用在要將數字壓縮到區間 0,1 的情況 j是使得Max(|)1的最小整數27第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結28資料探勘中的資料形式v資料形式(data forms)分為四種本文形式：內容或是文件，可看作是字串集合時間形式：存時間序列(time series)，記錄隨時間而變的資料交易形式：記錄交易的項目關聯形式：即關聯式資料庫中的表格29資料探勘技術適用之資料形式v多層次資料一般化(multilevel data generalization)發掘之知識：資料庫中發掘較高層次的資料觀點(view)，也就是發掘出所謂的概念階層(concept hierarchy)合適之資料形式：關聯形式v分類法(data classification)發掘之知識：在訓練樣本中發掘分類規則，分類新資料合適之資料形式：關聯形式v群集分析(cluster analysis)發掘之知識：根據資料樣本的樣式(pattern)，將相似的資料樣本分成一個群集合適之資料形式：關聯形式30資料探勘技術適用之資料形式v關連法則探勘(association rules mining)發掘之知識：龐大交易資料中找出交易的關連性合適之資料形式：交易形式資料v時間序列分析(time series analysis)發掘之知識：分析不同時間點的資料值變化，發掘規則合適之資料形式：時間形式資料v以樣式為基礎的相似搜尋(pattern-based similarity search)發掘之知識：預先設定目標樣式及差異容忍度，找出與目標樣式之相似度在差異容忍度範圍內的物件，可分成文字搜尋以及時間序列搜尋合適之資料形式：文字搜尋本文形式時間序列時間形式31資料探勘與資料形式的關係資料探勘技術多層次資料一般化分類法群集分析關連法則探勘時間序列分析以樣式為基礎的相似搜尋關聯形式交易形式時間形式本文形式32資料型式的轉換 v以購物網站所用的資料庫為例記錄顧客所買的每樣商品資料，包括：交易編號、會員帳號、商品編號、交易時間、交易數量、付款方式若分析顧客同一天購買的商品間關連性，目前交易表內所存的資料格式並無法直接套用關連法則探勘演算法，要經以下步驟轉化vStep 1-選取相關屬性選取相關屬性：選出會員帳號、商品編號、交易時間三個屬性。vStep 2-精簡資料精簡資料：將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。vStep 3-轉換資料形式轉換資料形式：依照會員帳號及交易日期將同一會員同一天的交易紀錄集合成一筆交易形式的資料。33第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結34資料探勘中的資料型態 v離散型(discrete)預先定義的資料集合所組成集合中兩個值的距離無法直接計算v像布林型態（例如：性別）、列舉型態（例如：職業等）、或是字串型態（例如：地址）均屬於此類型v連續型(continuous)數字型態（例如：平均月收入）或是日期型態（例如：生日）均屬於此類型35資料探勘技術適用之資料型態(1)v離散型監督式學習法（supervised learning）v分類法v連續型監督式學習法非監督式學習法(unsupervised learning)v群集分析法36資料探勘技術適用之資料型態(2)特性型態資料型態範例兩值間的距離分類探勘群集分析理解度離散型布林型態列舉型態字串型態較難計算適合不適合較高連續型數字型態日期型態較易計算適合適合較低37資料型態的轉換v離散型轉換成連續型資料Step1：用相似性矩陣定義值與值的距離或相似度Step2：再利用值與值的距離或是相似度把離散的資料形態表示成連續的資料型態v連續型轉換成離散型資料Step1：利用群集分析法將數值型態資料分群Step2：接著將群集做合適名稱，再利用群集的名稱代替群集內所包含的數值型資料轉換成離散型資料38第三章資料前置處理v簡介v資料前置處理的主要工作 v遺缺填補法v雜訊去除法v資料正規化v資料形式轉換*v資料型態轉換*v資料模糊化*v總結39資料模糊化v在二進位邏輯中只有兩個可能的值（成立或不成立）現實生活中的許多概念的表達，並非只有成立或是不成立這樣極端的值所能描述不適合用來處理不確定性(uncertainty)v1965年Zadeh提出模糊集合(fuzzy sets)與模糊邏輯(fuzzy logic)的概念描述真實世界中許多不明確、含糊不清的事物 40模糊集合與模糊邏輯v模糊集合(fuzzy sets)傳統集合：只有是與否兩種情況模糊集合：每個元素均有特定的歸屬程度v例如：160cm(0.0)170cm(0.5)175cm(0.75)180cm(1.0)v模糊邏輯(fuzzy logic)利用模糊定量詞(fuzzy quantifiers)來表達v大多數的、相當多、不很多v模糊命題(fuzzy propositions)湯姆很年輕或是明天可能下雨 41模糊資料探勘v包括四個主要的處理程序：模糊化模糊化(fuzzification)模糊資料探勘模糊資料探勘(Fuzzy Data Mining)模糊推論模糊推論(fuzzy inference)解模糊化解模糊化(defuzzification)。42模糊化v主要是將所有語言變數的實際輸入值（如年齡、年收入）透過語言值(linguistic value)的模糊成員函數(membership function)求得模糊輸入值(fuzzy input)後，接著進行資料探勘 v找出大量資料當中的模糊規則，進行模糊推論，得出模糊輸出值，最後再經由解模糊化將推論完成所獲得的最終結果值轉換為另一個語言變數的語言值 43模糊化範例v範例定義年齡成員函數，輸入數值“約翰是67歲”，取67歲平行於縱軸，分別與年輕和年老函數曲線相交約翰年輕的程度為0.46，約翰年老的程度為0.92年老年青1.00.920.4600 67 100年齡程度44模糊資料探勘 v模糊化語句所呈現的知識規則稱為模糊規則v模糊規則 Rj 可表示其中 xi(i=1,2,.,n)為輸入，y 為輸出；輸入語意值 Aij 和輸出語意值 Bj(j=1,2,N)分別是定義於 Xi 和 Y 的模糊集合v範例IF 股價近期上漲AND 上漲持續時間短AND 成交量變小 THEN 未來股價會可能會持續上漲45模糊推論v主要以近似推理(approximate reasoning)的方式，根據知識庫中的規則進行模糊推論得出結果v運算方式將模糊規則的前件部(antecedent part)各項輸入值與語意值所得進行模糊匹配轉換成模糊集合後規則庫中有關的模糊邏輯運算子AND、OR、NOT，便等效於模糊集合的交集、聯集、補集運算，所得的結果稱為該條規則的觸發強度(firing strength)46模糊推論過程v觸發強度(firing strength)：代表第j條規則的觸發強度，交集代表AND運算 v經由觸發強度可得出第j個模糊基底函數 47模糊推論範例vSTEP1 假設模糊規則如下：規則 1：IF X 是一個年輕又高的人 THEN X 適合玩籃球規則 2：IF X 是一個年老的人 THEN X 適宜慢跑vSTEP2已知“約翰年輕的程度為 0.46”且“約翰年老的程度為 0.92”vSTEP3假設“約翰高的程度為 0.8”，則規則 1 中“約翰年輕又高”的程度為 Minimum(0.46,0.8)=0.46 而規則 2 中“約翰年老的”的程度為 0.92，故得到模糊輸出值為v輸出 1：量化單位 0.46 對應於玩籃球v輸出 2：量化單位 0.92 對應於慢跑48解模糊化v將定義於 Y 的模糊集合 B 轉換為精確的輸出值 y Y，才是真正系統的輸出“約翰適合慢跑”成為最後的輸出結果v加權平均解模糊化法(weighted average defuzzification)其中為模糊基底函數向量，為輸出語意值Bj的支點 49常用的模糊成員函數(1)vS 函數是最常用的模糊成員函數之一v當輸入值小於或等於時，模糊函數值為0v輸入值等於時，模糊函數值為0.5v輸入值大於或等於時，模糊函數值為1。在這個函數中，(+)/2，亦即|-|=|-|50常用的模糊成員函數(2)v通常一組模糊概念可用高、中、低三個模糊詞來表達51常用的模糊成員函數(3)52常用的模糊成員函數(4)53範例 v假設=0、=0.5 且=1.00 0.4 0.5 1.01.00.920.680.320LOW AVERAGE HIGH54範例說明v令x 為代入值（如溫度、長度、速度等數值），而、及為函數之參數v當 x 值LOW 程度為0 且 HIGH 的程度為 1.0。55總結v本章介紹資料前置處理的相關問題，包括資料清理、資料整合以及資料轉換。v資料前置處理的目的提高資料探勘的品質v資料精簡的目的(下一章）提高資料探勘的效率v有高品質的資料，才有高品質的探勘結果

展开阅读全文

极值正规化公式课件

最新文档