资源描述
,按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,決 策 樹,分類法,中原 資管所 李維平 老師,決策樹的重要性,在商業界最常用的方法之一,Decision Tree,之意義,Decision Tree,之意義,If We have much money,ANDWe are buying a gift for an adult,THEN Buy a car,If We have much money,ANDWe re buying a gift for a child,THEN Buy a computer,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Yes,有弦?,用吹的?,彎如弓的?,演奏時要用下巴夾的?,用彈的?,有鍵盤的?,木管樂器?,有簧片?,有雙簧片?,銅管樂器?,常用於通俗樂器中?,比演奏者高?,常用於通俗樂器中?,有十根弦以上?,打擊樂器?,有弦?,鼓棒?,有音鎚的?,曲型的?,筆直的?,彈奏?,小提琴,中提琴,低音提琴,大提琴,不知道,豎琴,詩琴,揚琴,不知道,電子樂器,風琴,Yes,撥弦古鋼琴,鋼琴,Yes,No,Yes,No,名詞解釋,根節點,葉節點,內部節點,決策樹本質:是一個分類器,收入,年齡,職業,分類器,好,普通,差,銀行客戶,:,信用分類,“信用”為,目標屬性,:,決策樹,決策樹優點:可以萃取分類規則,例如:銀行新客戶的信用分類問題,決 策 樹,X1,X2,Y,決策樹例子,1:,信用好,2:,信用差,收入,年齡,X2,X1,2,2 2,2,2,2 2,1,1,1,1,1,30,7,万,5,万,3,万,年齡,111,111,222,2222,年齡,30,收入,11,2222,1111,222,收入,5,万,單純資料,混亂資料,例子,:,舊客戶購買之歷史資料,No,性別,學院,購買,產品,1,男,商,電腦,2,男,人文,手機,3,女,商,電腦,4,女,人文,手機,新客戶,:,女生、商學院,請問她最可能購買的產品?,決策樹例子,1,:,電腦,2,:,手機,學院,性別,1,2,1,2,男,女,學院,2,2,1,1,商,人文,單純資料,男,女,商,人文,電腦,電腦,手機,手機,性別,混亂資料,(,混亂度高,),(,混亂度低,),決策樹,目標屬性:購買產品類別,輸入屬性:性別、學院,、,年級,性別,年級,學院,購買產品,購買產品,混亂度,定義,:,一群物件的,目標屬性,混亂的程度,三種計算方式,:,P,1,*,P,2,01/4,P,1,:,這群物件,目標,屬性值為,1,的機率,P,2,:,這群物件,目標,屬性值為,2,的機率,Min(P,1,P,2,),01/2,Entropy:-,P,1,log,2,P,1,-P,2,log,2,P,2,01,練習,:,計算混亂度,1,1,1,1,1,1,1,2,1,1,2,2,Min(P,1,P,2,),P,1,*,P,2,決策樹精神,挑選一,輸入屬性,,能將,目標屬性,的,混亂度,降到最低,決策樹演算法,(Step1),選擇一,輸入屬性,,將所有,objects,作分類,(Step2),計算分類後之,平均,混亂度,(Step3),選擇能使,混亂度,降得最低的屬性,,,作為節點之判別屬性,(Step4),反覆,(Step13),,直到,停止條件,停止條件,當葉節點滿足下列條件 即停止,1.,所有物件的,目標,屬性,,皆為,同一類,2.,沒有輸入屬性可以降低,混亂度,決策樹模型,:,三階段模式,訓練,階段,將決策樹訓練出來,測試,階段,測試決策樹的準確性,運用,階段,可對一未知資料作分類,Decision Tree,之準確率,利用,”,測試資料”作測試,練習,age,income,student,credit_rating,buys_computer,=30,high,no,fair,no,40,medium,no,fair,yes,40,low,yes,fair,yes,40,low,yes,excellent,no,3140,low,yes,excellent,yes,=30,medium,no,fair,no,40,medium,yes,fair,yes,40,medium,no,excellent,no,age?,income?,credit rating?,fair,excellent,40,no,no,yes,yes,yes,3040,Root Node,Child Node,Leaf Node,h,m,l,no,決策樹相關演算法,ID3:,(,前面所教,),Quinlan 1979,輸入屬性為,離散,C4.5:,(IBM Mining,軟體所採用,),Breiman,1984,輸入屬性可為,連續,決策樹,mining,過程,A,決定想解決的問題,B,決定目標屬性與輸入屬性,C,決定資料範圍,D,資料前處理,或許需要將,連續變數,改為,”,離散,”變數,E,建構決策樹,並解釋結果,F,若無法解釋,應回到,A,或,B,再思考,決策樹專案 注意事項,(1/2),目標變數應為,”,離散,(,類別,)”,變數,值不能太多,輸入變數,關聯性太高不適合使用,預測所得高低,:,輸入變數為 年齡,職業,繳稅高低,預測打擊率高低,:,輸入變數為 年齡,守備位置,長打率,月薪,決策樹專案 注意事項,(2/2),目標屬性與輸入屬性關聯性太低,例如,:,樂透獎,輸入:年,月,週,日,輸出:樂透號碼,作業,(,碩專,),時間:,2,週,請於,3/24(,一,),前,將報告,mail,給老師與上課成員,報告請用,Word,檔撰寫,約,36,頁,應說明每位組員的貢獻,若有問題詢問,每位組員皆可回答,附錄,下週報告,(,大學部,),時間:,8,分鐘,討論:,5,分鐘,請於,4/8(,日,),前,mail,老師與上課成員,應說明每位組員的貢獻,若有問題詢問,每位組員皆可回答,報告,(,大學部,),下週,:,請報告關聯規則實作作業,外系同學如何上機練習,
展开阅读全文