《社会统计》PPT课件

上传人:san****019 文档编号:16086706 上传时间:2020-09-18 格式:PPT 页数:102 大小:758.60KB
返回 下载 相关 举报
《社会统计》PPT课件_第1页
第1页 / 共102页
《社会统计》PPT课件_第2页
第2页 / 共102页
《社会统计》PPT课件_第3页
第3页 / 共102页
点击查看更多>>
资源描述
Ming-chi Chen,社會統計,Page.1,社會統計,第九講 變異數分析,Ming-chi Chen,社會統計,Page.2,Analysis of Variance 變異數分析,在第七講中,我們學會了如何檢定兩母體平均數是否有差異。在本章中,我們將介紹對於兩個以上母體的平均值的比較。 檢定三個或以上的母體平均數是否相等的統計方法,或檢定名目變數或序列尺度的因子對於等距尺度或比率尺度的依變數是否有影響統計方法稱為變異數分析。,Ming-chi Chen,社會統計,Page.3,Analysis of Variance 變異數分析,比較各省籍(台灣、大陸、客家人)人士在收入及教育年數上的差異。 內閣制、總統制和半總統制對社會福利支出的影響 來自不同的區域學生的英文成績差別。 以上例子都有質性自變數與量化的依變數,Ming-chi Chen,社會統計,Page.4,Analysis of Variance 變異數分析,在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二: 一、這種做法太浪費時間,因為比較幾個母體可能產生很多的比較組,例如比較五個母體的平均值差異,如果以兩兩比較的方式,我們必須進行C52=10次的t-test。 二、如果每組的顯著水準皆為,則全體比較的顯著水準會高於。,Ming-chi Chen,社會統計,Page.5,Analysis of Variance 變異數分析,假設我們在.05的顯著水準下要檢定下列虛擬假設: H0: u1=u2=u3 如果拆成下列三組虛擬假設: H0: u1=u2 , H0: u1=u3 , H0: u2=u3 每個假設被接受的機率為.95,三個假設全部被接受的機率為.953=.857,也就是說當假設為真但被推翻的機率為(1 - 0.857) = 0.143 0.05 遠高於顯著水準。,Ming-chi Chen,社會統計,Page.6,Analysis of Variance 變異數分析,因此我們需要在共同的顯著水準下,同時考量多個平均值的差異,我們以F分配來進行檢定,稱之為變異數分析(ANOVA,ANalysis Of VAriance) 。,Ming-chi Chen,社會統計,Page.7,Analysis of Variance 變異數分析,The One-Factor ANOVA Model單因子變異數分析 設我們從k個母體中得到樣本資料來檢定下列虛擬假設: H0: u1 = u2 = = uk。 H1: 至少有兩個平均值不同。,Ming-chi Chen,社會統計,Page.8,族群與慈善捐款,| Summary of 捐款 籍貫 | Mean Std. Dev. Freq. -+- 本省閩南 | 7704.4047 25208.972 1453 本省客家 | 5303.125 10455.37 160 大陸各省市| 6948.1982 26439.263 222 -+- Total | 7403.5422 24440.143 1835,H0:閩南= 客家= 外省,三個族群年度慈善捐款的平均數一樣。,Q:我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設?,Ming-chi Chen,社會統計,Page.9,族群與慈善捐款,比較A, B, C三族群的人每年慈善捐款的數額(百元台幣)如下:,Ming-chi Chen,社會統計,Page.10,族群與慈善捐款,Q:我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設?,三個族群年度慈善捐款的數額皆相同,Ming-chi Chen,社會統計,Page.11,族群與慈善捐款,Q:各組平均值的差異是來自於抽樣誤差還是母體差異?,Ming-chi Chen,社會統計,Page.12,族群與慈善捐款,例如A族群與族群的平均值差異為140元,這個差異是否大到我們可以有信心的說u1與u2也有差異? 這個問題決定於x1, x2是否為母體平均值的精確估計值。,Ming-chi Chen,社會統計,Page.13,族群與慈善捐款,如果標準差很小,則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。 同理,如果標準差過大,則即使我們觀察到樣本平均值之間有很大的差距,我們也不太有信心能夠宣稱母體的平均數真的有別,Ming-chi Chen,社會統計,Page.14,族群與慈善捐款變異數分析,樣本標準差或變異數測量各個樣本內,各觀察值之間的變異程度。,如果樣本內的變異數很小,則各樣本之間平均數的差距若過大,為母體平均數不同的有力證據,反之,如果樣本內的變異數過大,則即使樣本平均值之間有差異,我們仍然很難下斷論說母體的平均值不同。,Ming-chi Chen,社會統計,Page.15,族群與慈善捐款變異數分析,因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異(within-group variance組內差異)及樣本間的變異(between-group variance組間差異)。所以通常稱之為變異數分析。,Ming-chi Chen,社會統計,Page.16,樣本內的變異數很小,18,19,20,21,22,23,C,B,A,Ming-chi Chen,社會統計,Page.17,樣本內的變異數很大,15,17,19,21,23,25,C,B,A,27,Ming-chi Chen,社會統計,Page.18,變異數分析中的幾個專有名詞,我們經常設計研究來了解造成某種現象變化的原因,例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜(甜度變動),這種我們欲了解的變動稱為依變項(dependent variable)、被解釋變項、或反應變項(response variable)。 我們懷疑西瓜的甜度與栽種過程中是否施肥有關,將某些西瓜種籽加以施肥處理,其他西瓜保持自然生長,這種造成依變項產生變化的變數稱之為因子(factor)或獨立變項、 自變項(independent variable) 。,Ming-chi Chen,社會統計,Page.19,自變數與依變數,在上面的例子中,比較各族群的慈善捐款,何者為依變項?何者為獨立變項? 依變項:慈善捐款 自變項:族群,Ming-chi Chen,社會統計,Page.20,因子水準(Factor level)與處理(Treatment),因子水準為某因子(自變數)之特殊形式或不同狀態,例如我們可以將施肥細分成三個水準:完全不施肥、施輕肥、施重肥。 如果解釋的因子為單一(施肥水準),稱為單因子分析,如果解釋因子在兩個以上(施肥與否栽種溫度),稱為多因子分析。,Ming-chi Chen,社會統計,Page.21,因子水準(Factor level)與處理(Treatment),在單因子分析中,每一個因素水準皆稱為一種處理(treatment),多因子分析中,因子水準之組合稱為一種處理(施重肥高溫、無施肥+高溫、施重肥低溫、無施肥低溫等。),稱為多因子分析。,Ming-chi Chen,社會統計,Page.22,變異數分析的邏輯,假設從K個母體中抽取大小分別為n1, n2, n3nk的K個獨立隨機樣本。我們對母體有下列的假設: 各母體皆為常態分配,且有共同相同的變異數2。 以u1, u2, uk 來表示母體的平均數,單因子分析檢證下虛擬假設 H0: u1=u2=uk vs. H1: 至少有兩組平均數不同,Ming-chi Chen,社會統計,Page.23,x11,x21,x31,xn1,1,x12,x22,x32,xn2,2,共有K個母體,1, 1,2, 2,x1k,x2k,x3k,xnk,k,k, k,Xi j,i代表在樣本中的序號,i = 1,2, nj,j代表樣本組別,j = 1,2, k,Ming-chi Chen,社會統計,Page.24,分別來自k母體的k組樣本,第k組樣本共有nk個觀察值,各組樣本數可以不同,分別為n1, n2,nk, 總樣本數n= n1+n2+nk,Ming-chi Chen,社會統計,Page.25,Ming-chi Chen,社會統計,Page.26,變異數分析的邏輯,Ming-chi Chen,社會統計,Page.27,變異數的分解,總平均數,任何一個人與總平均的差異稱為總差異:,Ming-chi Chen,社會統計,Page.28,變異數的分解,總平均數,任何一族群與總平均的差異稱為由因子所引起的差異(difference due to factor),Ming-chi Chen,社會統計,Page.29,變異數的分解,總平均數,同一族群中,任何一個人與該族群的平均數之間的差異稱為隨機差異(difference due to error),Ming-chi Chen,社會統計,Page.30,變異數的分解,總平均數,總差異 =,由因子所引起的差異 ,隨機差異,Ming-chi Chen,社會統計,Page.31,變異數的分解,總差異 =,由因子所引起的差異,隨機差異,總平均,因子的影響,隨機差異的影響,Ming-chi Chen,社會統計,Page.32,變異數的分解,兩邊取平方和,對於任一組j來說,,Ming-chi Chen,社會統計,Page.33,Sum of Squares in ANOVA變異數分析中的平方和,變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等,全體樣本資料的總變異量為:,即個別觀察值與總平均數差距的平方和,稱為總變異量或總平方和。,Ming-chi Chen,社會統計,Page.34,Sum of Squares in ANOVA變異數分析中的平方和,變異數分析將總變異量分解成下列兩部分:,總變異,=組內變異(或未解釋變異),+ 組間變異(或已解釋變異),Total Sum of Squares (TSS),= Within-group Sum of Squares or Sum of Squares Within (SSW),+ Between-Group Sum of Squares or Sum of Squares Between (SSB),Ming-chi Chen,社會統計,Page.35,Sum of Squares Within組內變異,組內各個觀察值之間的差異稱為隨機差異(difference due to random error),為不能被因子所解釋的差異。 在各組樣本內的變異,即每一個組內觀察值的誤差平方和:,在樣本組內,由於無法解釋的隨機變異,每一個觀察值xij與該組平均數會有所不同,因此組內的誤差稱為sum of squares due to error (SSE)or error sum of squares (誤差平均和),Ming-chi Chen,社會統計,Page.36,Sum of Squares Within組內變異,Ming-chi Chen,社會統計,Page.37,Between-Group Sum of Squares組間變異,任何一組的平均數與總平均數之間的差異稱為因子引起的差異(difference due to factor) 組間變異是因為已知為處理(treatment)所造成的,因此稱為已解釋變異或處理平方和(treatment sum of squares):,Ming-chi Chen,社會統計,Page.38,Sum of Squares Between組間變異,Ming-chi Chen,社會統計,Page.39,Sum of Squares Identity,SST = SSB + SSW = 19.6 +3.04 = 22.64,Ming-chi Chen,社會統計,Page.40,Mean Square Within,以變異數分析來檢定母體平均數是否相等必須基於下列假設: Xij are independent and Xij N(uj, 2) 變異數齊一性(homoegeneity): 每個小母體的變異數皆相等,j2=2 如何估計母體變異數? ANOVA檢定奠基於用不同的方式來估計未知的共同母體變異數2,Ming-chi Chen,社會統計,Page.41,Mean Square Within,從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值(unbiased estimator):,同理,Ming-chi Chen,社會統計,Page.42,複習:期望值的運算,Property 2: if Y=aX+b, where a and b are constant, then E(Y) = aE(X) + b,Property 3: if X1, X2, X3Xn are n random variable such that each expectation E(Xi) exists (i = 1,2, n), then E(X1+X2+Xn) = E(X1) +E(X2) + E(Xn),Property 4: If X1, Xn are n independent variables such that each expectation E(Xi) exists, then E(X1X2X3Xn)=E(X1)E(X2)E(Xn),Property 1: c is a constant, then E(c) = c,Ming-chi Chen,社會統計,Page.43,Variance of Discrete Random Variable,44,Ming-chi Chen,社會統計,Page.45,Mean Square Within,雖然各組樣本的變異數皆為母體變異數的不偏估計式,但是一更佳,更有效率的估計式為充分運用所有的樣本觀察值,即將各組的觀察值集合起來一起得到一個混和估計式:,Ming-chi Chen,社會統計,Page.46,Mean Square Within,這個混和估計式等於各組樣本變異數sj2的加權平均數,其加權權數為:,第j組的組內變異,Ming-chi Chen,社會統計,Page.47,Mean Square Within,估計式的分子部分等於SSW,即各組組內變異的總和。,Ming-chi Chen,社會統計,Page.48,Mean Square Within,我們把上式稱為MSW (Mean Square Within)組內均和,有時稱為Mean Square Error (MSE) ,其中分母部分為MSW的自由度(degree of freedom),Ming-chi Chen,社會統計,Page.49,Mean Square Within,為什麼MSW可以用來估計2?證明MSW為2的不偏估計式。,Ming-chi Chen,社會統計,Page.50,Mean Square Between,另一種估計母體變異數2為利用已知的,Ming-chi Chen,社會統計,Page.51,Mean Square Between,如果母體為常態分配,則樣本平均數的抽樣分配為:,為了方便討論,我們假設每一個樣本的樣本數相同,即n1= n2=n3=nk。 如果虛擬假設為真H0: u1=u2= uk,則,會有相同的機率分配。,Ming-chi Chen,社會統計,Page.52,Mean Square Between,因為每一個個別樣本皆為獨立樣本,所以我們可以將,我們可以用由各組平均值所組成的K個觀察值來估計母體的變異數如下:,視為從,中抽出K個觀察值的隨機樣本,Ming-chi Chen,社會統計,Page.53,Mean Square Between,從這個由樣本平均數所組成的樣本所計算出來的樣本變異數,稱為Mean Square Between (MSB),Ming-chi Chen,社會統計,Page.54,Mean Square Between,數學上我們可以證明:,Ming-chi Chen,社會統計,Page.55,Mean Square Between,Ming-chi Chen,社會統計,Page.56,Mean Square Between,Ming-chi Chen,社會統計,Page.57,Mean Square Between,Ming-chi Chen,社會統計,Page.58,Mean Square Between,當虛擬假設所有的母體平均數皆相同為真,則SSB/(K-1)為母體變異數的不偏估計式,=0,Ming-chi Chen,社會統計,Page.59,Mean Square Between, 0,當虛擬假設為不真,則SSB/(K-1)為母體變異數的偏差估計式,且偏差隨著,Ming-chi Chen,社會統計,Page.60,Mean Square Between,Mean Square Between (MSB):,其中分母K-1為MSB的自由度,MSB又稱為Between-group mean square 或 Mean square due to treatments (MSTR),Ming-chi Chen,社會統計,Page.61,ANOVA,這兩種方式皆可估計母體的變異數 當H0為真時,,當H0為不真時,,因此MSB及MSW的比率提供我們判斷虛擬假設是否為真的訊息。,Ming-chi Chen,社會統計,Page.62,Graphical Explanation of ANOVA,pooled,可以個別先計算每一個分配的變異數,然後取加權平均來估計2,也可以將所有資料彙整後再來估計2,Ming-chi Chen,社會統計,Page.63,Graphical Explanation of ANOVA,pooled,如果三個母體的平均值不等,則pooled資料所估計的母體變異數會大於2,如果三個母體的平均值相等,則兩種方式估計的2應該相等,Ming-chi Chen,社會統計,Page.64,ANOVA test statistic F,In One-way ANOVA, the test statistics is,如果H0為真,分子分母皆為母體變異數的不偏估計式,因此兩者的比率會十分接近1。 如果H0為不真,則MSB會高估母體變異數,F值會大於1。F愈大,H0愈不可能為真。 如果假設為真,則F統計量依循自由度為(K-1)及(n-K)的F 分配。,Ming-chi Chen,社會統計,Page.65,F Distribution,欲比較兩母體變異數是否相等時,我們可以計算樣本變異數的比值:,如果比率很接近1,則我們相信母體變異數很有可能一樣,如果此比值很大或很小,則母體變異數相等的機率不高。 究竟此比值要多大或多小才能推翻母體變異數相等的虛擬假設?,Ming-chi Chen,社會統計,Page.66,F Distribution,為了回答此問題,我們必須知道S21/S22此一隨機變數的抽樣分配。設有兩常態分配的母體:,且X1與X2互相獨立,自X1, X2中分別取獨立隨機樣本n1, n2,令:,Ming-chi Chen,社會統計,Page.67,F Distribution,若虛無假設為真,即21=22,則檢定量為:,若將變異數較大者視為來自母體1,則統計檢定量的值會大於1。此時單尾檢定都是右尾檢定,Ming-chi Chen,社會統計,Page.68,F Distribution,Ming-chi Chen,社會統計,Page.69,Performing one-way ANOVA test,假設我們要檢證下列的虛擬假設:,假設K母體皆為常態分配且有共同的變異數2 STEP1: 從母體中抽取樣本規模為n1, n2, nK的K個樣本。,Ming-chi Chen,社會統計,Page.70,Performing one-way ANOVA test,STEP2: 計算MSW 及MSB:,STEP3: 計算F統計量:,Ming-chi Chen,社會統計,Page.71,Performing one-way ANOVA test,檢證,先計算SSB及SSW,Ming-chi Chen,社會統計,Page.72,Performing one-way ANOVA test,Ming-chi Chen,社會統計,Page.73,Performing one-way ANOVA test,Ming-chi Chen,社會統計,Page.74,One-way ANOVA table,Ming-chi Chen,社會統計,Page.75,例題,已知A, B, C, D四組人的平均值及樣本規模如下,假設總變異量為596.01,用ANOVA檢定四個母體的平均數相等,Ming-chi Chen,社會統計,Page.76,The statistical Model of One-Way ANOVA,第j個population,第i個觀察值,第j個population的平均值,Random Effect隨機誤差項,Assumption about,Ming-chi Chen,社會統計,Page.77,The statistical Model of One-Way ANOVA,母體j的平均值可以表為總母體(所有k個母體)的平均值加上處理效果或因素效果(treatment effect) 。,虛擬假設,等同於,如果虛擬假設為真,則處理效果不存在,每一個觀察值等於u加上隨機誤差eij,Ming-chi Chen,社會統計,Page.78,Derivation of the Sum-of-Squares Identity,因素效果,隨機誤差,Ming-chi Chen,社會統計,Page.79,Derivation of the Sum-of-Squares Identity,Ming-chi Chen,社會統計,Page.80,Derivation of the Sum-of-Squares Identity,兩邊平方,Ming-chi Chen,社會統計,Page.81,Equivalence of the t test and one-way ANOVA,檢證0: 1= 2 vs. H1: 1 2 根據前面所學的t檢定:,Ming-chi Chen,社會統計,Page.82,Equivalence of the t test and one-way ANOVA,我們也可以用One-way ANOVA來作檢定 K=2時,one-way ANOVA檢定等於t檢定,且F=t2。,證明,Ming-chi Chen,社會統計,Page.83,Equivalence of the t test and one-way ANOVA,Ming-chi Chen,社會統計,Page.84,Equivalence of the t test and one-way ANOVA,為了證明F=t2,我們必須用到下列等式,Ming-chi Chen,社會統計,Page.85,Equivalence of the t test and one-way ANOVA,將剛剛證明的等式代入,Ming-chi Chen,社會統計,Page.86,Equivalence of the t test and one-way ANOVA,Ming-chi Chen,社會統計,Page.87,例題,Test H0: u1 = u2,給定下列條件,分別用t-test及ANOVA來檢定,Ming-chi Chen,社會統計,Page.88,例題,Ming-chi Chen,社會統計,Page.89,Stata:宗教與慈善行為,民國88年第一次的社會變遷調查(文化) 經過之前展示過的方法與邏輯,我們重新把宗教信仰分為5組(佛教、道教、民間信仰及其他、天主教/基督教、無宗教信仰) 把去年的慈善捐款金額取受訪者回答的組中點為其金額,最大的一組取250000元。,Ming-chi Chen,社會統計,Page.90,Stata:宗教與慈善行為,Ming-chi Chen,社會統計,Page.91,Stata:宗教與慈善行為,依變數,自變數/因子,Ming-chi Chen,社會統計,Page.92,Stata:宗教與慈善行為,. oneway donation religion, tabulate | Summary of 捐款 宗教信仰 | Mean Std. Dev. Freq. -+- 佛教 | 8864.1553 26795.572 438 道教 | 6556.5371 21286.512 283 民間信仰/ | 5826.087 19894.479 759 天主教/基 | 24679.012 51401.989 81 無 | 5006.5147 19645.717 307 -+- Total | 7331.9058 24272.867 1868,Ming-chi Chen,社會統計,Page.93,Stata:宗教與慈善行為,Analysis of Variance Source SS df MS F Prob F - Between groups 2.8954e+10 4 7.2386e+09 12.59 0.0000 Within groups 1.0710e+12 1863 574895302 - Total 1.1000e+12 1867 589172051 Bartletts test for equal variances: chi2(4) = 252.4003 Probchi2 = 0.000,=,/,/,=,=,Ming-chi Chen,社會統計,Page.94,多組樣本均數的多重比較,就好像兩變數獨立性的卡方檢定,或是整個迴歸模型的顯著性檢定一樣,ANOVA所要檢定的虛無假設是 H0: 1 = 2 = = k。 F值如果夠大,我們可以拒絕這個虛無假設,也就是至少有一組處理的均數和其他組不同,但是我們不知道是哪一組,也不知道這個偏差有多大。,Ming-chi Chen,社會統計,Page.95,Multiple Comparison of Means,為了比較,我們可以找出每組的信賴區間。 對於任一組均數i而言,其信賴區間為,Ming-chi Chen,社會統計,Page.96,多組樣本均數的多重比較,對於任兩組處裡的均數差i-j而言,其信賴區間為,Ming-chi Chen,社會統計,Page.97,多組樣本均數的多重比較,重要注意事項 如果牽涉的處理組數太多,那要特別注意。 兩兩成對比較,以10組處理來說,共有C10245對要比較。 如果我們針對這45對比較都取95的信賴區間,那每一對有5犯型I錯誤的機會,45對一共是45(0.05)2.25的機率至少有一對均數差的信賴區間會包含0。 這個機率稱為multiple comparison error rate,Ming-chi Chen,社會統計,Page.98,Bonferroni Multiple Comparisons,為了修正多重比較錯誤率,我們可以根據我們理想的總信賴水準來重新界定每對均差的信賴水準。這稱之為simultaneous confidence intervals,這個技術稱為多重比較技術multiple comparison techniques 根據C. E.Bonferroni的理論,有人提出了一種修正方式 比如我們有4組處理要兩兩比較,如果我們要求至少有一組均差出錯的機率為0.1的話,那每一對的信賴水準為1-0.1/4=1-0.025=97.5% Stata用的是p值法,很容易執行。,Ming-chi Chen,社會統計,Page.99,Bonferroni Multiple Comparisons,Ming-chi Chen,社會統計,Page.100,Bonferroni Multiple Comparisons,Comparison of 捐款 by 宗教信仰 (Bonferroni) Row Mean-| Col Mean | 佛教 道教 民間信仰 天主教/? -+- 道教 | -2307.62 | 1.000 | 民間信仰 | -3038.07 -730.45 | 0.349 1.000 | 天主教/?| 15814.9 18122.5 18852.9 | 0.000 0.000 0.000 | 無 | -3857.64 -1550.02 -819.572 -19672.5 | 0.308 1.000 1.000 0.000,天主教/基督教徒慈善捐款比所有的其他宗教教徒都高,而且到達顯著水準(如果我們定在0.01/10),Ming-chi Chen,社會統計,Page.101,宗教信仰與慈善行為,但是天主教/基督教慈善捐款可能是有其他因素的影響,比如說教育,可能同樣的教育水準的人(或同樣收入水準的人),慈善捐款也會一樣,而天主教/基督教徒正好教育程度都比較高,如果我們控制了教育程度,更可以分析宗教與慈善行為的關係,也許兩者的相關只是一種虛假相關(spurious relations) 以上的控制可以用two-way ANOVA來分析。,Ming-chi Chen,社會統計,Page.102,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!