因果推论新思维反事实分析架构

上传人:无*** 文档编号:133426157 上传时间:2022-08-10 格式:PPT 页数:103 大小:1,004.50KB
返回 下载 相关 举报
因果推论新思维反事实分析架构_第1页
第1页 / 共103页
因果推论新思维反事实分析架构_第2页
第2页 / 共103页
因果推论新思维反事实分析架构_第3页
第3页 / 共103页
点击查看更多>>
资源描述
資料庫研究與統計方法學資料庫研究與統計方法學大型資料庫研究主題工作坊大型資料庫研究主題工作坊因果推論新思維:反事實分析架構關秉寅關秉寅政治大學社會學系政治大學社會學系2010.01.16A New Paradigm for Causal Inference:The Counterfactual Framework資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 參考Judea Pearl(professor of Computer Science and Statistics and director of the Cognitive Systems Laboratory,UCLA)http:/singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 從亞當與夏娃說起:亞當與夏娃吃過智慧樹的果子後,他們已經是因果解釋的專家。當上帝問亞當你是否吃了智慧樹的果子時(詢問事實),亞當的回答是:祢給我的那個女人,從樹上拿了果子讓我吃了(不只是說明事實,還做了解釋);上帝問夏娃,夏娃回答是:我是吃了,可是是蛇誘惑和欺騙了我。資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 聖經故事的意涵:因果解釋是一個man-made concept。因果解釋是拿來歸咎責任的。只有神(為了某些目的)、人與動物(有自有意志)可以讓事情發生,而不是東西(objects)或物理的過程(physical processes)。資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 但當工程師開始建造有許多滑輪及繩纜的 system來幫人做事後,physical objects開始有了因果的特性。當系統無法運作時,歸咎於神或人並沒有用,比較有效的解釋是滑輪或繩纜壞了,只要加以替換後,系統就可再運作。至此,causes之概念有雙重意義:the targets of credit and blame the carriers of physical flow of control on the other 資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 至文藝復興時,當上帝做為final cause逐漸被人的科學知識所取代時,這雙重意義遇到困難與挑戰。Galileo在1638年出版 Discorsi(兩門新科學的對話)這本書後,有了革命性的轉變。此書有兩項重要的格言(maxims):資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 1.先描述,後解釋(Description first,explanation second):The how precedes the why.Ask not,said Galileo,whether an object falls because it is pulled from below or pushed from above.Ask how well you can predict the time it takes for the object to travel a certain distance,and how that time will vary from object to object,and as the angle of the track changes.2.以數學(方程式)來描述,而不是語言:如d=t2。資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今從此,物理學充滿了有用但未被解釋的經驗法則,如Snell law,Hookes law,Ohms law,Joules law。另一項比預測實驗結果更重要的是代數方程式的運用,因為工程師除了可以問“how to”外,還可以問“what if”。資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 至啟蒙時代,David Hume 將 Galileo的第一項格言發揮至極致,他認為 the WHY is not merely second to the HOW,but that the WHY is totally superfluous as it is subsumed by the HOW。On page 156 of Treatise of Human Nature:Thus we remember to have seen that species of object we call FLAME,and to have felt that species of sensation we call HEAT.We likewise call to mind their constant conjunction in all past instances.Without any farther ceremony,we call the one CAUSE and the other EFFECT,and infer the existence of the one from that of the other.資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 從實證主義的角度來看,Hume是在說“A caused B”與“Whenever A occurs,then B does”相同。但是我們都知道雞啼是伴隨著朝陽,但雞啼並不是讓太陽出來的原因。大難題1:如果如Hume所說,我們的知識是來自於經驗,而經驗是以相關的形式存於我們的心靈中,那我們如何得到因果方面的知識?If regularity of succession is not sufficient;what WOULD be sufficient?資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 大難題2:我們知道某些關連有或沒有因果間的關係,有何差別嗎?知道因果又有何用?當然知道因果關係,就可以做某些事。如果雞啼是造成太陽升起的原因,那我們要縮短夜晚的話,就可以讓雞早些啼。If causal information has an empirical meaning beyond regularity of succession,then that information should show up in the laws of physics.But it does not!資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 Russell(1913)認為“All philosophers imagine that causation is one of the fundamental axioms of science,yet oddly enough,in advanced sciences,the word cause never occurs.The law of causality,I believe,is a relic of bygone age,surviving,like the monarchy,only because it is erroneously supposed to do no harm.”“It could not possibly be an abbreviation,because the laws of physics are all symmetrical,going both ways,while causal relations are uni-directional,going from cause to effect.”資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 但另一位科學哲學家Patrick Suppes 則指出“There is scarcely an issue of Physical Review that does not contain at least one article using either cause or causality in its title.”物理學家一方面寫無因果意涵的方程式,但另一方面卻大談因果關係。統計學一百多年前發現相關(correlation)的概念後,卻無法忽略相關與因果間的區辨。資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 Francis Galton於1888年進行個人的前臂與其頭大小關係的測量,企圖瞭解一個數值預測另一個數值的程度時,發現到:If you plot one quantity against the other and scale the two axes properly,then the slope of the best-fit line has some nice mathematical properties:The slope is 1 only when one quantity can predict the other precisely;it is zero whenever the prediction is no better than a random guess and,most remarkably,the slope is the same no matter if you plot X against Y or Y against X.我們開始可以根據資料客觀的測量兩個變項間的關係,而不是根據我們的意見或判斷。資料庫研究與統計方法學06.09.061因果推論:從古到今因果推論:從古到今 Galton的發現震撼了其學生Karl Pearson(公認是現代統計學之父),使他終其一生認為我們只需要相關這個更廣泛的概念,而不需要另一個獨立的因果關係的概念。他也從不在其論文內提到因果的概念。這一直要到Sir Ronald Fisher 建立 randomized experiment 的研究設計後,才成為唯一被主流統計學所接受,並認為這是唯一可從資料驗證因果間關係的科學方法。但這種謹慎的看法使得無法做實驗,而需靠統計分析為引導的社會科學處於近乎癱瘓的狀態。資料庫研究與統計方法學06.09.061因果推論的新典範因果推論的新典範 Pearl 認為這樣的困境是源自統計學的官方語言:機率的語言。因為 cause 並不是機率的字彙。我們無法以機率的語言表達:Mud does not cause rain。我們只能說兩者相關。Naturally,if we lack a language to express a certain concept explicitly,we cant expect to develop scientific activity around that concept.Scientific development requires that knowledge be transferred reliably from one study to another and,as Galileo has shown 350 years ago,such transference requires the precision and computational benefits of a formal language.資料庫研究與統計方法學06.09.061因果推論的新典範因果推論的新典範 當研究者開始企圖使用電腦來建立因果關係時,對於先前兩大難題有了新的想法。從概念層次來說,機器人所遇到的問題是與經濟學家企圖建立稅收及預算模式,或流行病學家企圖建立流行病的模式是一樣的。不論是機器人、經濟學家或流行病學家都需要在行動受限制的條件下,依據充滿雜音的資訊,從環境中找出因果的關係。這就是先前的第一個大難題:HOW?資料庫研究與統計方法學06.09.061因果推論的新典範因果推論的新典範 機器人的世界也與第二大難題有關。如果我們教導機器人關於因果的知識,機器人要如何組織及運用這些知識呢?對機器人而言,這兩大難題是具體而實際的問題,就是如何從與環境的互動中得到因果的知識,以及如何運用從創造者/程式設計師得到的因果知識?資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 J.Pearl 的答案:第二個難題可以結合graphs與equations的方式解決,如此則第一個難題也比較容易解決。解題的主要關鍵概念是:(1)treating causation as a summary of behavior under interventions.(2)using equations and graphs as a mathematical language within which causal thoughts can be represented and manipulated.(3)Treating interventions as a surgery over equations.資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 社會科學家過去75年來不時使用graphs,如structural equations modeling 及 path diagrams。但是由於代數方程式的便利性,因而壓抑了圖型的使用,也進而失去了圖型帶來的好處。這些diagrams事實上捕捉了因果的本質預測不正常情況或是新的操弄狀態下,會產生什麼結果。這種預測是代數或相關分析無法做到的。資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 從這樣的角度來看因果關係,可以理解為何科學家如此熱衷於因果解釋,因為建立因果模式會得到一種“deep understanding”及“being in control”的感覺。Deep understanding的意思是“knowing,not merely how things behaved yesterday,but also how things will behave under new hypothetical circumstances,control being one such circumstance”.資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 即使我們無法實際上控制事情,我們也因理解因果關係而得到“in control”的感覺。例如,我們無法控制星體的運轉,但萬有引力的理論,讓我們能夠理解並獲得假設性控制(hypothetical control)的感覺。我們也可以預測當萬有引力改變時,對潮汐會產生什麼影響。因果模式也是做為區辨有意識的論證(deliberate reasoning)及被動或本能的反應(reactive or instinctive response)的試金石。前者可在即使不真正去從事新的操弄(manipulation)下,也可以預期新的操弄可以得到什麼結果。資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 Equations vs.Diagrams(J.Pearl)資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 Definition of Causation:Y is a cause of Z if we can change Z by manipulating Y,namely,if after surgically removing the equation for Y,the solution for Z will depend on the new value we substitute for Y.THE DIAGRAM TELLS US WHICH EQUATION IS TO BE DELETED WHEN WE MANIPULATE Y.INTERVENTION AMOUNTS TO A SURGERY ON EQUATIONS,GUIDED BY A DIAGRAM,AND CAUSATION MEANS PREDICTING THE CONSEQUENCES OF SUCH A SURGERY.資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 INTERVENTION AS SURGERY-CONTROLLED EXPERIMENTS 假定我們要研究某種藥物是否能幫助病人從某假定我們要研究某種藥物是否能幫助病人從某些疾病復原。但影響復原的因素不只是藥物治些疾病復原。但影響復原的因素不只是藥物治療,還有其他的因素,如社經地位、年齡、生療,還有其他的因素,如社經地位、年齡、生活方式等。這對我們判斷藥物的效果來說是個活方式等。這對我們判斷藥物的效果來說是個問題,因為我們不知道影響復原的程度是那個問題,因為我們不知道影響復原的程度是那個因素造成的。因此,我們希望能夠比較背景相因素造成的。因此,我們希望能夠比較背景相同的病人,而這就是同的病人,而這就是Fisher的的Randomized Experiment能夠做到的。但隨機分派的實驗設能夠做到的。但隨機分派的實驗設計如何做到這種比較呢?計如何做到這種比較呢?資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言 這種實驗設計實際上有兩個部份:Randomization and Intervention.Intervention 就是我們將藥物給一些在正常情況下不會需要這種治療的病人,另一方面我們給一些尋求治療的病人安慰劑(placebo)。這也是先前提及的SURGERY 的概念,因為我們將一個functional link(如SES)切斷,而用另一種替代。Fisher的偉大貢獻是 connecting the new link to a random coin flip,以此保證我們想要切斷的 link 是確實被切斷了,因為我們可以假定這個 random coin 是不受任何我們可以測量到的因素所影響的。資料庫研究與統計方法學06.09.061新典範與新語言新典範與新語言資料庫研究與統計方法學06.09.061新典範與新思維新典範與新思維 在新典範下,我們可以如何在無法從事實驗的情況下,利用observational studies(如調查或病歷)的資料思考因果關係呢?資料庫研究與統計方法學06.09.061發問方式發問方式兩類探索因果關係的研究問題兩類探索因果關係的研究問題 第一類研究問題:第一類研究問題:X 對對 Y 的影響為何?研究目的的影響為何?研究目的是要知道:是要知道:X 對 Y 有影響嗎?有的話,影響有多大?這是實驗設計所問的研究問題 第二類研究問題:影響第二類研究問題:影響 Y 的因素有哪些?研究目的因素有哪些?研究目的是要知道:的是要知道:所有可能解釋所有可能解釋 Y 的因素有哪些。的因素有哪些。資料庫研究與統計方法學06.09.061如何認定因果關係如何認定因果關係?參考 Morgan,Stephen L.&Christopher Winship(2007).Counterfactuals and Causal Inference:Methods and Principles for Social Research.New York,NY:Cambridge University Press.資料庫研究與統計方法學06.09.061如何認定因果關係如何認定因果關係?X Y (Had X taken a different value,then Y would have taken a different value)The causal relationship between X and Y is confounded if:Z X Y資料庫研究與統計方法學06.09.061如何認定因果關係如何認定因果關係?Z A X Y Z A(unobserved)X Y資料庫研究與統計方法學06.09.061如何認定因果關係如何認定因果關係?X Y C(collider)Z A(unobserved)X Y 資料庫研究與統計方法學06.09.061Statistical Relations vs.Causal Relations Statistical dependence may reflect Random fluctuation(c.i.&p-value)X caused Y Y caused X(temporal order;longitudinal data)X and Y share a common cause(covariate adjustment)Association between X and is induced by conditioning on a common effect of X and Y(selection bias;collider bias)資料庫研究與統計方法學06.09.061如何推估如何推估 the effect of X on Y?當當X與與Y有有common causes時,如能認定時,如能認定X與與Y間的因果路徑,可以因有效的控制一組共間的因果路徑,可以因有效的控制一組共變項變項 Z,且,且 Z 內沒有受內沒有受X影響時,則我們可以影響時,則我們可以清楚的推估清楚的推估 the effect of X on Y。Pearls Back-door Criterion資料庫研究與統計方法學06.09.061如何推估如何推估the effect of D(treatment)on Y?V(unobserved)A F GU(unobserved)B D Y C資料庫研究與統計方法學06.09.061Pearls Back-door Criterion If one or more back-door paths connects the causal variable to the outcome variable,Pearl shows that the causal effect is identified by conditioning on a set of variables Z if and only if all back-door paths between the causal variable and the outcome variable are blocked after conditioning on Z.資料庫研究與統計方法學06.09.061Pearls Back-door Criterion A back-door path of D and Y is blocked by Z if and only if the back-door path satisfies any one of the following:contains a chain of mediation A Z B,or contains a fork of mutual dependence A Z B;contains an inverted fork of mutual causation A C*B,where C*and all its descendants are not in Z.資料庫研究與統計方法學06.09.061如何推估如何推估the effect of D on Y?(控制控制 B&F 即可,即可,Why?)V(unobserved)A F GU(unobserved)B D Y C資料庫研究與統計方法學06.09.061Pearls Back-door Criterion(continued)從 Pearl 的 Back-door Criterion 來看,並不是控制越多變項就好,因為要是控制了 colliders 反而會有問題,因為本來X與沒有相關或因果關係的,控制這類變項後,反而會產生相關。Example 如果collider是申請入學時是否被一所菁英學校接受(adm:1-接受;0-拒絕)是否被接受是根據兩個獨立變項:SAT及面試時對動機的評估(Motivation)因此:adm 是的兩個 causes 是 SAT 及 Motivation,而 SAT 及 Motivation 間是獨立的。資料庫研究與統計方法學06.09.061Example of controlling a collider _ _c co on ns s -3 3.2 28 8e e-0 09 9 .0 06 63 33 35 53 31 1 -0 0.0 00 0 1 1.0 00 00 0 -.1 12 24 47 77 78 88 8 .1 12 24 47 77 78 88 8 S SA AT T .0 02 25 5 .0 06 63 34 48 80 02 2 0 0.3 39 9 0 0.6 69 94 4 -.1 10 00 00 02 29 91 1 .1 15 50 00 02 29 91 1 M Mo ot ti iv va at ti io on n C Co oe ef f.S St td d.E Er rr r.t t P P|t t|9 95 5%C Co on nf f.I In nt te er rv va al l T To ot ta al l 2 24 49 9 2 24 49 9 .9 99 99 99 99 99 99 99 98 8 R Ro oo ot t M MS SE E =1 1.0 00 01 17 7 A Ad dj j R R-s sq qu ua ar re ed d =-0 0.0 00 03 34 4 R Re es si id du ua al l 2 24 48 8.8 84 44 43 37 75 5 2 24 48 8 1 1.0 00 03 34 40 04 47 74 4 R R-s sq qu ua ar re ed d =0 0.0 00 00 06 6 M Mo od de el l .1 15 55 56 62 24 49 95 56 6 1 1 .1 15 55 56 62 24 49 95 56 6 P Pr ro ob b F F =0 0.6 69 94 40 0 F F(1 1,2 24 48 8)=0 0.1 16 6 S So ou ur rc ce e S SS S d df f M MS S N Nu um mb be er r o of f o ob bs s =2 25 50 0.r re eg g M Mo ot ti iv va at ti io on n S SA AT T M Mo ot ti iv va at ti io on n 2 29 9.0 03 33 38 88 8 2 21 1.4 40 07 76 64 4 4 4.5 57 7 0 0.0 00 00 0 6 6.8 84 43 36 62 22 2 1 12 23 3.1 17 75 54 4 S SA AT T 4 41 1.9 97 75 53 31 1 3 34 4.4 44 40 07 7 4 4.5 55 5 0 0.0 00 00 0 8 8.4 40 05 58 89 96 6 2 20 09 9.6 60 06 61 1 a ad dm m O Od dd ds s R Ra at ti io o S St td d.E Er rr r.z z P P|z z|9 95 5%C Co on nf f.I In nt te er rv va al l L Lo og g l li ik ke el li ih ho oo od d =-2 27 7.3 34 45 58 82 29 9 P Ps se eu ud do o R R2 2 =0 0.6 66 63 35 5 P Pr ro ob b c ch hi i2 2 =0 0.0 00 00 00 0 L LR R c ch hi i2 2(2 2)=1 10 07 7.8 85 5L Lo og gi is st ti ic c r re eg gr re es ss si io on n N Nu um mb be er r o of f o ob bs s =2 25 50 0.l lo og gi is st ti ic c a ad dm m S SA AT T M Mo ot ti iv va at ti io on n資料庫研究與統計方法學06.09.061Example of controlling a collider000000000010000000100001000010 0000000000000000000000010000000000000000000001000010000000010000000000000001100000000000000000000100000000000011000000000010000001000000000000000000000010010000010000000010000010000000010000000110000100000000010000000000-4-2024Motivation-2024SAT資料庫研究與統計方法學06.09.061Example of controlling a collider _ _c co on ns s -.1 15 55 59 90 08 85 5 .0 06 61 11 12 25 58 8 -2 2.5 55 5 0 0.0 01 11 1 -.2 27 76 63 30 02 28 8 -.0 03 35 55 51 14 43 3 a ad dm m 1 1.5 55 59 90 08 85 5 .2 21 10 00 07 71 13 3 7 7.4 42 2 0 0.0 00 00 0 1 1.1 14 45 53 32 26 6 1 1.9 97 72 28 84 45 5 S SA AT T -.1 16 68 84 44 41 19 9 .0 06 63 31 14 47 78 8 -2 2.6 67 7 0 0.0 00 08 8 -.2 29 92 28 81 18 87 7 -.0 04 44 40 06 65 5 M Mo ot ti iv va at ti io on n C Co oe ef f.S St td d.E Er rr r.t t P P|t t|9 95 5%C Co on nf f.I In nt te er rv va al l T To ot ta al l 2 24 49 9 2 24 49 9 .9 99 99 99 99 99 99 99 98 8 R Ro oo ot t M MS SE E =.9 90 07 76 62 2 A Ad dj j R R-s sq qu ua ar re ed d =0 0.1 17 76 62 2 R Re es si id du ua al l 2 20 03 3.4 47 70 01 1 2 24 47 7 .8 82 23 37 76 65 55 58 85 5 R R-s sq qu ua ar re ed d =0 0.1 18 82 29 9 M Mo od de el l 4 45 5.5 52 29 99 9 2 2 2 22 2.7 76 64 49 95 5 P Pr ro ob b F F =0 0.0 00 00 00 0 F F(2 2,2 24 47 7)=2 27 7.6 64 4 S So ou ur rc ce e S SS S d df f M MS S N Nu um mb be er r o of f o ob bs s =2 25 50 0.r re eg g M Mo ot ti iv va at ti io on n S SA AT T a ad dm m資料庫研究與統計方法學06.09.061如何推估the effect of D on Y?A F G B D Y C H資料庫研究與統計方法學06.09.061如何有效的控制 confounding variables(Z)呢?如果如果D只有兩個值:只有兩個值:0及及1,我們可以用實驗設計,我們可以用實驗設計的方式,將兩組相同特性的人,隨機分配到控制的方式,將兩組相同特性的人,隨機分配到控制組(組(D0)及實驗組()及實驗組(D1),即可達到前述),即可達到前述的狀態。的狀態。Why?如果無法用實驗設計,而是用調查方法蒐集資料如果無法用實驗設計,而是用調查方法蒐集資料時,如何推估呢?時,如何推估呢?條件性控制(條件性控制(conditioning)或是配對()或是配對(matching):):by holding constant or by balancing/homogenizing the treatment&control groups.資料庫研究與統計方法學06.09.061The Counterfactual FrameworkGroupPotential OutcomesY1Y0Treatment group(D=1)ObservableCounterfactualControl group(D=0)CounterfactualObservable 反事實因果推論的想像反事實因果推論的想像資料庫研究與統計方法學06.09.061The Counterfactual Framework 反事實分析架構的想像可看成是一種反事實分析架構的想像可看成是一種thought experiment。要想像的是同一個個體或群體在不同的狀態下,要想像的是同一個個體或群體在不同的狀態下,會有什麼可能的結果(會有什麼可能的結果(potential outcomes)。)。這些可能結果間的差異,即為不同狀態(因)的這些可能結果間的差異,即為不同狀態(因)的效果。效果。Counterfactuals should be reasonable!資料庫研究與統計方法學06.09.061The Counterfactual FrameworkQ:什麼是unreasonable 的 counterfactuals 呢?有什麼狀態不適合看成為 causes 的嗎?有什麼樣的結果不適合想像counterfactual情況的嗎?資料庫研究與統計方法學06.09.061The Counterfactual Framework 個人層次的真正因果效應:個人層次的真正因果效應:i=Yi1 Yi0 The Fundamental Problem of Causal Inference:無法觀察同一個人同時在實驗組及無法觀察同一個人同時在實驗組及控制組。控制組。加上一些假定,如加上一些假定,如 SUTVA,則可推估群層次,則可推估群層次的因果效應。的因果效應。資料庫研究與統計方法學06.09.061The Counterfactual Framework SUTVA:The Stable Unit Treatment Value Assumption a priori assumption that the value of Y for unit u when exposed to treatment t will be the same no matter what mechanism is used to assign treatment t to unit u and no matter what treatments the other units receive.資料庫研究與統計方法學06.09.061The Counterfactual Framework 實驗設計是假設我們能夠將觀察到的實驗設計是假設我們能夠將觀察到的替代替代無法觀無法觀察到的。察到的。如隨機分派到實驗組與控制組的個體的特性相同如隨機分派到實驗組與控制組的個體的特性相同,則我們可以假定:,則我們可以假定:如果實驗組的個人沒有接受如果實驗組的個人沒有接受treatment的話,其的話,其結果與控制組觀察到的相同;結果與控制組觀察到的相同;如果控制組的個人接受如果控制組的個人接受treatment的話,其結果的話,其結果與實驗組觀察到的相同。與實驗組觀察到的相同。資料庫研究與統計方法學06.09.061The Counterfactual Framework 當使用調查方法得到資料時,即當使用調查方法得到資料時,即observational data,個人為何會接受或不接受,個人為何會接受或不接受treatment,往往不是一個隨機的現象。往往不是一個隨機的現象。Observational data通常有兩個問題:通常有兩個問題:接受接受treatment者與不接受者有者與不接受者有baseline differences,以及,以及heterogeneity of treatment effect.可能有些影響接受可能有些影響接受treatment與否的變項,並未與否的變項,並未觀察到,亦即觀察到,亦即omitted variables的問題。的問題。資料庫研究與統計方法學06.09.061The Counterfactual FrameworkGroupPotential OutcomesY1Y0Treatment group(D=1)Observable EY1|D=1 Counterfactual EY0|D=1 Control group(D=0)Counterfactual EY1|D=0 Observable EY0|D=0 資料庫研究與統計方法學06.09.061The Counterfactual Framework 以反事實架構的觀點來看,母群體層次的真正因果以反事實架構的觀點來看,母群體層次的真正因果效應(效應(ATE;Average Treatment Effect)為:)為:E=EY1 Y0 =EY1 EY0 =EY1|D=1+(1 )EY1|D=0 EY0|D=1+(1 )EY0|D=0 =EY1|D=1 EY0|D=1 +(1 )EY1|D=0 EY0|D=0 =E|D=1+(1 )E|D=0資料庫研究與統計方法學06.09.061The Counterfactual Framework:母群體中接受:母群體中接受 treatment 的比例的比例 不同組的因果效應:不同組的因果效應:ATT(Average Treatment Effect on the Treated):EY1|D=1 EY0|D=1,即,即 E|D=1 ATU(Average Treatment Effect on the Untreated):EY1|D=0 EY0|D=0,即,即 E|D=0Q:我們可以假定不同組的人有同樣的因果效應嗎?:我們可以假定不同組的人有同樣的因果效應嗎?如果我們能夠做此假定的話,則如果我們能夠做此假定的話,則 EY1|D=0=EY1|D=1 資料庫研究與統計方法學06.09.061The Counterfactual Framework 基準線的差異:基準線的差異:EY0|D=1 EY0|D=0Q:我們可以假定不同組的人在未接受:我們可以假定不同組的人在未接受 treatment 前前是一樣的嗎?是一樣的嗎?如果我們能夠做此假定的話,則如果我們能夠做此假定的話,則 EY0|D=1=EY0|D=0資料庫研究與統計方法學06.09.061The Counterfactual Framework 如果我們只以觀察到接受如果我們只以觀察到接受 treatment 的組與觀察到未接的組與觀察到未接受受 treatment 的組之間的差異做為的組之間的差異做為 Causal Effect 的估計的估計時,此估計是一種時,此估計是一種 Nave Estimate:Nave Estimate EY1|D=1 EY0|D=0 =average causal effect =E()+baseline bias +E(Y0|D=1)E(Y0|D=0)+differential effect bias +E(|D=1)E(|D=0)(1)資料庫研究與統計方法學06.09.061The Counterfactual Framework:A Review反事實分析架構的五個關鍵概念反事實分析架構的五個關鍵概念:Potential/Hypothetical States&Outcomes:因果效應(causal effect)是利用“potential”或“hypothetical”的概念,而不是只用到 actual observations。.The ceteris paribus condition其他條件相同的條件下,也就是將其他因素控制成等同(equal)、固定不變(fixed)或是constant。資料庫研究與統計方法學06.09.061The Counterfactual Framework:A Review Heterogeneity:個人對於treatment的反應是因人而異的。亦即因果效應在個人層次即被認定是有差異的。每個人的因果效應是:potential outcome under the potential treatment state potential outcome under the potential control state Fundamental Problem of Causal Inference:由於 the counterfactual definition of causal effect 意涵著評估個人層次的因果效應會有 missing data 的問題。但是如果我們願意做一些假定的話,我們可以評估幾種 Average Causal Effects。資料庫研究與統計方法學06.09.061The Counterfactual Framework:A Review Basic Parameters of Interest:ATT:Average Treatment effect on the Treated ATU:Average Treatment effect on the Untreated ATE:Average Treatment Effect the most basic one is ATT,and there are other meaningful causal parameters of interest than these three.資料庫研究與統計方法學06.09.061反事實分析架構下分析反事實分析架構下分析觀察資料的方法觀察資料的方法 假設控制影響假設控制影響treatment之共變項後,就能達成之共變項後,就能達成ignorability,這也稱為,這也稱為selection on observables)propensity score matching 如果此假定不成立的話:如果此假定不成立的話:instrumental variable Heckman selection model 利用長期追蹤資料的特性,使用如利用長期追蹤資料的特性,使用如 fixed effect model,change score model 不同的分析方法,要做不同的假定不同的分析方法,要做不同的假定資料庫研究與統計方法學06.09.061傾向分數配對法介紹傾向分數配對法介紹 關秉寅關秉寅政治大學社會學系政治大學社會學系2010.01.16Introduction to Propensity Score Matching資料庫研究與統計方法學06.09.061OLS迴歸分析的問題迴歸分析的問題 一般多元一般多元OLS迴歸分析,是一種迴歸分析,是一種ATE的估計,其的估計,其作法假定其控制足夠的共變項後,可以消除基準作法假定其控制足夠的共變項後,可以消除基準線差異,並假定接受線差異,並假定接受 treatment 者的因果效應與者的因果效應與未接受者相同。未接受者相同。這些假定合理嗎?這些假定合理嗎?OLS迴歸分析通常無法克服自我選擇的問題。迴歸分析通常無法克服自我選擇的問題。OLS 迴歸分析可能將接受迴歸分析可能將接受 treatment 及沒接受及沒接受 treatment 兩組中無法比較的人納入分析。如果兩組中無法比較的人納入分析。如果兩組人的特性(基準線)相當不同,則兩組人的特性(基準線)相當不同,則 OLS的推的推估會有大問題,因為其無法比較的部份是以估會有大問題,因為其無法比較的部份是以imputation 的方式來推估。的方式來推估。資料庫研究與統計方法學06.09.061反事實分析架構下分析反事實分析架構下分析觀察資料的方法觀察資料的方法 假設只有假設只有 omitted variables,且是可以用控制觀,且是可以用控制觀察到之變項來控制的話(即控制影響察到之變項來控制的話(即控制影響 treatment之共變項後,就能達成之共變項後,就能達成 ignorability,這也稱為,這也稱為selection on observables)propensity score matching(PSM)是這類)是這類假定下發展出來的分析方法。假定下發展出來的分析方法。資料庫研究與統計方法學06.09.061反事實分析架構下分析反事實分析架構下分析觀察資料的方法觀察資料的方法 selection on observables Z D Y U(unobservable)資料庫研究與統計方法學06.09.061Propensity Score Matching(PSM)假定:如果假定:如果接受及不接受接受及不接受 treatment 兩種人的差異兩種人的差異能夠被一組共變項(能夠被一組共變項(Z)完美解釋,那麼我們就可)完美解釋,那麼我們就可以用這些共變項進行分層配對,使得每層內有兩以用這些共變項進行分層配對,使得每層內有兩種人:接受者及不接受者,且這些人在各層中唯種人:接受者及不接受者,且這些人在各層中唯一的不同是他們是否接受一的不同是他們是否接受 treatment。然後,我們。然後,我們觀察這兩種人在觀察這兩種人在 outcome 的差異為何。我們再進的差異為何。我們再進一步將各分層的差異,以及分層所佔的比例做適一步將各分層的差異,以及分層所佔的比例做適當加權,則可得到好的當加權,則可得到好的ATE,ATT,ATU 的估計的估計。資料庫研究與統計方法學06.09.061Propensity Score Matching(PSM)(Y1,Y0)D|Z 實際上如果有許多共變項時,配對過程很麻煩,實際上如果有許多共變項時,配對過程很麻煩,且在樣本有限的情況下,有些分層會沒有個案。且在樣本有限的情況下,有些分層會沒有個案。Paul Rosenbaum及及Donald Rubin在一系列的論在一系列的論文中,證明用所謂的傾向分數(文中,證明用所謂的傾向分數(propensity score)將是否會接受視為一種機率,然後以此)將是否會接受視為一種機率,然後以此分數來從事分層配對是可行的。分數來從事分層配對是可行的。資料庫研究與統計方法學06.09.061Propensity Score Matching(PSM)如何得到傾向分數
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!