医学统计医学宣教培训ppt课件

上传人:6**** 文档编号:241410154 上传时间:2024-06-24 格式:PPT 页数:183 大小:3.80MB
返回 下载 相关 举报
医学统计医学宣教培训ppt课件_第1页
第1页 / 共183页
医学统计医学宣教培训ppt课件_第2页
第2页 / 共183页
医学统计医学宣教培训ppt课件_第3页
第3页 / 共183页
点击查看更多>>
资源描述
医学医学统计医学宣教医学宣教医学统计医学宣教1数据挖掘分析数据挖掘分析 第二部分第二部分Logistic回归回归 第一部分第一部分2医学统计医学宣教数据挖掘分析 第二部分Logistic回归 第一部分2医学统2Logistic回归第一部分3医学统计医学宣教Logistic回归第一部分3医学统计医学宣教3回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量(y)-线性回归分析线性回归分析分类型因变量分类型因变量(y)-Logistic 回归分析回归分析时间序列因变量时间序列因变量(t)-时间序列分析时间序列分析生存时间因变量生存时间因变量(t)-生存风险回归分析生存风险回归分析4医学统计医学宣教回归分析的分类多个因变量路径分析一个因变量 y连续型因变量 4多重线性回归多重线性回归logisticlogistic回归回归5医学统计医学宣教多重线性回归5医学统计医学宣教5logisticlogistic回归(回归(logistic regressionlogistic regression)是)是研究因变量为二分类或多分类观察结果与研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。量分析方法,属概率型非线性回归。6医学统计医学宣教logistic回归(logistic regression6logisticlogistic回归的分类:回归的分类:(1 1)二分类资料)二分类资料logisticlogistic回归:回归:因变量因变量为两分类变为两分类变量的资料,可用非条件量的资料,可用非条件logisticlogistic回归和条件回归和条件logisticlogistic回归进行分析。非条件回归进行分析。非条件logisticlogistic回归多用回归多用于非配比病例于非配比病例-对照研究或队列研究资料,条件对照研究或队列研究资料,条件logisticlogistic回归多用于配对或配比资料。回归多用于配对或配比资料。(2 2)多分类资料)多分类资料logisticlogistic回归:回归:因变量因变量为多项分类为多项分类的资料,可用多项分类的资料,可用多项分类logisticlogistic回归模型或有序分回归模型或有序分类类logisticlogistic回归模型进行分析。回归模型进行分析。7医学统计医学宣教logistic回归的分类:7医学统计医学宣教7队列研究队列研究(cohort study)(cohort study):也称前瞻性研究、随访研究等。是一种由因及也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。知道每个研究对象的暴露情况。研究人群研究人群+-+-调查方向:追踪收集资料调查方向:追踪收集资料比较比较疾病疾病人数人数暴露暴露abcda/(a+b)c/(c+d)队列研究原理示意图队列研究原理示意图8医学统计医学宣教队列研究(cohort study):也称前瞻性研究、随访研8RRRR(相对危险度(相对危险度relative riskrelative risk):表示暴露组与非暴露):表示暴露组与非暴露组发病率组发病率(或死亡率或死亡率)的比值。也称为危险比(的比值。也称为危险比(risk risk ratioratio)。反映了暴露与疾病发生的关联强度。)。反映了暴露与疾病发生的关联强度。RRRR表明暴露组发病或死亡的危险是非暴露组的多少倍。表明暴露组发病或死亡的危险是非暴露组的多少倍。9医学统计医学宣教RR(相对危险度relative risk):表示暴露组与非9病例对照研究病例对照研究(case-control studies)(case-control studies):一种由果及因的回一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例顾性研究,先按疾病状态确定调查对象,分为病例(case)(case)和对和对照照(control)(control)两组,然后利用已有的记录、或采用询问、填写调两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。病与暴露间的关系。+-病例病例+-对照对照调查方向:收集回顾性资料调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较比较人数人数暴露暴露疾病疾病病例对照原理示意图病例对照原理示意图10医学统计医学宣教病例对照研究(case-control studies):一1011医学统计医学宣教11医学统计医学宣教11病例对照研究的类型病例对照研究的类型(一)病例与对照不匹配(一)病例与对照不匹配-非条件非条件logisticlogistic回归回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配(二)病例与对照匹配-条件条件logisticlogistic回归回归匹配或称配比(匹配或称配比(matchingmatching),即要求对照在某些因素或特),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。干扰。匹配分为成组匹配和个体匹配。12医学统计医学宣教病例对照研究的类型(一)病例与对照不匹配-非条件logi12非条件非条件logisticlogistic回归回归应变量为二分类资料应变量为二分类资料一个二分类自变量一个二分类自变量两个(多个)二分类自变量两个(多个)二分类自变量无序多分类自变量无序多分类自变量有序多分类自变量有序多分类自变量引入数值型自变量引入数值型自变量应变量为有序多分类资料应变量为有序多分类资料应变量为无序多分类资料应变量为无序多分类资料13医学统计医学宣教非条件logistic回归应变量为二分类资料13医学统计医学13二分类资料的二分类资料的logisticlogistic回归回归二分类二分类 logistic logistic 回归对自变量没有特殊回归对自变量没有特殊要求要求,自变量可以是分类变量自变量可以是分类变量(包括二分类包括二分类和多分类变量和多分类变量)和数值变量。和数值变量。二分类资料的二分类资料的logisticlogistic回归通过回归通过SPSSSPSS统计统计软件的软件的二元二元LogisticLogistic过程实现统计分析。过程实现统计分析。14医学统计医学宣教二分类资料的logistic回归二分类 logistic 回14【例例1 1】某某医师为研究妇女服避孕药与子代染医师为研究妇女服避孕药与子代染色体异常的关系,分别调查了子代染色体异色体异常的关系,分别调查了子代染色体异常和正常的同龄组儿童的母亲常和正常的同龄组儿童的母亲5454名和名和196196名,名,结果如表结果如表。试对此资料进行分析,能否提出试对此资料进行分析,能否提出子代染色体异常与其母在孕前子代染色体异常与其母在孕前6 6个月内服用避个月内服用避孕药有关?孕药有关?15医学统计医学宣教【例1】某医师为研究妇女服避孕药与子代染色体异常的关系,分别15SPSS软件操作软件操作第第1 1步:定义变量步:定义变量16医学统计医学宣教SPSS软件操作第1步:定义变量16医学统计医学宣教16第第2 2步:步:输入原输入原始数据始数据17医学统计医学宣教第2步:输入原始数据17医学统计医学宣教17第第3 3步:加权设置步:加权设置选择选择数据数据加权个案(加权个案(W W)将将f f移入移入频率变量频率变量18医学统计医学宣教第3步:加权设置选择数据加权个案(W)18医学统计医学宣教18第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归二元二元logisticlogistic19医学统计医学宣教第4步:logistic回归分析(1)选择分析19医学统计19第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将a a和和b b分别移入分别移入协变量协变量和和因变量因变量20医学统计医学宣教第4步:logistic回归分析(2)将a和b分别移入协变20自变量全部进入模型自变量全部进入模型向前逐步选择法向前逐步选择法向后逐步剔除法向后逐步剔除法条件:将变量剔除出模型的依条件:将变量剔除出模型的依据是条件参数估计的似然比统据是条件参数估计的似然比统计量的概率值。计量的概率值。LRLR:将变量剔除出模型的依据:将变量剔除出模型的依据是最大偏似然估计的似然比统是最大偏似然估计的似然比统计量的概率值。计量的概率值。WaldWald:将变量剔除出模型的依:将变量剔除出模型的依据是据是WaldWald统计量的概率值。统计量的概率值。21医学统计医学宣教自变量全部进入模型21医学统计医学宣教21第第4 4步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项勾上勾上expexp(B B)的)的95CI95CI。22医学统计医学宣教第4步:logistic回归分析(3)设置选项22医学统计22第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:OR=3.200OR=3.200,p=0.000p=0.000OROR的的95%CI95%CI为(为(1.7125.9831.7125.983)ExpExp(B B)=e=eB B23医学统计医学宣教第4步:logistic回归分析(4)结果解读:OR=3.23值得注意的是病例值得注意的是病例-对照研究中对照研究中,病例与对病例与对照两组人数的比例是人为规定的照两组人数的比例是人为规定的,不代表不代表自然人群中真实的病人与正常人的比值。自然人群中真实的病人与正常人的比值。因此因此,根据病例一对照研究资料建立的根据病例一对照研究资料建立的 Logistic Logistic 回归方程中回归方程中,常数项意义不大常数项意义不大,主要针对结果中自变量的回归系数及其相主要针对结果中自变量的回归系数及其相应的比数比应的比数比OR OR 值的意义作解释值的意义作解释,不宜直接不宜直接用于所研究事件发生概率的预测和判别用于所研究事件发生概率的预测和判别。24医学统计医学宣教值得注意的是病例-对照研究中,病例与对照两组人数的比例是人为24两个二分类自变量两个二分类自变量的的logisticlogistic回归回归两个自变量均为两水平的二分类资料的两个自变量均为两水平的二分类资料的 Logistic Logistic 回归分析与一个自变量为两水平回归分析与一个自变量为两水平的二分类资料的的二分类资料的 Logistic Logistic 回归分析在步回归分析在步骤方法上是相同的骤方法上是相同的,只是增加了一个自变只是增加了一个自变量量,在建立在建立 LogisticLogistic回归方程时需要对两回归方程时需要对两个自变量对应的参数进行估计个自变量对应的参数进行估计,计算两个计算两个比数比。比数比。另外另外,两个自变量均有意义时两个自变量均有意义时,看哪个影看哪个影响作用更大些响作用更大些,与多重线性回归一样与多重线性回归一样,也也是比较标准偏回归系数绝对值的大小。是比较标准偏回归系数绝对值的大小。25医学统计医学宣教两个二分类自变量的logistic回归两个自变量均为两水平的25无序多分类自变量的无序多分类自变量的Logistic Logistic 回归回归自变量是一个或多个为无序多分类变量时自变量是一个或多个为无序多分类变量时,其其 Logistic Logistic 回归在方法上同上述二分类资料的回归在方法上同上述二分类资料的 LogisticLogistic回归回归,只要对只要对自变量的不同水平构造哑自变量的不同水平构造哑变量变量即可。某一多分类无序自变量可构造的哑变即可。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减量数等于该自变量的分类数减 1 1。将哑变量引入。将哑变量引入模型模型,其结果无论有无统计学意义其结果无论有无统计学意义,都是相对事都是相对事先确定某一类为基准对照而言的。先确定某一类为基准对照而言的。SPSSSPSS对字符型多分类无序自变量对字符型多分类无序自变量,系统默认以最系统默认以最后的那个分类为对照。后的那个分类为对照。26医学统计医学宣教无序多分类自变量的Logistic 回归自变量是一个或多个为26有序多分类自变量的有序多分类自变量的Logistic Logistic 回归回归Logistic Logistic 回归中自变量为有序多分类变量回归中自变量为有序多分类变量,即等级变量即等级变量,如文化程度可分为文盲、小学、如文化程度可分为文盲、小学、中学、大学及以上等。中学、大学及以上等。这种资料的这种资料的 Logistic Logistic 回归分两种情况处理回归分两种情况处理:如果自变量的等级分组与如果自变量的等级分组与 logit(P)logit(P)呈线呈线性关系性关系,即等级效应等比例增加或减少即等级效应等比例增加或减少,则则该自变量可以该自变量可以作为一个数值型自变量引人模作为一个数值型自变量引人模型型;否则否则,将等级变量视为无序多分类自变将等级变量视为无序多分类自变量量,以哑变量的形式以哑变量的形式引入模型进行分析。引入模型进行分析。27医学统计医学宣教有序多分类自变量的Logistic 回归Logistic 回27引入数值型自变量的引入数值型自变量的LogisticLogistic回归回归数值变量直接引入模型数值变量直接引入模型,得到相应的比数比得到相应的比数比 OR OR 是是指自变量增加一个单位指自变量增加一个单位(如年龄增加如年龄增加 1 1 岁岁)比数自比数自然对数值的变化量。然对数值的变化量。若将数值自变量分成几组若将数值自变量分成几组,如自变量年龄按如自变量年龄按 10 10 岁岁间隔分组引人模型时间隔分组引人模型时,其其OR OR 值是指年龄每增加值是指年龄每增加 10 10 岁比数自然对数值的变化量。岁比数自然对数值的变化量。28医学统计医学宣教引入数值型自变量的Logistic回归数值变量直接引入模型,28数值型变量转换成分类变量的临界点选择,数值型变量转换成分类变量的临界点选择,最佳的方法是采用最佳的方法是采用ROCROC分析。分析。29医学统计医学宣教数值型变量转换成分类变量的临界点选择,最佳的方法是采用ROC29【例例2 2】为了探索有关危险因素和保护因素,对为了探索有关危险因素和保护因素,对3232例胃癌病人和例胃癌病人和3232例对照者进行病例对照研究,例对照者进行病例对照研究,考察的危险因素作为自变量,分别为:考察的危险因素作为自变量,分别为:x1x1(年龄)(年龄)x2x2(蛋白质摄入量由低到高:(蛋白质摄入量由低到高:0 0,1 1,2 2,3 3,4 4)x3x3(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足为为0 0,1 1,2 2,3 3),),x4x4(吃盐量高食物由轻到重为:(吃盐量高食物由轻到重为:0 0,1 1,2 2,3 3,4 4),),x5x5(饮食习惯,从良好,一般,不良,严重不良为:(饮食习惯,从良好,一般,不良,严重不良为:0 0,1 1,2 2,3 3),),x6x6(精神心理因素,从乐观,较乐观,一般,不良为(精神心理因素,从乐观,较乐观,一般,不良为0 0,1 1,2 2,3 3)。Y Y(是否患胃癌作为因变量。(是否患胃癌作为因变量。0 0未患,未患,1 1患者)患者)30医学统计医学宣教【例2】为了探索有关危险因素和保护因素,对32例胃癌病人和330。31医学统计医学宣教。31医学统计医学宣教31SPSS软件操作软件操作第第1 1步:定义变量步:定义变量32医学统计医学宣教SPSS软件操作第1步:定义变量32医学统计医学宣教32第第2 2步:输入步:输入原始数据原始数据33医学统计医学宣教第2步:输入原始数据33医学统计医学宣教33第第3 3步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归 二元二元logisticlogistic34医学统计医学宣教第3步:logistic回归分析(1)选择分析34医学统计34第第3 3步:步:logisticlogistic回归分析(回归分析(2 2)将将x1-6x1-6和和y y分别移入分别移入协变量协变量和和因变量因变量35医学统计医学宣教第3步:logistic回归分析(2)将x1-6和y分别移35第第3 3步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项勾上勾上expexp(B B)的)的95CI95CI。36医学统计医学宣教第3步:logistic回归分析(3)设置选项36医学统计36第第3 3步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:给出各因素的给出各因素的OROR(95%CI95%CI)及相)及相应的应的p p值。值。37医学统计医学宣教第3步:logistic回归分析(4)结果解读:给出各因素37第第3 3步:步:logisticlogistic回归分析(回归分析(5 5)38医学统计医学宣教第3步:logistic回归分析(5)38医学统计医学宣教38第第3 3步:步:logisticlogistic回归分析(回归分析(6 6)39医学统计医学宣教第3步:logistic回归分析(6)39医学统计医学宣教39第第3 3步:步:logisticlogistic回归分析(回归分析(7 7)结果解读:结果解读:给出入选各因素的给出入选各因素的OROR(95%CI95%CI)及相应的及相应的p p值。值。40医学统计医学宣教第3步:logistic回归分析(7)结果解读:给出入选各40【例例3 3】为了探讨冠心病发生的有关危险因素,为了探讨冠心病发生的有关危险因素,对对2626例冠心病病人和例冠心病病人和2828例对照者进行病例例对照者进行病例-对照对照研究,各因素的说明及资料研究,各因素的说明及资料如下如下,试用,试用logisticlogistic回归分析方法筛选危险因素回归分析方法筛选危险因素 。41医学统计医学宣教【例3】为了探讨冠心病发生的有关危险因素,对26例冠心病病人41。42医学统计医学宣教。42医学统计医学宣教42SPSS软件操作软件操作第第1 1步:定义变量步:定义变量43医学统计医学宣教SPSS软件操作第1步:定义变量43医学统计医学宣教43第第2 2步:输入原始数据步:输入原始数据44医学统计医学宣教第2步:输入原始数据44医学统计医学宣教44第第3 3步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归 二元二元logisticlogistic45医学统计医学宣教第3步:logistic回归分析(1)选择分析45医学统计45第第3 3步:步:logisticlogistic回归分析(回归分析(2 2)将将x1-8x1-8和和y y分别移入分别移入协变量协变量和和因变量因变量46医学统计医学宣教第3步:logistic回归分析(2)将x1-8和y分别移46第第3 3步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项勾上勾上expexp(B B)的)的95CI95CI。47医学统计医学宣教第3步:logistic回归分析(3)设置选项47医学统计47第第3 3步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:给出入选各因素的给出入选各因素的OROR(95%CI95%CI)及相应的及相应的p p值。值。48医学统计医学宣教第3步:logistic回归分析(4)结果解读:给出入选各48多分类资料的logistic回归应变量为有序多分类资料的应变量为有序多分类资料的logisticlogistic回归回归应变量的水平数大于应变量的水平数大于2 2,且水平之间存在等,且水平之间存在等级递增或递减关系的资料为有序多分类资级递增或递减关系的资料为有序多分类资料。料。SPSSSPSS中通过有序中通过有序logisticlogistic过程实现。过程实现。49医学统计医学宣教多分类资料的logistic回归应变量为有序多分类资料的lo49【例例4 4】研究性别和两种治疗方法对某病疗效的研究性别和两种治疗方法对某病疗效的影响,疗效的评价分为三个有序等级,数据如影响,疗效的评价分为三个有序等级,数据如下,试做下,试做logisticlogistic回归分析:回归分析:50医学统计医学宣教【例4】研究性别和两种治疗方法对某病疗效的影响,疗效的评价分50SPSS软件操作软件操作第第1 1步:定义变量步:定义变量51医学统计医学宣教SPSS软件操作第1步:定义变量51医学统计医学宣教51第第2 2步:步:输入原输入原始数据始数据52医学统计医学宣教第2步:输入原始数据52医学统计医学宣教52第第3 3步:加权设置步:加权设置选择选择数据数据加权个案(加权个案(W W)将将f f移入移入频率变量频率变量53医学统计医学宣教第3步:加权设置选择数据加权个案(W)53医学统计医学宣教53第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归有序有序54医学统计医学宣教第4步:logistic回归分析(1)选择分析54医学统计54第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将A A和和B B移入移入协变量,协变量,C C移入移入因变量因变量55医学统计医学宣教第4步:logistic回归分析(2)将A和B移入协变量,55第第4 4步:步:logisticlogistic回归分析(回归分析(3 3)设置设置输出输出勾上勾上平行线检验。平行线检验。56医学统计医学宣教第4步:logistic回归分析(3)设置输出56医学统计56第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:性别(性别(A A)和疗法()和疗法(B B)的)的回归系数大于回归系数大于0 0,具有统计学意义。,具有统计学意义。OROR分别为分别为e e1.3191.319=3.740=3.740,e e1.7971.797=6.302=6.30257医学统计医学宣教第4步:logistic回归分析(4)结果解读:性别(A)57第第4 4步:步:logisticlogistic回归分析(回归分析(5 5)结果解读:结果解读:平行线检验平行线检验p=0.480p=0.480,说明应,说明应变量各水平与自变量间的回归方程平行。变量各水平与自变量间的回归方程平行。58医学统计医学宣教第4步:logistic回归分析(5)结果解读:平行线检验58应变量为无序多分类资料的应变量为无序多分类资料的logisticlogistic回归回归应变量的水平数大于应变量的水平数大于2 2,且水平之间不存在,且水平之间不存在等级递增或递减关系的资料为无序多分类等级递增或递减关系的资料为无序多分类资料。资料。SPSSSPSS中通过多项中通过多项logisticlogistic过程实现。过程实现。59医学统计医学宣教应变量为无序多分类资料的logistic回归59医学统计医学59【例例5 5】为了研究胃癌及胃癌前病变核仁组织变化情况,分析为了研究胃癌及胃癌前病变核仁组织变化情况,分析核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义,增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义,共检测共检测129129名患者,结果如下,试做名患者,结果如下,试做logisticlogistic回归分析:回归分析:60医学统计医学宣教【例5】为了研究胃癌及胃癌前病变核仁组织变化情况,分析核仁组60SPSS软件操作软件操作第第1 1步:定义变量步:定义变量61医学统计医学宣教SPSS软件操作第1步:定义变量61医学统计医学宣教61第第2 2步:输入步:输入原始数据原始数据62医学统计医学宣教第2步:输入原始数据62医学统计医学宣教62第第3 3步:加权设置步:加权设置选择选择数据数据加权个案(加权个案(W W)将将f f移入移入频率变量频率变量63医学统计医学宣教第3步:加权设置选择数据加权个案(W)63医学统计医学宣教63第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归多项多项logisticlogistic64医学统计医学宣教第4步:logistic回归分析(1)选择分析64医学统计64第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将a a、b b移入移入协变量,协变量,Y Y移入移入因变量因变量65医学统计医学宣教第4步:logistic回归分析(2)将a、b移入协变量,65第第4 4步:步:logisticlogistic回回归分析归分析(3 3)设置设置选项选项勾上勾上expexp(B B)的)的95CI95CI。66医学统计医学宣教第4步:logistic回归分析(3)设置选项66医学统计66第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:相对于胃炎的相对于胃炎的OROR值以及值以及OROR的的95%CI.95%CI.67医学统计医学宣教第4步:logistic回归分析(4)结果解读:相对于胃炎67数据挖掘分析第二部分68医学统计医学宣教数据挖掘分析第二部分68医学统计医学宣教68数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤Clementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析69医学统计医学宣教数据挖掘研究设计69医学统计医学宣教69研究时有无设计干预因素?研究时有无设计干预因素?实验性研究实验性研究观察性研究观察性研究是否随机是否随机有无对照组有无对照组分析性研究分析性研究描述性研究描述性研究时间方向时间方向队列队列研究研究非随机非随机对照对照试验试验随机随机对照对照试验试验病例病例对照对照研究研究横断面横断面研究研究有有无无有有无无否否是是暴露暴露结局结局结局结局暴露暴露70医学统计医学宣教研究时有无设计干预因素?实验性研究观察性研究是否随机有无对照70观察性研究观察性研究 由于医学研究对象的特殊性,在很由于医学研究对象的特殊性,在很多科研中,研究者不能主动地控制研究因素。多科研中,研究者不能主动地控制研究因素。这种在自然状态下,观察疾病发生、发展、这种在自然状态下,观察疾病发生、发展、诊治过程中表现出来的特点和规律,以阐述诊治过程中表现出来的特点和规律,以阐述疾病的分布特征,认识病因和影响因素,分疾病的分布特征,认识病因和影响因素,分析防治过程中相关规律和特征的研究方法,析防治过程中相关规律和特征的研究方法,称为观察性研究。称为观察性研究。71医学统计医学宣教观察性研究 由于医学研究对象的特殊性,在很多科71数据挖掘研究数据挖掘研究u 基于数据分析方法角度的分类基于数据分析方法角度的分类u本质上属于观察性研究本质上属于观察性研究u研究资料来源日常诊疗工作资料研究资料来源日常诊疗工作资料u应用的技术较传统研究更先进应用的技术较传统研究更先进u分析工具、理论模型与传统研究区别较大分析工具、理论模型与传统研究区别较大72医学统计医学宣教数据挖掘研究 基于数据分析方法角度的分类72医学统计医学宣教72数据挖掘从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘从数据中自动地抽取模式、关联、变化、异常和有意义的结构。数据挖掘利用已有的数据,数据收集过程不经过特意的科研设计,目的是发现规律,而不是验证假设。73医学统计医学宣教数据挖掘从大量数据中寻找其规律的技术,是统计学、数据库技73数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤Clementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析74医学统计医学宣教数据挖掘研究设计74医学统计医学宣教74第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析2024/6/24数据挖掘步骤目标数据目标数据预处预处理及变理及变换换变换后的数据变换后的数据数据挖掘数据挖掘算法算法解释解释/评估评估清理筛选清理筛选数据挖掘研究的基本步骤数据挖掘研究的基本步骤75医学统计医学宣教第一步骤第三步骤第二步骤第四步骤2023/8/10数据挖掘步75第一步:选择数据第一步:选择数据收集获取原始数据收集获取原始数据 就是根据研究目的,进行需要被挖掘分就是根据研究目的,进行需要被挖掘分析的原始数据采集。析的原始数据采集。评估数据的可获得性。可以采用较小规模评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初步研究。的数据对问题的可行性进行初步研究。原始数据可能会分布于不同的信息系统中,原始数据可能会分布于不同的信息系统中,需要对信息系统充分理解,并有相应的技需要对信息系统充分理解,并有相应的技术实现数据的导出。术实现数据的导出。原始数据的采集非常费时费力,通常在研原始数据的采集非常费时费力,通常在研究工作中占相当大的比重。究工作中占相当大的比重。76医学统计医学宣教第一步:选择数据收集获取原始数据76医学统计医学宣教76病人基本信息:HIS病人检验信息:LIS病人检查信息:PACS等医技系统病人诊疗过程信息:电子病历病人收费信息:HIS。77医学统计医学宣教病人基本信息:HIS77医学统计医学宣教77海量数据,大量的业务数据。海量数据,大量的业务数据。问题也很多,标准不统一,很难分析。问题也很多,标准不统一,很难分析。与临床相关的电子病历系统结构化与临床工与临床相关的电子病历系统结构化与临床工作量之间的矛盾。作量之间的矛盾。中医系统中医系统医疗科研信息一体化系统医疗科研信息一体化系统军队系统军队系统中国重大疾病临床诊疗数据库中国重大疾病临床诊疗数据库78医学统计医学宣教海量数据,大量的业务数据。78医学统计医学宣教78第二步:处理数据第二步:处理数据数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄 六十岁60 有个还分组:老年、青年、等格式处理:年龄 出生日期1950年转成63。79医学统计医学宣教第二步:处理数据数据预处理部分,把数据转换成比较容易被数据挖79为什么需要预处理为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。污染数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。80医学统计医学宣教为什么需要预处理数据污染数据的普遍存在,使得在大型数据库中维80污染数据形成的原因污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码81医学统计医学宣教污染数据形成的原因滥用缩写词81医学统计医学宣教81例:中药、证型、症状的预处理例:中药、证型、症状的预处理预处理是最为关键的一步正异名的处理:白头翁、白术、白头公错别字:青篙、青蒿省略字:龙牡、龙骨,牡蛎炮制预处理82医学统计医学宣教例:中药、证型、症状的预处理预处理是最为关键的一步82医学统82建立一个中药规范表建立一个中药规范表编号编号编号编号规范后名称规范后名称规范后名称规范后名称原始中药名称原始中药名称原始中药名称原始中药名称101400101400白茅根白茅根白茅根白茅根药典药典药典药典白茅根白茅根白茅根白茅根药典药典药典药典茅根茅根茅根茅根别册别册别册别册生白茅根生白茅根生白茅根生白茅根切切切切101600101600白术白术白术白术药典药典药典药典白术白术白术白术药典药典药典药典土白术土白术土白术土白术别册别册别册别册冬术冬术冬术冬术别册别册别册别册土炒白术土炒白术土炒白术土炒白术切切切切炒白术炒白术炒白术炒白术切切切切土白术土白术土白术土白术切切切切漂白术漂白术漂白术漂白术切切切切晒白术晒白术晒白术晒白术切切切切101601101601白术白术白术白术(焦)(焦)(焦)(焦)焦白术焦白术焦白术焦白术焦冬术焦冬术焦冬术焦冬术101602101602白术白术白术白术(生)(生)(生)(生)生白术生白术生白术生白术101603101603白术白术白术白术(炭)(炭)(炭)(炭)白术炭白术炭白术炭白术炭101604101604白术白术白术白术(煨)(煨)(煨)(煨)煨白术煨白术煨白术煨白术101605101605白术白术白术白术(制)(制)(制)(制)制白术制白术制白术制白术83医学统计医学宣教建立一个中药规范表编号规范后名称原始中药名称101400白茅83建立证型规范表建立证型规范表编号编号编号编号规范后规范后规范后规范后证型词证型词证型词证型词频次频次频次频次证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)300905300905血瘀血瘀血瘀血瘀591591血瘀血瘀血瘀血瘀349349瘀血瘀血瘀血瘀血8585血淤血淤血淤血淤1919血滞血滞血滞血滞3030血行不畅血行不畅血行不畅血行不畅1515血凝血凝血凝血凝1212气血瘀滞气血瘀滞气血瘀滞气血瘀滞1010气血运行气血运行气血运行气血运行不畅不畅不畅不畅1010血行瘀滞血行瘀滞血行瘀滞血行瘀滞6 6气血郁滞气血郁滞气血郁滞气血郁滞5 5气血阻滞气血阻滞气血阻滞气血阻滞5 5气血壅滞气血壅滞气血壅滞气血壅滞5 5血涩血涩血涩血涩4 4血结血结血结血结4 4气血涩滞气血涩滞气血涩滞气血涩滞3 3炼血成瘀炼血成瘀炼血成瘀炼血成瘀3 3气血凝滞气血凝滞气血凝滞气血凝滞3 3血阻血阻血阻血阻3 3干血干血干血干血2 2气血不畅气血不畅气血不畅气血不畅 2 2气血瘀阻气血瘀阻气血瘀阻气血瘀阻2 2血行不通血行不通血行不通血行不通2 2血结成瘀血结成瘀血结成瘀血结成瘀化热化热化热化热1 1血行瘀阻血行瘀阻血行瘀阻血行瘀阻1 1血行受阻血行受阻血行受阻血行受阻1 1痰血互结痰血互结痰血互结痰血互结1 1气血奎滞气血奎滞气血奎滞气血奎滞1 1血滞不畅血滞不畅血滞不畅血滞不畅1 1血分有寒夹血分有寒夹血分有寒夹血分有寒夹瘀瘀瘀瘀1 1寒凝血泣着寒凝血泣着寒凝血泣着寒凝血泣着而成瘀而成瘀而成瘀而成瘀1 1气碍血行气碍血行气碍血行气碍血行1 1血不得行血不得行血不得行血不得行1 1血运不畅血运不畅血运不畅血运不畅1 1血有郁热血有郁热血有郁热血有郁热1 184医学统计医学宣教建立证型规范表编号规范后证型词频次证型词原文(后缀数字为医案84建立症状规范表建立症状规范表编号编号编号编号规范后规范后规范后规范后症状症状症状症状频次频次频次频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次201105201105体瘦体瘦体瘦体瘦289289体瘦体瘦体瘦体瘦9393消瘦消瘦消瘦消瘦4242形体消形体消形体消形体消瘦瘦瘦瘦3434形瘦形瘦形瘦形瘦3333形体瘦形体瘦形体瘦形体瘦弱弱弱弱2828形体削瘦形体削瘦形体削瘦形体削瘦5 5形体较形体较形体较形体较瘦瘦瘦瘦5 5面黄肌面黄肌面黄肌面黄肌瘦瘦瘦瘦4 4体质瘦体质瘦体质瘦体质瘦弱弱弱弱3 3赢瘦赢瘦赢瘦赢瘦3 3形体瘦小形体瘦小形体瘦小形体瘦小3 3身体瘦身体瘦身体瘦身体瘦弱弱弱弱3 3瘦弱瘦弱瘦弱瘦弱3 3体质消体质消体质消体质消瘦瘦瘦瘦2 2身体嬴身体嬴身体嬴身体嬴瘦瘦瘦瘦2 2形体不丰形体不丰形体不丰形体不丰2 2形体偏形体偏形体偏形体偏瘦瘦瘦瘦2 2身体较身体较身体较身体较瘦瘦瘦瘦2 2形体瘦形体瘦形体瘦形体瘦削削削削2 2嬴瘦嬴瘦嬴瘦嬴瘦2 2形嬴形嬴形嬴形嬴1 1形体枯形体枯形体枯形体枯瘦瘦瘦瘦1 1形体消形体消形体消形体消索索索索1 1形体渐形体渐形体渐形体渐瘦瘦瘦瘦1 1形体日形体日形体日形体日嬴嬴嬴嬴1 1身瘦身瘦身瘦身瘦1 1肌肉消肌肉消肌肉消肌肉消削削削削1 185医学统计医学宣教建立症状规范表编号规范后症状频次医案中原文症状用词及使用频次85第三步:挖掘分析第三步:挖掘分析 运用工具和算法,进行数据挖掘运用工具和算法,进行数据挖掘分析,完成分类、关联、聚类、估计、预分析,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。测等功能,发现数据中的规律。86医学统计医学宣教第三步:挖掘分析 运用工具和算法,进行数据86数据挖掘主要方法数据挖掘主要方法Debt$40KQ QQ QQ QQ QII123456factor 1factor 1factor 2factor 2factor nfactor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?TimeTime序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析关联分析关联分析 AssociationAssociation87医学统计医学宣教数据挖掘主要方法Debt10%of IncomeDebt87数据挖掘软件应用数据挖掘软件应用88医学统计医学宣教数据挖掘软件应用88医学统计医学宣教88SPSS ClementineSPSS Clementine89医学统计医学宣教SPSS Clementine89医学统计医学宣教89WEKA90医学统计医学宣教WEKA90医学统计医学宣教90第四步:结果解释第四步:结果解释结合专业知识,进行数据挖掘分析结果的解释,阐明规律,以及规律的临床价值。结果解释是数据挖掘研究的关键,从发现的规律进一步延伸出其实际意义,是整个研究工作的成果所在。91医学统计医学宣教第四步:结果解释结合专业知识,进行数据挖掘分析结果的解释,阐91数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤Clementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析92医学统计医学宣教数据挖掘研究设计92医学统计医学宣教92Clementine Clementine 软件应用软件应用93医学统计医学宣教Clementine 软件应用93医学统计医学宣教93Clementine 12.0安装方法安装方法1.下载,存放到下载,存放到D盘,重新命名为盘,重新命名为“Clementine V 12”2.打开打开 ClementineV12-点击运行点击运行setup.exe按提示完按提示完成安装到默认目录:成安装到默认目录:C:Program FilesSPSSIncClementine12.0 3.D:CLE12.0Clementine12Crack破解破解 复制该文件下复制该文件下 “lservrc”“PlatformSPSSLic7.dll”两个文件,粘贴到两个文件,粘贴到C:Program FilesSPSSIncClementine12.0bin 文件夹文件夹下,覆盖原来的同名字文件下,覆盖原来的同名字文件94医学统计医学宣教Clementine 12.0安装方法1.下载,存放到D盘,9495医学统计医学宣教95医学统计医学宣教95数据挖掘研究设计数据挖掘研究设计基本概念基本概念基本步骤基本步骤Clementine Clementine 软件应用软件应用基本操作基本操作关联规则关联规则决策树决策树聚类分析聚类分析96医学统计医学宣教数据挖掘研究设计96医学统计医学宣教9697ClementineClementine用户界面用户界面操作区操作区医学统计医学宣教97Clementine用户界面操作区医学统计医学宣教97u节点一个图标代表在 Clementine 中进行的一个操作。u工作流一系列连接在一起的节点。可视化编程可视化编程98医学统计医学宣教节点一个图标代表在 Clementine 中进行的一个操98选项板选项板源节点源节点用来将数据读入用来将数据读入 Clementine 中中记录选项节点记录选项节点在记录上进行操作在记录上进行操作一条记录是一种一条记录是一种“情形情形”或一或一“行行”数据数据字段选项节点字段选项节点在字段上进行操作在字段上进行操作一个字段是一个变量一个字段是一个变量图形节点图形节点在建模之前和之后用来可视化数据在建模之前和之后用来可视化数据建模节点代表有效建模算法建模节点代表有效建模算法注意:建模算法产生生成的模型注意:建模算法产生生成的模型99医学统计医学宣教选项板源节点99医学统计医学宣教99增加一个节点在选项板上双击节点,自动放置节点到数据流区域.将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下100医学统计医学宣教增加一个节点在选项板上双击节点,自动放置节点到数据流区域.1100编辑一个节点编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作101医学统计医学宣教编辑一个节点在节点上右击,展开一个节点101医学统计医学宣教101连接节点使用鼠标中键来连接节点使用鼠标中键来连接节点在数据流区域上,把一个在数据流区域上,把一个节点连接到另一个上,可节点连接到另一个上,可以通过鼠标中间键点击和以通过鼠标中间键点击和拖放来完成(如果拖放来完成(如果您您的鼠的鼠标没有中间键,可以通过标没有中间键,可以通过按住按住“Alt”“Alt”键来模拟这个键来模拟这个过程)过程)通过双击来连接节点通过双击来连接节点双击选项板上的节点,自动双击选项板上的节点,自动把新节点连接到数据流区域把新节点连接到数据流区域中的中的“中心中心”节点上节点上使用鼠标中键使用鼠标中键102医学统计医学宣教连接节点使用鼠标中键来连接节点通过双击来连接节点使用鼠标中键102删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”103医学统计医学宣教删除节点之间的连接在连接箭头的头部按住鼠标右键103医学统计103Clementine Clementine 中读取数据格式中读取数据格式文本文件EXCELSPSS 数据文件ODBC 兼容的数据库SAS 数据文件用户输入文件104医学统计医学宣教Clementine 中读取数据格式文本文件104医学统计医104读取原始文件添加变量文件节点到数据流区域编辑节点指向文件通过编辑进行原始数据设置105医学统计医学宣教读取原始文件添加变量文件节点到数据流区域105医学统计医学宣105读取文本文件106医学统计医学宣教读取文本文件106医学统计医学宣教106读取读取EXCELEXCEL文件文件107医学统计医学宣教读取EXCEL文件107医学统计医学宣教107读取其他数据文件原始数据是什么文件类型,则采用什么节点原始数据是什么文件类型,则采用什么节点108医学统计医学宣教读取其他数据文件原始数据是什么文件类型,则采用什么节点108108定义字段类型类型节点指定字段的一系列重要属性;指定字段类型、方向和缺失值;Clementine 可以自动设置变量类型,用户也可以强制指定类型;为建立模型,指定字段的方向;指定缺失值以及如何处理缺失值;变量值检查保证字段值满足一定的设置;字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的.109医学统计医学宣教定义字段类型类型节点指定字段的一系列重要属性;109医学统计109连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型 用于描述带有多个具体值的数据(黄、绿、蓝)标记型 用于只取两个具体值的数据(真、假)无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据110医学统计医学宣教连续型 用于描述数值,如0-100 或者0.75-1.2110字段方向输入:输入或者预测字段输出:输出或者被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用111医学统计医学宣教字段方向输入:输入或者预测字段111医学统计医学宣教111字段实例化字段实例化在读取值前数据称为未实例化,通过读取在读取值前数据称为未实例化,通过读取值后数据完全实例化,字段的取值和类型值后数据完全实例化,字段的取值和类型都是可知的都是可知的.112医学统计医学宣教字段实例化在读取值前数据称为未实例化,通过读取值后数据完全实112数据挖掘分析的一般步骤数据挖掘分析的一般步骤1 1、数据整理、数据整理2 2、数据格式转化、数据格式转化3 3、数据文件读入、数据文件读入4 4、数据类型设置、数据类型设置5 5、模型选择与参数设置、模型选择与参数设置6 6、结果输出与解读、结果输出与解读113医学统计医学宣教数据挖掘分析的一般步骤1、数据整理113医学统计医学宣教1131、数据整理整理成可分析的数据一般为横向数据,即一个病人一条记录。IDID药物药物数量(克)数量(克)1 1甘草甘草10101 1当归当归10101 1白术白术10102 2大黄大黄10102 2白术白术10102 2黄芩黄芩10103 3当归当归10103 3红花红花10103 3白术白术1010IDID甘草甘草 当归当归 白术白术 大黄大黄 黄芩黄芩 红花红花1 11010101010100 00 00 02 20 00 01010101010100 03 30 0101010100 00 01010114医学统计医学宣教1、数据整理整理成可分析的数据ID药物数量(克)1甘草1011142 2、数据格式转换、数据格式转换转化成软件可以读入的格式,常用TXT文件115医学统计医学宣教2、数据格式转换转化成软件可以读入的格式,常用TXT文件111153、数据文件读入116医学统计医学宣教3、数据文件读入116医学统计医学宣教116117医学统计医学宣教117医学统计医学宣教117查看读入数据是否成功118医学统计医学宣教查看读入数据是否成功118医学统计医学宣教118
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!