机器学习:在SAS中运行随机森林数据分析报告论文

上传人:daj****de 文档编号:125843520 上传时间:2022-07-27 格式:DOCX 页数:17 大小:104.59KB
返回 下载 相关 举报
机器学习:在SAS中运行随机森林数据分析报告论文_第1页
第1页 / 共17页
机器学习:在SAS中运行随机森林数据分析报告论文_第2页
第2页 / 共17页
机器学习:在SAS中运行随机森林数据分析报告论文_第3页
第3页 / 共17页
点击查看更多>>
资源描述
【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer scienceassignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据),咨询 QQ: 3025393450有问题百度搜索,石活#对居”就可以了欢迎登陆官网:机器学习:在SAS中运行随机森林 数据分析报告为了在SAS中运行随机森林,我们必须使用PROC HPFOREST指定目标变量, 并概述天气变量是“类别”还是“定量”。实例1为了进行此分析,我们使用了目标(Repsone变量),该目标是分类的(SAS 语言中标称的),如下面的图像代码中所描述的黄色和红色:PkOC .SORT; 31方卜 THIS 15 TO APOEESr 73ELF.E 2rSBGET 13 W迎 RE5F0NSE CR TSBGET VARTRBLE二” MW睫 rHJu IS FCR k CAIPGCRICiL VARZiSLEIKPUZ 15 TO EMIER THE LKPLIUlTCRY VARHSLE为 IKPCHTAI-FT :YOU HAVE 7D ENTER IK SEPARATE IinZ SZRTEME-rSK CJlTEGGRICAL 73iRr?i3LE3 玉GM2HZgHLEmUR 口城工国口 *1且旦工5 7PROC BPFtJjLEST?TARGET :EHEE5心I匚二DE,IXVZL=KOM:IKi二;INPUT HTGffiLCOHOL HIGHEMPLQI HT曲my 叫佳氏尹工 HIGHLHTKKHE三王三R HIGKAHMEP / LEVElFHOMIML;I.* tz*57can=ezeezLO h. hj.vraze 侦砂至还丑田了 |运行代码后,我们得到了一系列表格,这些表格将详细分析数据。例如,模型信 息让我们知道,随机选择了 3个变量来测试每个节点或每个树中可能的分割(黄 色)。我们还可以看到,运行的最大树数为100,如蓝色下划线所示。该模型信 息还告诉我们,“袋中部分”设置为默认值的60%,使OBB的比率为40%。请注 意,“修剪分数”默认设置为“0”,因为将其最接近设置为“ 1”,然后树木将具有的 最低生长水平。换句话说是不修剪。HPFOREST自动仅使用在任何观察值下均没有缺失记录的有效变量。但是,我 们还可以看到,在研究样本的213个国家中,有213个被利用。这是因为我已 经利用了一组没有缺失值的县。【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据), 咨询 QQ: 3025393450有问题百度搜索,石蔬数据”就可以了 欢迎登陆官网:The HPFO-REST ProcedurePerforrsiance 1 nf-or m-ati-onExe-GLrti on ModeSirgkineNu同淀r -of Thgth2ata Ace&ss Inform-ationDataEngineRdIePathWORK NEWWIn-piflOnCfentModel 1 nFormationPa ram rVai ueUa ri ables to TrWbMaximum Tre-es生1 nba q Fraction:J:&sfaLihj-Prune Fra-ction:LlsflL-h -Prune TTire=hDld011:LFLrh :Leaf Fraction:Dsfauh ;Leaf Size Stting:Dsfauh ;Ltaf Si=E UsdCat&fjory Binsw?I Lfakh ;Interval BinsEMMini mum Cat 印勺门 fiuI LfaL-h ;Nude SizeiDz-fiuh;Ma 菁 i mirm BeptliiDz-fiuh;AlphaiDz-fiuh;Ex haustiire5000:Ltfibh:Rdtas of S&qu&nce to Skip5:Ltfibh:Split CriterionGiniPr-e=&lwtion MethodMiEEing Valu& Handling? Z d7Mum be r cf Obs-frivatiDn&TyptNumber of Obs&rv-ations RNumber of Obs&rv-ations L5 edJ接下来,我们可以看到模型生成带有“基线拟合统计量”的表。就本研究中的数据 而言,我们可以看到该模型识别出38%的误分类,换句话说是62%的准确分类。 这表示大部分样本已在每个随机选择的样本中正确分类。【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据),咨询 QQ: 3025393450有问题百度搜索,石活冥对居”就可以了欢迎登陆官网:Bi涧ire Fit Statistic蜘 tistk间HEAveragt Squ日任 Errord.依Miscla &ification Rateo. sagLog Ld&5在下表中分析森林的适合度时,我们可以看到误分类率已经达到了最低点,树 号为100.这表明在OOB样本中使用该模型进行测试时,误分类率仅在22%。Top10Fil S-latisiic-sNumber H TIMQHumber4底1日尹5-quwtError|TninjSquareError |DClQ|iMigl 日 miFiGiii on Rale |Trin|Rate (006)Lm |Trair*LogLl5- lOOBl111-3.157D2ZJil.iKD732I.11M2213.175FL蜀虫DEIS5.0213M3.171a2D00.Z4-I9.33-D14D.54:4IQ3.17JD.21D0.24CDE为D.71J+ES.ir*皿d.咨。糜 :Z5D.S3SrB5.175口却3.317DS59D.303F日cunD2D5Q.3rWDEMQ.5W&72yDEK二二9l:17tD2&40.2SD532D.S04E93.176U.琢3.325DEMD.52TheMisclassificationrate tendsto decreaseL947M0.5240.5J1 ,91fl.ITT.ZW0 3 id北部QM192MD口服0.524Q.53-1斑C.IT7M叶.?f4g!)找&4Z7D.177D.197Z.22&.315。.泌泓Bottom,95C.IT7010?C.;2&。illi0泌J虱96*410.177E.22&0.31。.泌9.泌1057EMMT7D1&7G.K5j 124j E.U0泌福E0J7T口睥笔:噩0.324。.泌0.M1mm。.汕0.11-1CH)fl. inD187225。.泌0.JM1 _TheMisclassificationAlmost Levels off最后,我们看到SAS POC HPFOREST为我们提供了“损失减少变量的重要性” 表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示, 酒精变量排名最高。现在,以下内容将帮助我们理解如何阅读表格:规则数:告诉我们使用变量的拆分规则数【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer scienceassignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据),咨询 QQ: 3025393450有问题百度搜索,石活#对居”就可以了欢迎登陆官网:.每个数据计算两次:.Gini:这是在“袋装”阶段计算的数据.Gini OOB:这是在“Out of Bag”阶段中计算出的数据.拟合统计告诉我们,OOB数据的偏差较小,因此,数据通过OOB Gini度量进行排序.就预测自杀率高于正常水平而言,这些变量被列为高度重要性(顶部)和最低重要性(底部)。.从下表中我们可以看出,最容易预测模型自杀率高于正常模型的变量是酒精消费量,就业率和城市率。Los-s Reduction WarhbleImportancsVariableNumber of RulesGiniOOBGiniMarginOOBMarginHIGHALCOHQL1290.02S473Q.023120.0529460.04693ZHIGHEMPLOY1360.01G3W0.006970,03 迎 Q0.01958&HIGHURBAN1250.0129250.00S10.0250610.01896SHIGHELECTRIC780.006733Q.0016&0.Q1M660.008143HIGHARMED113G.01D&220.001 R0.0215430.010213breastcan cerperl 00th10.00&6600.Q0022O.OD13200.00195&HIGHIKTERN ET99Q.00M7-Q.Q00360,0116940.00356&hivrate320.012300-0.001010.3245990.0161QSHIGHCO59Q.D04713-0.004120.0034350.00057&欢迎登陆官网:通过上面的练习,我们可以看到随机森林是一种数据挖掘算法,可以选择重要的 解释变量,这些变量可以用于确定响应变量(目标变量)的结果,无论是分类变 量还是定量变量。此外,此练习还允许我们结合使用分类变量和定量变量。总之, 这个森林让我们知道哪些变量很重要,但彼此之间没有关系。实例2:缺失值和估算值本示例使用SAS样本库中的房屋净值数据来说明使用缺失值和估算值之间的区别。数据丢 失的非随机模式可以帮助预测目标。当缺失值由训练数据中的推定值代替时,PROC HPFOREST无法使用此模式。下面的语句通过两次运行PROC HPFOREST来说明这一点: 一次在原始数据上运行,一次在数据缺失的标称值已被变量的模式替换而缺失的间隔值已被 变量的均值替换后的数据。该Sampsio.Hmeq数据集包含虚拟抵押数据,其中每个案例代表房屋抵押贷款的申请人。 所有申请人都有现有抵押。以。对于最终违约或严重违约的申请人,二进制目标等于1。 九个间隔输入可用于建模。JOB并且REASON是唯一的标称输入。对于模式JOB和 REASON分别是 OTHER 和 DEBTCON。proc hpimpute data=sampsio.hmeq out=imout;input mortdue value yoj clage ninq clno debtinc derog del inq;impute mortdue value yoj clage ninq clno debtinc derog de linq/method=mean;run;data job_reason;set sampsio.hmeq;if job= then job=Other”;if reason= then reason=DebtCon;欢迎登陆官网:run;data imout;merge imout job_reason;run;proc hpforest data=imout vars_to_try=all;input im:/level=interval;input reason job/level=nominal;target bad/level=binary;ods outputVariableImportance=imviFitStatistics=imfit(rename=(Ntrees=Trees Miscall=ImMis call Miscoob=ImMiscoob);run;proc hpforest data=sampsio.hmeq vars_to_try=all;input mortdue value yoj clage ninq clno debtinc derog del inq/level=interval;input reason job/level=nominal;target bad/level=binary;欢迎登陆官网:ods outputBaseline=bsVariableImportance=viFitStatistics=fit(rename=(Ntrees=Trees);run;proc sql noprint;select value into :MiscBaseline trimmed from bswhere Statistic=Misclassification Rate1;quit;data fitstats;merge imfit fit;MiscBaseline = &MiscBaseline;label Trees = Number of Trees;label MiscAll = Full Data;label Miscoob = OOB;label ImMiscAll = Full Data - Impute;label ImMiscoob = OOB - Impute;label Miscbaseline = Baseline;欢迎登陆官网:run;proc sgplot data=fitstats;title Misclassification Rate With and Without Imputed Va lues;series x=trees y=Miscbaseline/lineattrs=(Pattern=Solid Co lor=black);series x=Trees y=MiscAll/lineattrs=(Pattern=Solid Thickne ss=2);series x=Trees y=Miscoob/lineattrs=(Pattern=ShortDash Thi ckness=2);series x=Trees y=ImMiscAll/lineattrs=(Pattern=ShortDash T hickness=2);series x=Trees y=ImMiscoob/lineattrs=(Pattern=MediumDashD otDot Thickness=2);yaxis label=Misclassification Rate1;run;data vi;set vi;keep Variable NRules Gini GiniOOB Rank;Rank = n ;run;欢迎登陆官网:proc sort data=vi;by Variable;run;data imvi;set imvi;keep Variable RankImputed NRules Gini GiniOOB;if substr(Variable,1,3)=IM_ then Variable=substr(Variab le, 4);RankImputed=_n_;label RankImputed=Rank (Imput);rename NRules=RulesImputed;label NRules=Rules (Imputed);rename Gini=GiniImputed;label Gini=Gini (Imputed);rename GiniOOB=GiniOOBImputed;label GiniOOB=OOB Gini Reduction (Impute);run;proc sort data=imvi;欢迎登陆官网:by Variable;run;data vi;merge vi imvi;by Variable;rename NRules=Rules;run;proc sort data=vi;by rank;run;data t1(ke叩=Variable Rules RulesImputed RankImputed)t2(keep=Variable Gini GiniImputed GiniOOB GiniOOBImpute d);set vi;run;proc print data=t1;run;【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据),咨询 QQ: 3025393450有问题百度搜索,石活#对居”就可以了欢迎登陆官网:proc print data=t2;run;data debtinc_miss;set sampsio.hmeq;if debtinc =. then debtinc_is_missing=MISSING ;else debtinc_is_missing=NOT MISSING;run;proc freq data=debtinc_miss;tables debtinc_is_missing*bad/nocol;run;输出7.5.1显示有或没有估算缺失值的错误分类率和袋外错误分类率。没有任何模型,错误 分类率等于0.1995。用推算值训练的模型的出袋率不是更好。原始数据的出库率要好得多, 等于基线率的一半。输出7.5.1估算缺失值的影响【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据),咨询 QQ: 3025393450有问题百度搜索,石活冥对居”就可以了欢迎登陆官网:D.Q.D.&DD. 暮 Elrrsqslj 一愣TQW一牙MiSGla<lcation Rate With and! Wlthcul Imputed Values2D4 口60901DDNumber-of Trees如凭Inu FuflD#i# Full Dtriti - IrrpuW 001 - ImpMUe输出7.5.2显示每个模型使用每个变量的次数。“规则”列显示使用原始数据的次数;RankImputed列显示使用估算数据的次数。“规则”列中的数字与“规则插入”列中的数字相差 很大,这表明缺少值的变量比具有估算值的变量具有更多区别信息。变量的顺序是使用原始数据的模型中重要性顺序。RankImpute列显示使用插补值的模型的 重要性顺序。DEBTINC当使用原始数据时,是最重要的变量,而在使用估算值时,是最重 要的变量。插补会极大地改变这些数据的特性。输出7.5.2:可变重要性排名有和没有推定值的分类错误率【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据),咨询 QQ: 3025393450有问题百度搜索,石活#对居”就可以了欢迎登陆官网:输出7.5.3显示了每个变量的重要性的袋内和袋外Gini度量。PROC HPFOREST仅使用树 中的训练数据来计算袋中度量,并且仅将树中的袋中数据用于袋中度量。自付费用量度是对 变量对预测新观测值的贡献的更好估计。负值表示该变量平均会使预测变差。GiniOOB列 显示它的DEBTINC重要性是下一个变量的两倍。但是,当估算缺失值时,GiniOOB的略 为负DEBTINC,表明DEBTINC使预测稍差。输出7.5.3:可变重要性排名有和没有推定值的分类错误率Misclassification Rate With and Without Imputed ValuesObsVariableGiniGiniOOBGiniImputed1DEBTINC0.1275310.112520.0417932DELINQ0.0205040.012460.0191903DEROG0.0120980.001420.012566GiniOOBImputed-0.02517-0.01290-0.00921【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据),咨询 QQ: 3025393450有问题百度搜索,石活#对居”就可以了欢迎登陆官网:Obs VariableGini GiniOOB4 REASON 0.002568 -0.001125 JOB 0.005247 -0.001206 CLAGE7 NINQ8 YOJ0.029162 -0.001570.014559 -0.005210.018500 -0.00802GiniImputed GiniOOBImputed0.0050970.000320.009309-0.001210.034663-0.028600.019456-0.017630.028476-0.023569 CLNO 0.019504 -0.008450.030647-0.0273710 MORTDUE 0.021067 -0.010550.036690-0.0304311 VALUE 0.042275 -0.011870.065912-0.05417输出7.5.4显示DEBTINC目标的每个值缺失或不缺失的观察计数BAD。DEBTINC在21 % 的观察中缺失。如果DEBTINC缺失,则BAD等于1的观察值的比例(表明申请者拖欠了) 为62%。如果DEBTINC不缺席,那么这个比例仅为8.6%。在此示例DEBTINC中BAD, 缺少的值具有很高的预测性。估算缺失值会破坏预测能力。输出 7.5.4: DEBTINC_IS_MISSING 的 BAD 应急表有和没有推定值的分类错误率Misclassification Rate With and Without Imputed ValuesThe FREQ ProcedureFrequencyPercentRow Pctdebtinc_is_missingBAD01TotalMISSING4817861267Table of debtinc_is_missing by BAD【原创】定制代写开发 r/python/spss/matlab/WEKA/sas/sql/C+/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代 码数据),咨询 QQ: 3025393450有问题百度搜索,石活#对居”就可以了欢迎登陆官网:8.07 13.1921.2637.96 62.04NOT MISSING4290403469371.986.7678.7491.418.59Total47711189596080.0519.95100.00
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!