R知识点总结整理版

上传人:卷*** 文档编号:124947727 上传时间:2022-07-25 格式:DOCX 页数:32 大小:182.86KB
返回 下载 相关 举报
R知识点总结整理版_第1页
第1页 / 共32页
R知识点总结整理版_第2页
第2页 / 共32页
R知识点总结整理版_第3页
第3页 / 共32页
点击查看更多>>
资源描述
R知识点复习第二章:R软件的使用一、向量1、是命令提示符,“-”或“=”表达赋值运算符; “+”表达加,“-”表达减法,“*”表达乘法,“/”表达除法,“%/%”表达整除,“%”表达取余数,“*”或“”表达乘方;2、 函数:sqrt() #开方log() #取对数exp() #取指数sin();cos();tan() #三角函数 max();min() #求最大最小值mean() #求均值sum() #计算自变量向量的元素和var(), sd() #计算样本方差,计算原则差c() #把数据组合为一种向量rang() #返回涉及最小值和最大值的向量sort() #返回按x的元素从小到大排序的成果向量order() #返回使得x的元素从小到大排序的元素下表的向量 numeric(n) #产生有规律的数列seq() #等差数列函数rep() #反复第一种自变量若干次paste () #把自变量连城字符串,中间用空格隔开3、例如(1)绘制余弦函数图 x1=1:100;x1 x2-x1*2*pi/100;x2 y=cos(x2);y plot(x1,y,type=l) #type=l是字母l(2)函数c()用来把数据组合为一种向量 vectlibrary(xlsReadWrite) d=read.xls(“foo.xls”)3、R中向量默认是列向量,byrow=TRUE是指按行排列列表中元素长度不必同样,R列表有维数;数据框元素必须有相似长度,有维数diag(3) #产生三阶单位矩阵solve(A) #求矩阵的逆t(A) #求矩阵的转置4、legend函数用来在目前图形的指定坐标位置绘制图例。图例的阐明文字由向量legend提供. angel参数指定几种阴影斜度 density参数指定几种阴影密度 fill参数指定几种填充颜色 col参数指定几种颜色 lty参数指定几种线型 pch参数指定几种散点符号,为字符型向量 vect参数也指定几种散点符号,为字符型向量第三章:数据描述性分析一、描述性记录量1、Sort() #顺序记录量 quantile () #百分位数length() #长度 median() #中位数mean() #均值var() #方差sd() #样本原则差max()-min() #样本极差s/sqrt() #原则误G1-(n*(n+1)/(n-1)*(n-2)*(n-3)*sum(w-m)4)/s4-(3*(n-1)2)/(n-2)*(n-3) #峰度系数G2 x=rcauchy(1000,1) f=function(p) sum(x-p)/(1+(x-p)2) out out$root1 0.9914451$f.root1 -0.$iter1 5$estim.prec1 6.103516e-05在计算成果中,$root是方程根的近似解,即估计值为0.9914451。$f.root是函数f在近似值处的函数值。$iter是迭代次数,即用了5次迭代。$estim.prec是近似解与精确解的误差估计,即近似解与精确解误差的绝对值不超过。三、区间估计1、配对数据情形下均值差的区间估计 为了调查应用克矽平治疗矽肺的效果,今抽查应用克矽平治疗矽肺的患者10名,记录下治疗前后血红蛋白的含量数据,如下表,试求治疗前后变化的区间估计()。病人编号12345678910治疗前(X)11.315.015.013.512.810.011.012.013.012.3治疗后(Y)14.013.814.013.513.512.014.711.413.812.0 X Y t.test(X-Y) One Sample t-testdata: X - Y t = -1.3066, df = 9, p-value = 0.2237alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -1.8572881 0.4972881 sample estimates:mean of x -0.68 因此,治疗前后变化的区间估计为-1.86,0.497.由于0涉及在区间估计的区间内,因此可以觉得治疗前后病人血红蛋白的含量无明显差别。2、单侧置信区间估计 从一批灯泡中随机地取5只作寿命实验,测得寿命(以h计)为1050 1100 1120 1250 1280,设灯泡寿命服从正态分布,求灯泡寿命平均值的置信度为0.95的单侧置信下限。 x t.test(x,alternative=greater) One Sample t-testdata: x t = 26.0035, df = 4, p-value = 6.497e-06alternative hypothesis: true mean is greater than 0 95 percent confidence interval: 1064.9 Inf sample estimates:mean of x 1160 因此单侧置信下限为1064.9.第五章:假设检查一、正态总体均值的假设检查1、单个总体的状况解:原假设:uu0=225 程序:x-c(159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170)source(C:/Users/Administrator/Desktop/R原程序/Ch05/mean.test1.R)mean.test1(x,mu=225,side=1) 运营成果:mean df T P_value1 241.5 15 0.6685177 0.2569801程序: mean.test1(x,mu=225,side=1) 运营成果:mean df T P_value1 241.5 15 0.6685177 0.2569801由上述成果可知,p=0.2569不小于0.05,因此接受原假设2、两个总体的状况解:原假设:两种措施治疗后的患者血红蛋白无差别;备择假设:两种措施治疗后的患者血红蛋白有差别。x-c(113,120,138,120,100,118,138,123)y chisq.test(c(335,125,160),p=c(9,3,4)/16) Chi-squared test for given probabilitiesdata: c(335, 125, 160) X-squared = 1.362, df = 2, p-value = 0.5061P值= 0.50610.05,接受原假设,即大麦芒性的分离符合9:3:4的比例。三、K-S检查 对一台设备进行寿命检查,记录10次无端障工作时间,并按从小到大的顺序排列如下(单位:h) 420 500 920 1380 1510 1650 1760 2100 2300 2350检查此设备无端障工作时间的分布与否服从的指数分布? x ks.test(x,pexp,1/1500) One-sample Kolmogorov-Smirnov testdata: x D = 0.3015, p-value = 0.2654alternative hypothesis: two-sided 其P值不小于0.05,无法回绝原假设,因此觉得此设备无端障工作时间的分布与否服从的指数分布。第六章:回归分析 一、一元线性回归解:程序:x-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0.23) y-c(42.0,43.5,45.0,45.5,45.0,47.5,49.0,53.0,50.0,55.0,55.0,60.0) lm.sol|t|) (Intercept) 28.493 1.580 18.04 5.88e-09 *x 130.835 9.683 13.51 9.50e-08 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.319 on 10 degrees of freedomMultiple R-squared: 0.9481, Adjusted R-squared: 0.9429 F-statistic: 182.6 on 1 and 10 DF, p-value: 9.505e-08 程序: summary(lm.sol)运营成果:Call:lm(formula = y 1 + x)Residuals: Min 1Q Median 3Q Max -2.0431 -0.7056 0.1694 0.6633 2.2653 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) 28.493 1.580 18.04 5.88e-09 *x 130.835 9.683 13.51 9.50e-08 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.319 on 10 degrees of freedomMultiple R-squared: 0.9481, Adjusted R-squared: 0.9429 F-statistic: 182.6 on 1 and 10 DF, p-value: 9.505e-08 故:得到的回归方程为:Y=28.493+130.835X二、多元线性回归以及逐渐回归解:(1)、A-data.frame(X1=c(0.4,0.4,3.1,0.6,4.7,1.7,9.4,10.1,11.6,12.6,10.9,23.1,23.1,21.6,23.1,1.9,26.8,29.9),X2=c(52,23,19,34,24,65,44,31,29,58,37,46,50,44,56,36,58,51),X3=c(158,163,37,157,59,123,46,117,173,112,111,114,134,73,168,143,202,124),Y=c(64,60,71,61,54,77,81,93,93,51,76,96,77,93,95,54,168,99)lm.sol|t|) (Intercept) 43.65007 18.05442 2.418 0.02984 * X1 1.78534 0.53977 3.308 0.00518 *X2 -0.08329 0.42037 -0.198 0.84579 X3 0.16102 0.11158 1.443 0.17098 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 19.97 on 14 degrees of freedomMultiple R-squared: 0.5493, Adjusted R-squared: 0.4527 F-statistic: 5.688 on 3 and 14 DF, p-value: 0.009227 回归方程为:Y=43.65007+1.78534X1-0.08329X2+0.16102X3.(2)、由(1)的成果可得,F检查中p值不不小于0.05,因此回归方程明显.但某些回归系数的t检查中p值不小于0.05,因此有些回归系数不明显.(3)、lm.step-step(lm.sol)Start: AIC=111.27Y X1 + X2 + X3 Df Sum of Sq RSS AIC- X2 1 15.7 5599.4 109.32 5583.7 111.27- X3 1 830.6 6414.4 111.77- X1 1 4363.4 9947.2 119.66Step: AIC=109.32Y X1 + X3 Df Sum of Sq RSS AIC 5599.4 109.32- X3 1 833.2 6432.6 109.82- X1 1 5169.5 10768.9 119.09summary(lm.step)Call:lm(formula = Y X1 + X3, data = A)Residuals: Min 1Q Median 3Q Max -29.713 -11.324 -2.953 11.286 48.679 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) 41.4794 13.8834 2.988 0.00920 *X1 1.7374 0.4669 3.721 0.00205 *X3 0.1548 0.1036 1.494 0.15592 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 19.32 on 15 degrees of freedomMultiple R-squared: 0.5481, Adjusted R-squared: 0.4878 F-statistic: 9.095 on 2 and 15 DF, p-value: 0.002589 由上述成果可以看出,X3仍不明显.接下来运用drop1函数做逐渐回归:drop1(lm.step) Single term deletionsModel:Y X1 + X3 Df Sum of Sq RSS AIC 5599.4 109.32X1 1 5169.5 10768.9 119.09X3 1 833.2 6432.6 109.82由上述成果中,删去X3,AIC的值会由109.82增长到119.09,是增长至少的.因此可以考虑去掉X3.lm.opt|t|) (Intercept) 59.2590 7.4200 7.986 5.67e-07 *X1 1.8434 0.4789 3.849 0.00142 * -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 20.05 on 16 degrees of freedomMultiple R-squared: 0.4808, Adjusted R-squared: 0.4484 F-statistic: 14.82 on 1 and 16 DF, p-value: 0.001417 由上述成果可知,此时回归方程和各参数均是明显的.第三章 :常用记录分析随机数的应用:估计积分Eg1:估计积分解:g=function(x)exp(x+x2) f1(10000,-2,2,g) Integrate(g,-2,2)1 93.16275Eg2:估计二重积分,其R程序如下:解: X=runif(10000)Y=runif(10000) f=function(x,y)exp(x+y)2) sum(f(X,Y)/100001 4.907506
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!