资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三/四章:描述性统计和直观图形,1、概率密度及随机数,2、,统计量,3、R的作图环境:图形分解、绘图命令,4、统计图形:散点图、直方图、ecdf、QQ,箱线图、多维图,5、特殊图形,3.1 概率密度及随机数,随机变量及其分布是概率统计研究中的重要基础,离散型:随机抽样【放回和不放回】sample,,二项分布binom,泊松分布pois,几何分布geom,超几何分布hyper,连续型:均匀分布unif,指数分布exp,beta分布,正态分布norm,卡方分布chisq,t分布t,F分布f,对数正态分布lnorm,伽玛分布gamma,柯西分布cauchy,注:加上p,d,r,q计算概率,密度,随机数,下分位点,3.1 概率密度及随机数,例1:绘制标准正态分布密度图,区间3,3,x=seq(-3,3,length=200),plot(x,dnorm(x,0,1),type=l)或者,plot(x,dnorm(x),type=l),3.1 概率密度及随机数,例2:Xt(10),求 P(|X|1.5),pt(1.5,10)-pt(-1.5,10)返回:0.8354927,例3:Xt(10),求y满足P(Xy)=0.9177463,qt(0.9177463,10)返回:1.5,例4:XN(60,42),模拟产生10个随机数,rx=rnorm(10,60,4),某次返回值:56.61105 56.04935 66.63273 57.15021 53.14499 56.67600 60.84096 64.60479,62.34092 66.46923,3.1 概率密度及随机数,例5:验证关系Tt(n),F=T2F(1,n),从概率上验证:,P(F0,P(Tx)=1-pf(x2,1,n)/2,x,t(n)-N(0,1),例8:正态抽样的样本,,确定n的起点,3.2 统计量,统计量是数理统计及应用统计中的一项基础工作,也是富有创意的一项工作,是区间估计/假设检验/回归/方差分析等诸项工作的基础。,对于统计量的理解:,1.是样本的函数 G(X1,X2,Xn),2.是随机变量 r.v.,3.具有值的特性 G(x1,x2,xn),3.2 统计量-基本统计量,1.样本均值,样本方差,样本中位数,极差,分位数,众数,中程数等。,R中的实现,mean(x);mean(x,trim=0);apply(mat,1,mean),median(x);(min(x)+max(x)/2,quantile(x,type=2),var(x);sd(x),range(x);max(x)-min(x),sd(x)/mean(x)#注意mean(x)0,3.2 统计量-基本统计量,2.讨论均值与中位数的应用差异,模拟:来自标准正态总体的样本,加入扰动(异常值)看看,样本均值和中位数的变化。,3.2 统计量-基本统计量,3 讨论样本方差和有偏方差的区别,模拟:来自标准正态总体的样本,样本方差和有偏方差的取值变化。,3.2 统计量-基本统计量,4 偏度系数和峰度系数,利用包TSA和leaps两个包中的两个函数计算,skewness(),kurtosis(),问题:如何通过模拟数据理解和直观展示偏度和峰度,3.3 图形分解,主标题,子标题,X轴标签,y轴标签,图,例,四周边距,刻度,par(mai=c(0.6,0.6,0.6,0.1)#指定四周空白,plot(1:10,1:10,type=n,main=主标题,sub=副标题,xlab=,ylab=,xlim=c(0,15),ylim=c(0,10),frame.plot=TRUE,axes=FALSE,mgp=c(0.3,0.3,0),cex.main=1,cex.sub=0.8),#不画坐标轴,标题的字体大小各不同,标题离坐标轴距离,lines(c(1,11),c(8,8),lty=2);lines(c(1,11),c(6,6),lty=3);lines(c(1,11),c(4,4),lty=1)#画三种线,legend(12.5,10,c(L1,L2,L3),lty=c(2,3,1),cex=0.75),#图例,axis(1,0:15,labels=0:15,cex=0.75)#x坐标轴,axis(2,0:10,labels=0:10,cex=0.75)#y坐标轴,title(xlab=x轴标签,adj=1,mgp=c(0.3,0.3,0),cex=0.75)title(ylab=y轴标签,adj=1,mgp=c(0.3,0.3,0),cex=0.75)#x轴标签右对齐,y轴标签右对齐,3.3 图形分解代码,通常一个统计图形的右侧边空是没有多大意义的,左侧边空也没有必要留太多,同理上下边空的空白也不能太大。,而R默认绘制的图形的边空都比较大,这在截图编辑的时候总是造成麻烦。所以可以在绘图开始的时候进行统一边空控制。,par(mai=c(bottom,left,top,right),单位:英寸,一英寸=2.539999918 厘米,3.3 图形分解边空统一控制,如果希望将所绘制的图形覆盖在一个有效的刻度范围内,则必须,使用上例中参数:xlim=c()和 ylim=c(),例如:来自标准正态分布的100个随机数,画出其频数直方图,x=rnorm(100);hist(x),3.3 图形分解有效区域控制,改写代码:,hist(x,xlim=c(-4,3),ylim=c(0,35),绘制不同数据图形的直观说明可通过 legend图例实现,比如上例中,绘制三种不同线型是用图例区别:,legend(12.5,10,c(Line1,Line2,Lline3),lty=c(2,3,1),注意:12.5,10表示的相对于xlim和ylim的坐标位置,,坐标起点(原点)是左下角(left,bottom),3.3 图形分解图例的作用,如果希望对x,y轴标签的输出位置进行控制,可以使用几个参数:,mgp(x,y,0):距离x刻度的英寸,距离y刻度的英寸,adj=0,0.5,1 :0 左对齐 0.5居中 1右对齐,3.3 图形分解坐标轴控制,如果希望对坐标轴刻度及刻度值进行控制,可以使用axis,axis(which,ticks,labels,las),which=1,2,3,4 分别表示bottom,left,top,right坐标,ticks表示刻度位置,向量,labels表示刻度值文本,向量,las=0,1,2,3 分别表示labels的读方向:,平行坐标轴,水行垂直 坐标轴,垂直,main表示顶端的主标题,sub 表示底端的副标题(子标题),xlab 表示x轴标签,ylab 表示y轴标签,3.3 图形分解标题控制,另外:cex=0.75 表示字体大小的缩放比例,分类控制cex.main,cex.sub,cex.xlab,cex.ylab,lty表示线的类型,lwd表示线的宽度,pch表示线以字符方式绘图,abline(v=x,lty,col);abline(h=y,lty,col),在当前图中添加x=x,y=y的直线,abline(a,b,lty,col),在当前图中添加 y=a+bx,points(x,y,pch,col),在当前途中加入点,其中:lty控制线的类型,col控制颜色,pch控制点的形状,3.3 图形分解直线或点绘制,plot(x,y)绘制y关于x的散点图,plot(x)绘制x关于1:length(x)的散点图,例如:,plot(rnorm(100),abline(h=c(-2,-1,0,1,2),练习:,绘制,-3,3之间的,标准正态分布,t(10)分布的密度图,要求分别用实线红色和虚线蓝色,并给出图例说明。,3.4 统计图-散点图,hist(x,freq=TRUE)频数直方图,hist(x,freq=FALSE)密度直方图,问题:,如何根据给定的分组来画直方图?,3.4 统计图-直方图,使用参数:breaks,1 指定区间个数,R会自动调整 breaks=6 不好用,2 指定区间的端点,区间数等于端点个数减1,例如:x=rnorm(100),hist(x),hist(x,breaks=6),hist(x,breaks=c(-4,-2,-1,0,1,2,4),3.4 统计图-直方图求解众数,问题:,请根据图形自行推导公式,3.4 统计图经验分布图,格列文科定理给出,随机抽样的经验分布函数与分布函数之间的关系表达成:,R中绘制经验分布函数图的函数是 ecdf和plot,re=ecdf(x),plot(re,veticals=TRUE,do.p=FALSE),另外可以计算给定x0的经验分布函数值,re(x0),练习:,生成标准正态随机数100个,计算x=2处的ecdf.,3.4 统计图正态QQ图,利用如下的关系式:,显然:k/n=1时,上式无法给出,故进行修正,R中给出:qqnorm(x);qqline(x)实现,练习:,请自行画出这个QQ图,3.4 统计图箱线图,通过一个箱体来展现数据的对称性和离散性分布特征,可用于鉴别异常值数据,还可用于多组数据的差异性比较,非常直观有效。,3.4 统计图箱线图,在R中,通过函数,boxplot(x,range=1.5,horizontal=FALSE),实现箱线图的绘制。,其中:x可以是一个数值向量,将绘制一组,也可以是一个数据框,将绘制多组,例子:,数据框A含有4个小组的同一门成绩变量,g1score,g2score,g3score,g4score,请按照均值为(65,70,75,80),标准差=4随机产生,四组数据各30个,然后绘制箱线图,比较差异.,3.4 统计图轮廓图多维,所谓轮廓图就是将数据矩阵中的每一行画成图上的一条折线。需将每列数据按比例换算到同一个坐标系中。,注意:这使得轮廓图的绘制对各列数据的数值大小有一定的要求,比较适合分析各列数据量纲接近,数值相差在一定的范围内,即不太大也不太小的情况。,3.4 统计图轮廓图多维,n=nrow(df);m=ncol(df),plot(c(1,m),c(min(df),max(df),type=n,main=轮廓图,xlab=序,ylab=值,sub=),for(i in 1:n),lines(as.numeric(dfi,),points(c(1,m),c(dfi,1,dfi,m),type=p,pch=15+(i-1)%/%5),#针对成绩数据,网络教学平台实验材料中,3.4 统计图调和曲线多维,第r条调和曲线定义为,3.4 统计图雷达图多维,雷达图因其绘制的图象犹如雷达屏幕上看到的图象而得名,该图象又有些像蜘蛛网,故又称为蜘蛛图或者星图。,R软件提供stars()函数用来绘制雷达图:,stars(df,locations=c(0,0),radius=FALSE,key.loc=c(0,0),main=成绩数据,lty=2),stars(df,full=FALSE,draw.segments=TRUE,key.loc=c(5,0.5),mar=c(2,0,0,0),数据:网络教学平台的 实验材料中,3.4 统计图,切尔诺夫脸,多维,通过15个变量来定义脸型、微笑、嘴巴、眼睛、鼻子、耳朵和头发等的长度和宽度将多维数据的特征通过直观的人脸及表情表现出来,在R中,专门给出这样的软件包和函数来进行脸谱的绘制。,先安装软件包aplpack,然后加载该软件包,通过函数faces()将数据矩阵带入,编绘制出脸谱来。,3.4 统计图,切尔诺夫脸,多维,install.packages(,aplpack);library(aplpack),faces(matrix(sample(1:1000,240),16,15),main=“random faces”,face.type=1)#face.type=0,黑白绘制,3.4 统计图散布图,多维,绘制多维数
展开阅读全文