• 欢迎来到论文发表网(www.lunwenchina.cn),我们为您提供专业的论文发表咨询和论文发表辅导!
受“清朗”行动影响,原网站QQ被封,新老作者请联系通过新的QQ:189308598。或者电话微信:15295038855

你的位置:论文发表网 >> 论文库 >> 文化论文 >> 详细内容 在线投稿

分类数据的检验之R软件实现   

热度0票  浏览58次 时间:2022年4月21日 11:16
  (北京理工大学珠海学院 广东 珠海 519088 )
       摘要:本文主要通过 R 软件对不带参数的分类数据及带参数的分类数据进行检验。
  关键词:分类数据;色盲遗传学模型;卡方统计量;卡方检验实际生活和应用中,除了定量数据,定性数据也是经常会遇到的一种数据类型,对于单一属性的分类数据经常需要做相应的检验。本文主要通过使用 R 软件对分类数据进行检验。
  一、不带参数的分类数据的检验
  案例 1 (孟德尔的豌豆实验) 19 世纪奥地利生物学家孟德尔按颜色与形状把豌豆分为四类:黄而圆的,青而圆的,黄而有角的,青而有角的。按照遗传学的理论,这四类豌豆的个数之比为 9:3:3:1 ,也就是说,豌豆为黄而圆 的 , 青 而 圆 的 , 黄 而 有 角 的 , 青 而 有 角 的 概 率 分 别 为9/16 , 3/16 , 3/16 , 1/16 。他在 n=556 颗豌豆中,观察到这四类豆的颗数分别为315 、 108 、 101 、 32 。在实际观察时,由于随机性,观察颗数不会恰好呈 9:3:3:1的比例,因此,就需要根据这些观察数据,对孟德尔的遗传学理论进行检验。
  单一属性分类数据检验问题的一般提法如下。根据某一项指标,总体被分为 r 类: . 根据理论或从经验出发提出了一个原假设:
  ,其中 已
  知 ,
  著名统计学家皮尔逊提出检验统计量为: ,该统计量称为 检验统计量。在原假设成立时,该统计量的渐近分布为分布。
  拒绝域为 , p 值为 ,如 果,则
  在水平 下拒绝原假设 ,否则不拒绝原假设 。下面通过 R 程序解决。
  孟德尔豌豆实验检验的 R 程序:
  x<-c(315,108, 101,32)
  p<-c(9/16,3/16,3/16,1/16)
  chisq.test(x, p = p)
  运行结果:
  Chi-squared test for given probabilities
  data: x
  X-squared = 0.47002, df = 3, p-value = 0.9254设检验水平 ,则 ,故不拒绝原假设 ,即认为孟德尔的遗传学理论是正确的。
  二、带参数的分类数据的检验
  案例 2 (色盲的遗传学模型)随机调查 1000 人,按性别和是否色盲将这1000 人分类。分类结果如下:男性正常、女性正常、男性色盲和女性色盲各有 442 、 514 、 38 、 6 人。按遗传学理论,这四类人所占的比例分别为,其中 p 未知, q=1-p. 问调查数据是否与模型相符?
  原假设
  检验统计量为
  其中 r 为类别数, m 为待估参数个数, , 此处 r=4 , m=1.
  除了含有待估参数及 统计量的渐近分布自由度与不带参数的分类数据不同,其余都相同。所以首先要对待估参数进行估计,再进行检验。下面为色盲遗传学模型的 R 程序及运行结果:
  # 先对 p 做极大似然估计
  f <- function (p) -(p^956)*((2-p)^514)*((1-p)^50)pmin <- optimize(f, c(0, 1), tol = 0.0000001)pmin
  $`minimum`
  [1] 0.9129418
  $objective
  [1] -6.427138e-73
  # 再利用不带参数的分类数据的检验算出卡方统计量(注意此处自由度和 p 值均不正确)
  x<-c(442,514,38,6)
  p<-pmin$minimum
  q<-1-p
  p1<-c(p/2,(p^2)/2+p*q,q/2,(q^2)/2)
  chisq.test(x, p = p1)
  Chi-squared test for given probabilities
  data: x
  X-squared = 3.0882, df = 3, p-value = 0.3782# 最后设置正确的自由度,重新计算正确的 p 值pchisq( chisq.test (x,p = p1)$statistic,df=2,lower.tail=F)X-squared
  0.2135072
  得到的 p=0.2135072 >0.05 ,故不拒绝原假设,即认为色盲遗传学理论是正确的。
  参考文献:
  [1] 张尧庭 . 定性资料的统计分析 . 南宁:广西师范大学出版社, 1991.
  [2] 王静龙,梁小筠,王黎明 . 属性数据分析 . 北京 : 高等教育出版社,2013.7
  [3] Robert I.Kabacoff.R in Action Data Analysis and Graphics with R. (中译本: R 语言实战 . 高涛,肖楠,陈钢译 . 北京:人民邮电出版社, 2014.1 )



中国论文网(www.lunwenchina.cn),是一个专门从事期刊推广、论文发表、论文写作指导的机构。本站提供一体化论文发表解决方案:省级论文/国家级论文/核心论文/CN论文。

投稿邮箱:lunwenchina@126.com

在线咨询:189308598(QQ) 

联系电话:15295038855(徐编辑)  

 

上一篇 下一篇
0

联系我们