欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

3.1 基因组分析:表型和记录及原始数据处理的基本原则

最编程 2024-07-15 12:29:18
...

精确的表型检测是关联分析的关键,GWAS对数量性状和质量性状都适用。

1.各类性状的特点及鉴定与考察建议

image.png

2.表型的基本处理

2.1 正态性检验

  • 关联分析属于线性模型,要求数据必须符合正态分布;
  • 正态性检验简单直观的方法是绘制频率分布图,观测数据分布情况;
  • 可以使用Shapiro-Wilk方法进行检测;
  • 不太符合正态分布的数据有时也可能获得不错的关联结果,需要警惕结果真实性。

2.2 去除极端异常值

极大或极小的异常值可能引起关联结果的异常,在分析前需要去除。

  • 排序观察法,适用于表型种类较少时;
  • 3sigma规则:均值加减三倍标准差的范围内为正常值,其他为异常值;
  • 箱线图:在触须外的值均可以认为是异常值。


2.3 多年多点表型值处理

  • 性状遗传力高,受环境影响不大,可以根据多年多点的结果取均值或BLUE值作为该性状的代表值进行分析;
  • 若性状遗传力低,受环境影响大,可每年每点单独分析后综合评判结果,在获得定位结果的同时进行G×E分析。

2.4 数据标准化

  • 数据标准化针对绝对值较大,且有明显梯度间隔的表型,绝对值较小的比较连续的表型可以不进行标准化,直接用于关联分析。
  • 所有标准化都不会也不能影响该组数据本身的大小趋势,因此也不会改变关联结果。
  • min-max标准化,也叫离差标准化,也就是常说的归一化,绝对值较大且有明显梯度的数据通常采用该方法,公式为:
  • y=(x-min(x))/(max(x)-min(x)),y为标准化后的值,x为原始值;
  • min-max标准化后所有的值都在0-1之间。
  • Z-score标准化:z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差。

2.5 分类变量的哑变量赋值

  • 对于无序分类数据,如花色或果皮颜色等,可以对变量进行哑变量赋值,以红、黄、蓝为例,可依次按如下的方式赋值:


  • 几种方式赋值后分别进行关联分析,获得的结果综合为最终的结果,赋值时需要注意1和0比例不要太悬殊。