GWAS 分析 - 说人话 (2) 识别文件名

最编程 2024-03-21 15:55:49

...

前言

认识文件名，这玩意太重要了！行外人看不懂啊！！！！！！

高逼格的东西自己阅读参考文件了，我只上最粗暴的！～

尼马的，给我记好了，不然在GWAS分析的路上活不下的！！！

1.五大格式

Plink 主要处理五大格式的文件：

ped map bed fam bim

说人话：

看看你的手掌！！！5只手指，然后给自己打一个巴掌。

2.相互关系

ped 和 map 是一组的

bed fam bim 是一组的

说人话：

认清关系，才能知道分析什么！！！拿什么来分析！～

相信我！因为Plink指令是一对一对识别(例如名字.ped,单独运行不了，一定要有配对的名字.map文件，一对起来才能运行，名字是要一样的哦！）！

别问我为什么，哈佛的程序员喜欢这样弄，你揍他啊！～揍不到，有本事就自己弄一个软件出来就是了（其实肯定是有本身的原因的，例如大量数据的处理更加快速之类的）。

上一个全局：

忍不住盗一个图，真的总结得很好！记得看参考文件啊！

3.ped 格式

ped 必须与map 文件一起

前六列是固定的！第七列开始后面就是每个snp位点的基因型情况，可以有很多列，但基因型必须是成对存在的。

ped文件结构

长啥样？

说人话：

A pedigree is a structured description of the familial relationships between samples.

Some GATK tools are capable of incorporating pedigree information in the analysis they perform if provided in the form of a PED file through the --pedigree (or -ped) argument.

ped就是缩写pedigree啊！

总之，就是记录家系（pedigree ）信息的文件就是了！

4.map 格式

有4行

map文件结构

长啥样？

说人话：

就是你检测出来的SNP信息啊！

由于genotype file (GD file，例如上面的ped文件)里没有SNP位置信息，因此需要一个额外的map file(GM file)。GM file里的SNP顺序需要和GD中的保持一致。

map就是地图的意思啊！！！地图干嘛用的？就是告诉人位置的啊！

那么多个基因（我不是说23对基因，我是说30亿个碱基对）的位置，你要不要先定个小目标，数1亿个试试？我要你找第5千个碱基对，可能都想吐了～。

这个其实和游戏里面，地图信息会存一个map文件有异曲同工的作用～

上一个王者荣耀的地图，有空找我开黑～求上王者50星～

在认识下面三个文件前，要说句人话！～

生成bed、fam、bim、文件

1.由于Plink程序识别的是二进制文件，所以我们要通过相应的命令将其转化成二进制的。这就是，为什么有“ped”和“map”就“够了”～

2.为什么要转换成二进制？

子曰：天下武功，唯快不破！（加快计算机运算）

3.利用--make-bed产生可以用于分析的二进制数据（就是下面的东东了），一件生成的（一次过满足你三个愿望！）

5.bed文件

1.首先这里强调的是bed文件与UCSC Genome Browser's BED format 是完全不一样的。

2.bed 文件与bim fam 文件一起的 (这三个是一起的)

3.bed文件是一个二进制文件，所以你是看不来的

6.bim文件

1.从这个说明我们可以看出bim文件是对map文件的拓展

2.总共有六行，包含了snp（variants）的具体信息

2.1.第一列是染色体信息

2.2.第二列是snp的名字

2.3.第三列是摩尔距离，文件中说可以用0，没关系

2.4.第四列是物理距离

2.5.第五列是次要等位基因

2.6.第六列是主要等位基因

这里的信息要和bed文件对应起来

3.这个文件也是要和bed fam 文件结合来使用(这三个是一起的)

bim文件长啥样？

7.fam格式

1.fam文件记录了每个样本家系的信息

2.fam文件也是必须和bed bim文件一起使用

3.主要有6 列：

3.1.第一列是Family ID ('FID')

3.2.第二列是Within-family ID ('IID'; cannot be '0')

3.3.第三列是Within-family ID of father ('0' if father isn't in dataset)

3.4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)

3.5.第五列是性别 ('1' = male, '2' = female, '0' = unknown)

3.6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

fam文件长啥样？

说人话！

fam就是代表family嘛！有家系信息的。

bim可以看成是binary（二进制）+map（地图）加在一起的！这里的信息要和bed文件对应起来

bed：这个就不是给人看的（二进制文件）。“床上干羞羞的事”，能给人看嘛！？

后记

相信我，记住这些，逼格提高了，分析顺心了，连生活都美好了！～

参考文件：

1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml

2.https://www.jianshu.com/p/286050959dbd

3.https://wenku.baidu.com/view/04462103a98271fe910ef9bd.html

4.https://gatkforums.broadinstitute.org/gatk/discussion/7696/pedigree-ped-files

5.https://www.jianshu.com/p/8ced7531b728

上一篇：将 JS 转换为 HTML 转义字符

下一篇：转】在线读取 KEGG 注释：下载 KEGG 数据失败...download.KEGG.Path(spe...