GWAS 分析 - 说人话 (2) 识别文件名
前言
认识文件名,这玩意太重要了!行外人看不懂啊!!!!!!
高逼格的东西自己阅读参考文件了,我只上最粗暴的!~
尼马的,给我记好了,不然在GWAS分析的路上活不下的!!!
1.五大格式
Plink 主要处理五大格式的文件:
ped map bed fam bim
说人话:
看看你的手掌!!!5只手指,然后给自己打一个巴掌。
2.相互关系
ped 和 map 是一组的
bed fam bim 是一组的
说人话:
认清关系,才能知道分析什么!!!拿什么来分析!~
相信我! 因为Plink指令是一对一对识别(例如名字.ped,单独运行不了,一定要有配对的名字.map文件,一对起来才能运行,名字是要一样的哦!)!
别问我为什么,哈佛的程序员喜欢这样弄,你揍他啊!~ 揍不到,有本事就自己弄一个软件出来就是了(其实肯定是有本身的原因的,例如大量数据的处理更加快速之类的)。
上一个全局:
3.ped 格式
ped 必须与map 文件一起
前六列是固定的!第七列开始后面就是每个snp位点的基因型情况,可以有很多列,但基因型必须是成对存在的。
说人话:
A pedigree is a structured description of the familial relationships between samples.
Some GATK tools are capable of incorporating pedigree information in the analysis they perform if provided in the form of a PED file through the --pedigree (or -ped) argument.
ped就是缩写pedigree啊!
总之,就是记录家系(pedigree ) 信息的文件就是了!
4.map 格式
有4行
说人话:
就是你检测出来的SNP信息啊!
由于genotype file (GD file,例如上面的ped文件)里没有SNP位置信息,因此需要一个额外的map file(GM file)。GM file里的SNP顺序需要和GD中的保持一致。
map就是地图的意思啊!!!地图干嘛用的?就是告诉人位置的啊!
那么多个基因(我不是说23对基因,我是说30亿个碱基对)的位置,你要不要先定个小目标,数1亿个试试?我要你找第5千个碱基对,可能都想吐了~。
这个其实和游戏里面,地图信息会存一个map文件有异曲同工的作用~
在认识下面三个文件前,要说句人话!~
生成bed、fam、bim、文件
1.由于Plink程序识别的是二进制文件,所以我们要通过相应的命令将其转化成二进制的。这就是,为什么有“ped”和“map”就“够了”~
2.为什么要转换成二进制?
子曰:天下武功,唯快不破!(加快计算机运算)
3.利用--make-bed产生可以用于分析的二进制数据(就是下面的东东了),一件生成的(一次过满足你三个愿望!)
5.bed文件
1.首先这里强调的是bed文件与UCSC Genome Browser's BED format 是完全不一样的。
2.bed 文件与bim fam 文件一起的 (这三个是一起的)
3.bed文件是一个二进制文件,所以你是看不来的
6.bim文件
1.从这个说明我们可以看出bim文件是对map文件的拓展
2.总共有六行,包含了snp(variants)的具体信息
2.1.第一列是染色体信息
2.2.第二列是snp的名字
2.3.第三列是摩尔距离,文件中说可以用0,没关系
2.4.第四列是物理距离
2.5.第五列是次要等位基因
2.6.第六列是主要等位基因
这里的信息要和bed文件对应起来
3.这个文件也是要和bed fam 文件结合来使用(这三个是一起的)
7.fam格式
1.fam文件记录了每个样本家系的信息
2.fam文件也是必须和bed bim文件一起使用
3.主要有6 列:
3.1.第一列是Family ID ('FID')
3.2.第二列是Within-family ID ('IID'; cannot be '0')
3.3.第三列是Within-family ID of father ('0' if father isn't in dataset)
3.4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)
3.5.第五列是性别 ('1' = male, '2' = female, '0' = unknown)
3.6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
说人话!
fam就是代表family嘛! 有家系信息的。
bim可以看成是binary(二进制)+map(地图)加在一起的!这里的信息要和bed文件对应起来
bed:这个就不是给人看的(二进制文件)。“床上干羞羞的事”,能给人看嘛!?
后记
相信我,记住这些,逼格提高了,分析顺心了,连生活都美好了!~
参考文件:
1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml
2.https://www.jianshu.com/p/286050959dbd
3.https://wenku.baidu.com/view/04462103a98271fe910ef9bd.html
4.https://gatkforums.broadinstitute.org/gatk/discussion/7696/pedigree-ped-files
5.https://www.jianshu.com/p/8ced7531b728
推荐阅读
-
纯干货分享 | 研发效能提升——敏捷需求篇-而敏捷需求是提升效能的方式中不可或缺的模块之一。 云智慧的敏捷教练——Iris Xu近期在公司做了一场分享,主题为「敏捷需求挖掘和组织方法,交付更高业务价值的产品」。Iris具有丰富的团队敏捷转型实施经验,完成了企业多个团队从传统模式到敏捷转型的落地和实施,积淀了很多的经验。 这次分享主要包含以下2个部分: 第一部分是用户影响地图 第二部分是事件驱动的业务分析Event driven business analysis(以下简称EDBA) 用户影响地图,是一种从业务目标到产品需求映射的需求挖掘和组织的方法。 在软件开发过程中可能会遇到一些问题,比如大家使用不同的业务语言、技术语言,造成角色间的沟通阻碍,还会导致一些问题,比如需求误解、需求传递错误等;这会直接导致产品的功能需求和要实现的业务目标不是映射关系。 但在交付期间,研发人员必须要将这些需求实现交付,他们实则并不清楚这些功能需求产生的原因是什么、要解决客户的哪些痛点。研发人员往往只是拿到了解决方案,需要把它实现,但没有和业务侧一起去思考解决方案是否正确,能否真正的帮助客户解决问题。而用户影响地图通常是能够连接业务目标和产品功能的一种手段。 我们在每次迭代里加入的假设,也就是功能需求。首先把它先实现,再逐步去验证我们每一个小目标是否已经实现,再看下一个目标要是什么。那影响地图就是在这个过程中帮我们不断地去梳理目标和功能之间的关系。 我们在软件开发中可能存在的一些问题 针对这些问题,我们如何避免?先简单介绍做敏捷转型的常规思路: 先做团队级的敏捷,首先把产品、开发、测试人员,还有一些更后端的人员比如交互运维的同学放在一起,组成一个特训团队做交付。这个团队要包含交付过程中所涉及的所有角色。 接着业务敏捷要打通整个业务环节和研发侧的一个交付。上图中可以看到在敏捷中需求是分层管理的,第一层是业务需求,在这个层级是以用户目标和业务目标作为输入进行规划,同时需要去考虑客户的诉求。业务人员通过获取到的业务需求,进一步的和团队一起将其分解为产品需求。所以业务需求其实是我们真正去发布和运营的单元,它可以被独立发布到我们的生产环境上。我们的产品需求其实就是产品的具体功能,它是我们集成和测试的对象,也就是我们最终去部署到系统上的一个基本单元。产品需求再到了我们的开发团队,映射到迭代计划会上要把它分解为相应的技术任务,包括我们平时所说的比如一些前端的开发、后端的开发、测试都是相应的技术任务。所以业务敏捷要达到的目标是需要去持续顺畅高质量的交付业务价值。 将这几个点串起来,形成金字塔结构。最上层我们会把业务目标放在整个金字塔的塔尖。这个业务目标是通过用户的目标以及北极星指标确立的。确认业务目标后再去梳理相应的业务流程,最后生产。另外产品需求包含了操作流程和业务规则,具需求交付时间、工程时间以及我们的一些质量标准的要求。 谈到用户影响的地图,在敏捷江湖上其实有一个传说,大家都有一个说法叫做敏捷需求的“任督二脉”。用户影响地图其实就是任脉,在黑客马拉松上用过的用户故事地图其实叫督脉。所以说用户影响地图是在用户故事地图之前,先帮我们去梳理出我们要做哪些东西。当我们真正识别出我们要实现的业务活动之后,用户故事地图才去梳理我们整个的业务工作流,以及每个工作流节点下所要包含的具体功能和用户故事。所以说用户影响地图需要解决的问题,我们包括以下这些: 首先是范围蔓延,我们在整张地图上,功能和对应的业务目标是要去有一个映射的。这就避免了一些在我们比如有很多干系人参与的会议上,那大家都有不同想法些立场,会提出很多需求(正确以及错误的需求)。这个时候我们会依据目标去看这些需求是否真的是会影响我们的目标。 这里提到的错误需求,比如是利益相关的人提出的、客户认为产品应该有的、某个产品经理需求分析师认为可以有的....但是这些功能在用户影响地图中匹配不到对应目标的话,就需要降低优先级或弃掉。另外,通常我们去制定解决方案的时候,会考虑较完美的实现,导致解决方案括很多的功能。这个时候关键目标至关重要,会帮助我们梳理筛选、确定优先级。 看一下用户影响到地图概貌 总共分为一个三层的结构: 第一层why,你的业务目标哪个是最重要的,为什么?涉及到的角色有哪些? 第二层how ,怎样产生影响?影响用户角色什么样的行为? (不需要去列出所有的影响,基于业务目标) 第三层what,最关键的是在梳理需求时不需一次把所有细节想全,这通常团队中经常遇到的问题。 我们用这个例子来看一下 这是一个客服中心的影响地图,业务目标是 3个月内不增加客服人数的前提下能支持1.5倍的用户数。此业务目标设定是符合 smart 原则的,specific非常的具体,miserable 是可以衡量的,action reoriented是面向活动的, real list 也是很实际的。 量化的目标会指引我们接下来的行动,梳理一个业务目标,尽量去量化,比如 :我们通过打造一条什么样的流水线,能够提高整个部署的效率,时间是原来的 1/2 。这样才是一个能量化的有意义的目标。 回到这幅图, how 层级识别出来的内容,客服角色:想要对它施加的影响,把客户引导到论坛上,帮助客户更容易的跟踪问题,更快速的去定位问题。初级用户:方论坛上找到问题。高级用户:在论坛上回答问题。通过我们这些用户角色,进行活动,完成在不增加客户客服人数的前提下支持更多的用户数量。 最后一个层级,才是我们日常接触比较多的真正的功能的特性和需求,比如引导到客户到论坛上,其实这个产品就需要有一个常见问题的论坛的链接。这个层次需要我们团队进一步地在交付,在每个迭代之前做进一步的梳理,细化成相应的用户故事。 这个是云智慧团队中,自己做的影响地图的范例,可以看下整个的层级结构。序号表示优先级。 那我们用户影响地图可以总结为:
-
GWAS 分析 - 说人话 (2) 识别文件名