正在进行安全检测...
时间:2023-11-22 20:13:39 下载该word文档
【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下:我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。携带某种基因易感位点的人,就会有很大概率换上某种疾病。我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS>>>>分析的思想如下:原文请戳这里:☞【数说·大数据圈】机器学习在生物大数据应>>>>用的一个例子到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称>>>>为易感SNP集合,每一个位点,简单理解为一个SNP吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定犯错概率的,也没有经过生物学的证实。本文要说的精细定位,就是要进一步缩减候选的基因易感位点,排除掉一些“假”的位点。精细定位,叫做fine-mapping。
>>>>必备前提在做fine-mapping之前,有三个前提一定要具备:第一,区域中所有的commonSNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。第二,已经做过严格的qualitycontrol。第三,大样本,确保提供足够的power。满足必备前提之后,我们进行fine-mapping,分成两部分,statisticalfine-mapping和functionalfine-mapping。本文的重点是statisticalfine-mapping,简单介绍一下统计方法在fine-mapping中的应用。statisticalfine-mapping这一部分是本文的重点。在此步骤中,我们对GWAS中选出来的易感SNP集合进行统计分析,比较、排序其中SNP的重要次序,甚至删除掉一些不重要的SNP,缩小易感SNP集合的范围。大概有三种方法,一一列举