当前位置：首页> 正在进行安全检测...

正在进行安全检测...

时间：2023-11-22 20:13:39 下载该word文档

【生物大数据】统计方法在生物信息学“精细定位”（fine-mapping）中的应用之前我们发过一篇文章，文章中说如何寻找与某个疾病相关的遗传信息，简单复习一下：我们每个人所带的基因是差不多的，之所以有的人卷发，有的人直发，有这么丰富多彩的变化，就是因为一些基因发生了改变。目前，科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析，并找到了疾病相关的多个易感位点。携带某种基因易感位点的人，就会有很大概率换上某种疾病。我们通过全基因组关联分析（GWAS）找出来与某个疾病关联最大的基因位点集合（SNP或说variant），GWAS分析的思想如下：原文请戳这里：☞【数说·大数据圈】机器学习在生物大数据应用的一个例子到这里，其实并没有结束，最终找出来的若干基因易感位点（我们不妨称为易感SNP集合，每一个位点，简单理解为一个SNP吧），是一个集合，里面包含了可能不止一个易感位点。它们都是在统计意义上的显著，是有一定犯错概率的，也没有经过生物学的证实。本文要说的精细定位，就是要进一步缩减候选的基因易感位点，排除掉一些“假”的位点。精细定位，叫做fine-mapping。
必备前提在做fine-mapping之前，有三个前提一定要具备：第一，区域中所有的commonSNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。第二，已经做过严格的qualitycontrol。第三，大样本，确保提供足够的power。满足必备前提之后，我们进行fine-mapping，分成两部分，statisticalfine-mapping和functionalfine-mapping。本文的重点是statisticalfine-mapping，简单介绍一下统计方法在fine-mapping中的应用。statisticalfine-mapping这一部分是本文的重点。在此步骤中，我们对GWAS中选出来的易感SNP集合进行统计分析，比较、排序其中SNP的重要次序，甚至删除掉一些不重要的SNP，缩小易感SNP集合的范围。大概有三种方法，一一列举如下：方法1：conditionalregression

阅读全文