g***n 发帖数: 14 | 1 小弟我研究的是寄生线虫。我的课题基本是找一个phenotype的相关基因。
我手上有两个wildtype (A和B),phenotype在这两个wildtype之间的表型非常不一样,
A为0%,B为100%
用A做突变体,筛了几个phenotype在30%-40%之间的突变体。
然后对全基因组测序,拿到差异snps
请问有什么方法可以确定最有可能的基因或者最有可能的snps吗?
急等毕业,可是本来做数据分析的合作者换工作跑路了,指望不上了。
求教各位指点一下后续分析的方法,小弟在此拜谢了! |
m*****s 发帖数: 156 | 2 你测序了几个线虫?phenotype是百分比,或者说连续的?你这个是个GWAS study,如
果你的样本量够大的话。不过样本量只是影响power的一个因素,如果你的突变effect
size够大小样本应该也没问题。你搜索一下常用的gwas软件好了,如果你的样本之间没
有血缘关系,我推荐用plink
【在 g***n 的大作中提到】 : 小弟我研究的是寄生线虫。我的课题基本是找一个phenotype的相关基因。 : 我手上有两个wildtype (A和B),phenotype在这两个wildtype之间的表型非常不一样, : A为0%,B为100% : 用A做突变体,筛了几个phenotype在30%-40%之间的突变体。 : 然后对全基因组测序,拿到差异snps : 请问有什么方法可以确定最有可能的基因或者最有可能的snps吗? : 急等毕业,可是本来做数据分析的合作者换工作跑路了,指望不上了。 : 求教各位指点一下后续分析的方法,小弟在此拜谢了!
|
g***n 发帖数: 14 | 3 太感谢了
我一共测了9个线虫。phenotype是线虫dauer development的百分比,每个突变体的百
分比不一样。
我是以一个线虫为基础,做了一些突变体,所以每个线虫都是有血缘关系的。
我现在担心的是,样本量可能不够大(一共只有9个基因组),得出的结果是不是不可
靠?
另外,数据中有差异的snps一共不到1500个,分布在不到400个基因里
不知道你有没有相关经验,这样的数据能不能用gwas来分析?
effect
【在 m*****s 的大作中提到】 : 你测序了几个线虫?phenotype是百分比,或者说连续的?你这个是个GWAS study,如 : 果你的样本量够大的话。不过样本量只是影响power的一个因素,如果你的突变effect : size够大小样本应该也没问题。你搜索一下常用的gwas软件好了,如果你的样本之间没 : 有血缘关系,我推荐用plink
|
u*********1 发帖数: 2518 | 4 既然你有了全基因组的序列,就赶紧在这些SNP上下功夫;先不说association的问题,
如果你的hypothesis是rare/novel variants导致这个phenotype(也就是上面说的
effect size很大),那么你的1500个SNPs完全可以那去和数据库的common variants做
比对,找出罕见的同时改变protein序列的missense mutation或者影响splicing的,甚
至miRNA target啥的,也就是annotation。我不是做线虫的,但我估计也肯定是有相关
的database的吧。这一步大家一般用annovar这个软件
如果你的phenotype是个罕见的missense mutation导致的,那么你的9个样本中哪怕出
现了2个都是很有意义的。当然我的这套办法都是对于human genome的,如果你寻找的
是common variants或者更复杂的epistasis啥的就当我上面的没说。
association study往往是对于comman variants的,最经典的就是用plink。不过plink
也是好复杂的软件,要完全搞明白还是要点功夫的(尤其对于不做bioinformatics的新
手)。但是你的确只有9个样本,对于common variants的power可能比较低。
但你的优势是你是全基因组序列,所以想必你肯定会有一些rare的东西,甚至
structural variants,可以先关注关注它们吧
当然对于worm我是外行。。。
【在 g***n 的大作中提到】 : 太感谢了 : 我一共测了9个线虫。phenotype是线虫dauer development的百分比,每个突变体的百 : 分比不一样。 : 我是以一个线虫为基础,做了一些突变体,所以每个线虫都是有血缘关系的。 : 我现在担心的是,样本量可能不够大(一共只有9个基因组),得出的结果是不是不可 : 靠? : 另外,数据中有差异的snps一共不到1500个,分布在不到400个基因里 : 不知道你有没有相关经验,这样的数据能不能用gwas来分析? : : effect
|
u*********1 发帖数: 2518 | 5 我是以一个线虫为基础,做了一些突变体,所以每个线虫都是有血缘关系的
这个在我眼里是多么求之不得的事情。这就好比你做tumor variants的分析,你有
tumor和control,那么这个control样本可以帮你排除掉NNNNN多的noise;直接看
看mutant都出现了什么新的SNP所以导致了phenotype
这是做cancer genomics最爽的地方,因为有天然的control;而我们做一般complex
disease的就只能依靠common variants的数据库了。
不过我不太明白的是为什么A和B两个wildtype的phenotype如此不同;既然是wildtype
那genome难道会有很大差别么?(可能是很silly的问题因为我是外行)
anyway,先找到只在mut里产生的variants,做点annotation,或许你就已经找到了你
想要的东西,不用去care什么association power了
【在 g***n 的大作中提到】 : 太感谢了 : 我一共测了9个线虫。phenotype是线虫dauer development的百分比,每个突变体的百 : 分比不一样。 : 我是以一个线虫为基础,做了一些突变体,所以每个线虫都是有血缘关系的。 : 我现在担心的是,样本量可能不够大(一共只有9个基因组),得出的结果是不是不可 : 靠? : 另外,数据中有差异的snps一共不到1500个,分布在不到400个基因里 : 不知道你有没有相关经验,这样的数据能不能用gwas来分析? : : effect
|
g***n 发帖数: 14 | 6 谢谢你详细的回复
我的mutant实际上还有很多noise,原因是我的线虫体外回交成功率极低,这也是为什么
而且,我研究的线虫基因组还没有发表,所以也没有common variants数据库了,我这
个搞非模式生物的也只能流口水
所谓的wildtype A和B,是同一个isolate里发现的,理论上来说genome的variation很
小,测序数据也证明了这点
其中一个问题是,两个wildtype的差异基因很可能是控制上游表达的,而mutant中的
candidates基本都靠近下游。这是通过研究c elegans的ortholog 得出的结论。但不是
很肯定,因为线虫间的差异很大。
另外,我手上还有两个wildtype在stage L2的transcriptome,这个stage是所谓
phenotype的决定期。通过分析发现不到30个基因差异表达。有没有什么方法可以把
genome和transcriptome放在一起做个cross analysis的?
你上一个回复中提到的structure variation,是指rna的还是蛋白的?是怎么做呢?如
果有已经发表的文章,能不能给个链接?多谢了!
wildtype
【在 u*********1 的大作中提到】 : 我是以一个线虫为基础,做了一些突变体,所以每个线虫都是有血缘关系的 : 这个在我眼里是多么求之不得的事情。这就好比你做tumor variants的分析,你有 : tumor和control,那么这个control样本可以帮你排除掉NNNNN多的noise;直接看 : 看mutant都出现了什么新的SNP所以导致了phenotype : 这是做cancer genomics最爽的地方,因为有天然的control;而我们做一般complex : disease的就只能依靠common variants的数据库了。 : 不过我不太明白的是为什么A和B两个wildtype的phenotype如此不同;既然是wildtype : 那genome难道会有很大差别么?(可能是很silly的问题因为我是外行) : anyway,先找到只在mut里产生的variants,做点annotation,或许你就已经找到了你 : 想要的东西,不用去care什么association power了
|