求教生物信息学问题 - Biology版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 求教生物信息学问题

相关主题
● 应该控制生物新技术的大规模应用	● 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？
● 版上有谁用过或知道Knome这个公司吗?	● machine learning来对GWAS结果建模
● 有没有同学用过一个叫GSEA（gene set enrichment analysis）的分析软件	● 求教：如果SNP在dbSNP里找不到怎么办
● 生物版的都是PI稳拿级别的，应该还轮不到我说话的份	● NGS数据分析的流程
● GWAS测复杂疾病，测上一万人，靠谱不？	● Deep learning to study complex genetics
● 求教一个GWAS的问题	● 基因检测靠谱吗
● 新手求教,用什么办法根据genotypes的数据,分析risk hyplotype??	● 【求推荐】获得SNP information的网页
● Ask a simple question...	● 吵起来了，关于GWAS

相关话题的讨论汇总
话题: phenotype话题: 线虫话题: variants话题: wildtype话题: 突变体

进入Biology版参与讨论

1

(共1页)

g***n 发帖数: 14	1 小弟我研究的是寄生线虫。我的课题基本是找一个phenotype的相关基因。我手上有两个wildtype (A和B)，phenotype在这两个wildtype之间的表型非常不一样， A为0%，B为100% 用A做突变体，筛了几个phenotype在30%-40%之间的突变体。然后对全基因组测序，拿到差异snps 请问有什么方法可以确定最有可能的基因或者最有可能的snps吗？急等毕业，可是本来做数据分析的合作者换工作跑路了，指望不上了。求教各位指点一下后续分析的方法，小弟在此拜谢了！
m*****s 发帖数: 156	2 你测序了几个线虫？phenotype是百分比，或者说连续的？你这个是个GWAS study，如果你的样本量够大的话。不过样本量只是影响power的一个因素，如果你的突变effect size够大小样本应该也没问题。你搜索一下常用的gwas软件好了，如果你的样本之间没有血缘关系，我推荐用plink 【在 g***n 的大作中提到】 : 小弟我研究的是寄生线虫。我的课题基本是找一个phenotype的相关基因。 : 我手上有两个wildtype (A和B)，phenotype在这两个wildtype之间的表型非常不一样， : A为0%，B为100% : 用A做突变体，筛了几个phenotype在30%-40%之间的突变体。 : 然后对全基因组测序，拿到差异snps : 请问有什么方法可以确定最有可能的基因或者最有可能的snps吗？ : 急等毕业，可是本来做数据分析的合作者换工作跑路了，指望不上了。 : 求教各位指点一下后续分析的方法，小弟在此拜谢了！
g***n 发帖数: 14	3 太感谢了我一共测了9个线虫。phenotype是线虫dauer development的百分比，每个突变体的百分比不一样。我是以一个线虫为基础，做了一些突变体，所以每个线虫都是有血缘关系的。我现在担心的是，样本量可能不够大（一共只有9个基因组），得出的结果是不是不可靠？另外，数据中有差异的snps一共不到1500个，分布在不到400个基因里不知道你有没有相关经验，这样的数据能不能用gwas来分析？ effect 【在 m*****s 的大作中提到】 : 你测序了几个线虫？phenotype是百分比，或者说连续的？你这个是个GWAS study，如 : 果你的样本量够大的话。不过样本量只是影响power的一个因素，如果你的突变effect : size够大小样本应该也没问题。你搜索一下常用的gwas软件好了，如果你的样本之间没 : 有血缘关系，我推荐用plink
u*********1 发帖数: 2518	4 既然你有了全基因组的序列，就赶紧在这些SNP上下功夫；先不说association的问题，如果你的hypothesis是rare/novel variants导致这个phenotype（也就是上面说的 effect size很大），那么你的1500个SNPs完全可以那去和数据库的common variants做比对，找出罕见的同时改变protein序列的missense mutation或者影响splicing的，甚至miRNA target啥的，也就是annotation。我不是做线虫的，但我估计也肯定是有相关的database的吧。这一步大家一般用annovar这个软件如果你的phenotype是个罕见的missense mutation导致的，那么你的9个样本中哪怕出现了2个都是很有意义的。当然我的这套办法都是对于human genome的，如果你寻找的是common variants或者更复杂的epistasis啥的就当我上面的没说。 association study往往是对于comman variants的，最经典的就是用plink。不过plink 也是好复杂的软件，要完全搞明白还是要点功夫的（尤其对于不做bioinformatics的新手）。但是你的确只有9个样本，对于common variants的power可能比较低。但你的优势是你是全基因组序列，所以想必你肯定会有一些rare的东西，甚至 structural variants，可以先关注关注它们吧当然对于worm我是外行。。。【在 g***n 的大作中提到】 : 太感谢了 : 我一共测了9个线虫。phenotype是线虫dauer development的百分比，每个突变体的百 : 分比不一样。 : 我是以一个线虫为基础，做了一些突变体，所以每个线虫都是有血缘关系的。 : 我现在担心的是，样本量可能不够大（一共只有9个基因组），得出的结果是不是不可 : 靠？ : 另外，数据中有差异的snps一共不到1500个，分布在不到400个基因里 : 不知道你有没有相关经验，这样的数据能不能用gwas来分析？ : : effect
u*********1 发帖数: 2518	5 我是以一个线虫为基础，做了一些突变体，所以每个线虫都是有血缘关系的这个在我眼里是多么求之不得的事情。这就好比你做tumor variants的分析，你有 tumor和control，那么这个control样本可以帮你排除掉ＮＮＮＮＮ多的noise；直接看看mutant都出现了什么新的SNP所以导致了phenotype 这是做cancer genomics最爽的地方，因为有天然的control；而我们做一般complex disease的就只能依靠common variants的数据库了。不过我不太明白的是为什么A和Ｂ两个wildtype的phenotype如此不同；既然是wildtype 那genome难道会有很大差别么？（可能是很silly的问题因为我是外行） anyway，先找到只在mut里产生的variants，做点annotation，或许你就已经找到了你想要的东西，不用去care什么association power了【在 g***n 的大作中提到】 : 太感谢了 : 我一共测了9个线虫。phenotype是线虫dauer development的百分比，每个突变体的百 : 分比不一样。 : 我是以一个线虫为基础，做了一些突变体，所以每个线虫都是有血缘关系的。 : 我现在担心的是，样本量可能不够大（一共只有9个基因组），得出的结果是不是不可 : 靠？ : 另外，数据中有差异的snps一共不到1500个，分布在不到400个基因里 : 不知道你有没有相关经验，这样的数据能不能用gwas来分析？ : : effect
g***n 发帖数: 14	6 谢谢你详细的回复我的mutant实际上还有很多noise，原因是我的线虫体外回交成功率极低，这也是为什么而且，我研究的线虫基因组还没有发表，所以也没有common variants数据库了，我这个搞非模式生物的也只能流口水所谓的wildtype A和B，是同一个isolate里发现的，理论上来说genome的variation很小，测序数据也证明了这点其中一个问题是，两个wildtype的差异基因很可能是控制上游表达的，而mutant中的 candidates基本都靠近下游。这是通过研究c elegans的ortholog 得出的结论。但不是很肯定，因为线虫间的差异很大。另外，我手上还有两个wildtype在stage L2的transcriptome，这个stage是所谓 phenotype的决定期。通过分析发现不到30个基因差异表达。有没有什么方法可以把 genome和transcriptome放在一起做个cross analysis的？你上一个回复中提到的structure variation，是指rna的还是蛋白的？是怎么做呢？如果有已经发表的文章，能不能给个链接？多谢了！ wildtype 【在 u*********1 的大作中提到】 : 我是以一个线虫为基础，做了一些突变体，所以每个线虫都是有血缘关系的 : 这个在我眼里是多么求之不得的事情。这就好比你做tumor variants的分析，你有 : tumor和control，那么这个control样本可以帮你排除掉ＮＮＮＮＮ多的noise；直接看 : 看mutant都出现了什么新的SNP所以导致了phenotype : 这是做cancer genomics最爽的地方，因为有天然的control；而我们做一般complex : disease的就只能依靠common variants的数据库了。 : 不过我不太明白的是为什么A和Ｂ两个wildtype的phenotype如此不同；既然是wildtype : 那genome难道会有很大差别么？（可能是很silly的问题因为我是外行） : anyway，先找到只在mut里产生的variants，做点annotation，或许你就已经找到了你 : 想要的东西，不用去care什么association power了

1

(共1页)

进入Biology版参与讨论

相关主题
● 吵起来了，关于GWAS	● GWAS测复杂疾病，测上一万人，靠谱不？
● 也来说说GWAS	● 求教一个GWAS的问题
● what is the connection between linkage disequlibrium and GWAS?	● 新手求教,用什么办法根据genotypes的数据,分析risk hyplotype??
● 如果genotyping结果发现一个SNP不符合HWE说明啥？	● Ask a simple question...
● 应该控制生物新技术的大规模应用	● 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？
● 版上有谁用过或知道Knome这个公司吗?	● machine learning来对GWAS结果建模
● 有没有同学用过一个叫GSEA（gene set enrichment analysis）的分析软件	● 求教：如果SNP在dbSNP里找不到怎么办
● 生物版的都是PI稳拿级别的，应该还轮不到我说话的份	● NGS数据分析的流程

相关话题的讨论汇总
话题: phenotype话题: 线虫话题: variants话题: wildtype话题: 突变体

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)