第3页 - 关于snps的讨论汇总 - 话题女王

u*********1
发帖数: 2518

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

非常同意。
直接把你的sam用samtools来call SNP
请看：
http://samtools.sourceforge.net/mpileup.shtml
就是那个samtools/bcftools的两个command，得到一个vcf file
然后用annovar来对比这个vcf file和你的old database
貌似都用不到bedtools

c*****g
发帖数: 66

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

多谢你的baozi！
应该不会有问题，你试试就知道了。大不了sort一下。
我猜想你应该没有单个个体的sequence data在B人群里。
如果是这样的话，那些SNP caller都不顶用的。你需要自己pileup了之后去看具体的序
列是不是有变化。pileup就是做你讲的一个个alignment地check制定位置的碱基，不用
你自己再写程序做了。

a**m
发帖数: 184

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

现在call snp已经很成熟了吧。光看你列这些软件就知道了~

，C

a**m
发帖数: 184

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

现在call snp已经很成熟了吧。光看你列这些软件就知道了~

，C

g*****g
发帖数: 78

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

For SNP calling, there is a better one came out recently:
http://www.nature.com/ncomms/journal/v3/n12/abs/ncomms2256.html

l******o
发帖数: 3764

来自主题: Biology版 - 求教：如果SNP在dbSNP里找不到怎么办

没有，跟本就没有supplementary material
说留一手也不成立啊，位置和突变都给了，没有什么可保密的了
我们是做群体遗传的，我本来是想看看这两个snp的frequency, 结果dbsnp里竟然没有
所以怀疑是否自己有什么地方理解有误

d******y
发帖数: 11545

来自主题: Biology版 - snp序列中的U和H是什么？

在snp序列中出现了U和H，H是不是应该是杂合性，对应H=（A/T/C），那U是不是可以看
作T？我没有找到U所代表的简并碱基。
谢谢。

D*a
发帖数: 6830

来自主题: Biology版 - 请教一个统计学问题，需要多少个SNPs去鉴定一个人

为什么要用SNPs鉴定而不用STRs

D*a
发帖数: 6830

来自主题: Biology版 - 请教一个统计学问题，需要多少个SNPs去鉴定一个人

STRs的话不就是亲子鉴定了，现在流行的就是十几个位点，就够了，这方面应该有不少
资料看怎么算出来。
如果是单个SNP的话应该每条染色体有ATCG四种选择（理论上），然后人两条染色体就
是4选2=6，单个位点有六种选择，也就是能把全世界人分成6份，两个位点就是6*6，能
把全世界人分成36份，然后就是6的？次方= 70亿
我的思路。

h**********n
发帖数: 506

来自主题: Biology版 - 请教一个统计学问题，需要多少个SNPs去鉴定一个人

您没做过SNP吧这理论上有错啊

a********k
发帖数: 2273

来自主题: Biology版 - 请教一个统计学问题，需要多少个SNPs去鉴定一个人

STR的方法简单，成熟。SNP目前还是比较有难度的，不过doable。

D*a
发帖数: 6830

来自主题: Biology版 - 请教一个统计学问题，需要多少个SNPs去鉴定一个人

哦对，我想错了。
hetero可以再详细分么？比如如果是A/C,按照测序原理会不会看出来是爸爸是A还是妈
妈是A？还是只能看出来是hetero呢？

X
SNP

g*****n
发帖数: 241

来自主题: Biology版 - 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？

别人介绍了这个方法给我： “C. elegans mutant identification with a one-step
whole-genome-sequencing and SNP mapping strategy”，看上去不错，不知道版上有
没有人用过这个方法找出forward genetic screen里筛到的mutant？这个方法是否容易
，或者有没有什么瓶颈？
谢谢

f****y
发帖数: 13

来自主题: Biology版 - 做线虫的有人试过WGS+SNP的方法一步测序出mutant吗？

理论上是的，但实际很困难。因为当你比较诱导突变型和野生型，你肯定可以发现上千
的SNPs,所以需要传统的遗传基因定位法。当然虫子容易拿到突变体，如果你能同时拿
到5，6个同基因不同的alleles,还是可能不需要定位了。

step

W****7
发帖数: 426

来自主题: Biology版 - 求教怎么深入研究snp的功能

多谢楼上的兄弟！经你指点，用网站查出来所有snp都在intron。能否麻烦你把这个最
复杂的情况再说详细点？先奉上十个包纸哈。

x*****d
发帖数: 704

来自主题: Biology版 - 求教怎么深入研究snp的功能

没有什么特别好的办法。先把SNP的位点找出来，然后在UCSC genome browser里面看一
下在不在mirna里面。其他functional study你就得查查文献看之前有没有人做过。

c***y
发帖数: 615

来自主题: Biology版 - 有人能帮助解释下什么是 homoplastic snp 吗？

那具体一个snp, 怎么知道是不是homoplastic? 软件给出了个结果，但是没有具体解释
。。。

c***y
发帖数: 615

来自主题: Biology版 - snp density 的问题

genome 一段800 bp 的区间，有十几个snp, 有同事说太多了。到底多少正常啊？

c***y
发帖数: 615

来自主题: Biology版 - snp density 的问题

能具体说说吗？
我是刚开始接触snp data, 很多概念还很糊涂。。。

c******o
发帖数: 1184

来自主题: Biology版 - snp density 的问题

snp 多的发指，有些区域maping经常会出问题

c***y
发帖数: 615

来自主题: Biology版 - snp density 的问题

如果不是基于mapping, 而是k-mer的SNP call呢？

c******o
发帖数: 1184

来自主题: Biology版 - snp density 的问题

一个probe的长度内可能有多个SNP，有的位点在人群中两种以上

A*F
发帖数: 2272

来自主题: Biology版 - 需要多名peer reviewer (GWAS, SNP analysis)

需要多名reviewer，稿件是关于GWAS和SNP分析
需要有相关领域特别是bioinformatics的相关经验
请把cv或者发表文章列表发到[email protected]
谢谢

F**********t
发帖数: 47

来自主题: Economics版 - 有人了解 Ronald Gallant 的 SNP 方法吗？ (转载)

http://public.econ.duke.edu/~get/snp.html
他在 Duke，　ＮＹＵ　和　University of North Carolina at Chapel Hill　开过这
方面的课，
有人了解吗？
我还是一个在校学生，　正在看他的论文，以及这方面的文档，　因为没有Ｃ＋＋的基
础，所以看起来很慢。
有人知道，并且愿意一起讨论的话，　请站内联系。
如果，你在美国东部，可以请吃饭。
谢谢！

F**********t
发帖数: 47

来自主题: Quant版 - 有人了解 Ronald Gallant 的 SNP 方法吗？

L*******t
发帖数: 2385

来自主题: Quant版 - 有人了解 Ronald Gallant 的 SNP 方法吗？

Gallant和Tauchen写过一系列SNP的paper。我Email过Chernov，他说这个方法是在“
Dark age”当没有更好方法的时候才发明的。
而且这个方法的硬伤是有curse of dimensionality，你的数据用的很多的时候，方法
会变得异常慢，而且编程实现很有困难。
推荐你看看Andersen, Fusari, Todorov 2012的文章，如果你想用这个fit期权数据的
话。。。

j*******s
发帖数: 74

来自主题: Quant版 - 有人了解 Ronald Gallant 的 SNP 方法吗？

他们的EMM方法里好像主要用到的就是这个snp。我也一直想搞懂他们的code，可是还没
有读懂。

F**********t
发帖数: 47

来自主题: Quant版 - 有人了解 Ronald Gallant 的 SNP 方法吗？

是的，SNP和EMM有用C++写好的程序，
我现在就是想搞清楚怎样用这两个程序。
可是，我以前用 SAS和matlab，从来没有用过C++，所以很头疼。

j*******s
发帖数: 74

来自主题: Quant版 - 有人了解 Ronald Gallant 的 SNP 方法吗？

一点没错。我说的就是他们的C++写的SNP和EMM的code。
到现在还没有读懂，也不知道怎么用。
希望有大牛能指点一下。呵呵

p********a
发帖数: 5352

来自主题: Statistics版 - [合集] 请教如何分析tag SNPs 以找出和疾病相关的Markers

☆─────────────────────────────────────☆
magnitude (难以释怀) 于 (Mon Jul 14 13:32:54 2008) 提到:
现有几组数据, 信息包括family ID, Individual ID, disease status (case-control
),gender, Markers information (ID,Chromosome,physical distance),genotype for
markers (tag SNPs).
请教一些问题:
1)数据量很大,该选择什么软件做?SAS 还是R, 或者别的更好的软件?
2)如何确定是哪种 associate study design? (Population-based case-control还是
family-based association)?
3) fam49 ind49 A/A
A/A T/C T/T

l******o
发帖数: 3764

来自主题: Statistics版 - 也弱问一个SAS里面genotype/SNP variable recoding的问题

一百个snp都手动一加一除？

n*****t
发帖数: 41

来自主题: Statistics版 - 去哪里下载 1 million affymetrix SNP 的数据？

谢谢楼上，我想要得是数据，不是自己要做试验。具体说就是想要一百万个SNP上的
allele frequency 和这些的位置。象hapmap或 welcometrust 这样的机构做过分析的
。

i*q
发帖数: 2288

来自主题: _DC版 - 2009.10.25 SNP看红叶 - 改在周日

由于天气不可抗拒因素，SNP看红叶活动改在周日。
请大家重新计划这个周末的安排。有所不便，还请见谅。

i*q
发帖数: 2288

来自主题: _DC版 - 2009.10.25 SNP看红叶 - 改在周日

那个小组好象是台湾的或者香港的。
下面是一路上hiking trail。你可以选一些简单的。呵呵
在我们的共享页面上有更加详细的介绍(SNP marks页面)。
============================================
Trail Location Length Time Height difficult
Dickey Ridge 5 Picnic
Fox Hollow Nature 5 1 1.3 310 Easy
Hickerson Hollow 9 2 2.5 940 Fairly easy
Compton Peak 10 2 2.5 940 Easy to moderate
Overall Run 22 6 5.5 1200 Moderate
Traces Nature 22 2 1.5 335 Easy
Little Stony M

g*****9
发帖数: 4125

来自主题: _DC版 - 2009.10.25 SNP看红叶 - 改在周日

Stony Man Mountain trail in SNP, pick a haze free day, I am sure
you will enjoy the view and the hike.

i*q
发帖数: 2288

来自主题: _DC版 - 2009.10.25 SNP看红叶 - 改在周日

由于天气不可抗拒因素，SNP看红叶活动改在周日。
请大家重新计划这个周末的安排。有所不便，还请见谅。

k***x
发帖数: 6799

来自主题: _DC版 - [2011/07/16] Overall Run/Beecher Ridge - SNP

要是有人有兴趣来个比较有挑战性的，老夫也是非常欢迎的
http://www.hikingupward.com/SNP/ThePeak/

S*****3
发帖数: 720

来自主题: Biology版 - (ZT) 2008中国百篇最具影响国际论文（生物类）

“中国百篇最具影响优秀国际学术论文” 评选所选论文代表了我国科技论文发展的最
高水平。论文源为前一年被SCI（科学引文索引）收录的中国论文。评选综合考虑发表
论文的期刊水平（影响因子和单篇引用次数）、论文类型、热点论文、论文的合作强度
、参考文献数和论文的完整性等方面。
其中生物类包括：
论文题目: Acute promyelocytic leukemia: from highly fatal to highly
curable
论文作者: Wang, Zhen-Yi; Chen, Zhu
所属机构: 上海交通大学医学院瑞金医院
来源期刊: BLOOD, 2008, 111(5):2505-2515
被引次数: 29
作者简介：
陈竺
卫生部部长，中国科学院院士，博士生导师
白血病系统生物学研究组组长
论文题目: Sorting of small RNAs into Arabidopsis argonaute complexes
is directed by the 5 ' terminal nucleotide
论... 阅读全帖

b****r
发帖数: 17995

来自主题: Biology版 - 请教neurogenomics职业规划

de novo SNP 是啥？既然叫做polymorphism，那人群里起码1%，de novo怎么可能有这
么高的频率
你说SNP有small effect，理论上当然可能性是存在，但是我刚说了，起码目前做了这
么多GWAS，重复性就是非常差，绝大部分在功能上也没能解释，这个是目前的事实
至于将来的发展，还是我前面说过的，没人能预料，最安全的搞法，只能不把自己钉死
，啥热就搞啥，还有就是和医生联系起来，最好自己能拿到标本。只能仰人鼻息
至于copy number，现在做的工作还是相当少的，远远不如GWAS那种水平，你不要急于
下结论。做法的话，如果你先想到的是NGS，显然你还相当不了解这个领域，这也从另
一个角度说明了这个领域还是比较有东西可挖的。用CMA或者SNP array都可以call
copy number variation,而且比NGS便宜太多了，分辨率也不是什么10M，现在几百K可
以说很容易call出来，几十K也是常有的事。当然，现在主要还是针对基因区域。我在
clinical lab，CMA发现基因缺失或者gain并能够解释病因的比例不能说低，加上便宜
，现在来个疑... 阅读全帖

发帖数: 1

来自主题: Biology版 - [原创科普文] 生物学中的深度学习

"知道哪些问题重要哪些问题不重要，再这些重要的问题里，哪些问题是可以通过deep
learning解决的"
“bioinfo大量的精力其实浪费在寻找有效的feature上了”
我觉得这像一个哲学问题。
input: 血压数据 ------output：病人是否高血压
input: 血糖数据 ------output：病人是否糖尿病
input: 图像pixel ------output: 人脸识别这个是谁？
input: 遗传SNP ------output: 这个人会不会得帕金森？
对于任何新的问题/data，是不是我们都先blind的在training data上尝试各种
modeling？线性的非线性的；如果input和output真的有逻辑关系，那么至少会有一种
technique在test data上展现出很好的performance。
（当然参数的调试，甚至一开始选择哪种machine learning/deep learning手段这是另
外一个问题，可以另开个帖子）
如果尝试过很多，还是没能找到表现优异的model，
1. 是不是我们就认为input和output没... 阅读全帖

wm
发帖数: 28

来自主题: History版 - 复旦明召开发布会欲说明“曹操染色体检测”课题可行性 zz

父传子过程中，每一代都会在Y染色体上出现2到3个SNP变异。兄弟之间也会有2到3个不
同的SNP。如果是曹操兄弟的头盖骨，他上面的几个独特的SNP必然会在他的后代中出现
。现在如果夏后氏和曹氏经过检测果真出现了一个从不同分支汇聚到一点的谱系分支（
共祖出现在1800年前左右），那这个分支必然带有其直系父系的所有SNP。理论上，根
据SNP变异速度，加上家谱所记的世代数（可以通过不同分支互相验证这个世代数），
SNP的个数也是能够用来确定这个遗骨主人到底是曹操还是曹操儿子的。
这个SNP时钟非常精准，再加上可以用STR进行佐证，只要测出足够多的序列，一定可以
把这个问题搞个水落石出。

t**k
发帖数: 16

来自主题: Biology版 - 哪位老师用简单的几句话，指点一下conditional assay.

PLINK 里面可以作一种叫做condition的分析，我感觉上好像是这样：
condition 某一个snp-A，来看其它snps的 p value变化，
用来分析假定某个snp-A无显著性差异的情况下，其它snps的p value变化，用来解释，
另外snps的差异是由于本身差异
还是由于和snp-A 的 correlation造成的
还有一种haptype condition 不明白是干什么用的！请高人们指点一下，这些东西能
干什么？
p value应该都是单独marker 自己比较出来的， condition A 观察 B 的变化，和
condition B 观察 A 的变化有什么不同
么？
新人不胜感激！

l**********1
发帖数: 5204

来自主题: Biology版 - Re "关于将来提高cancer治愈率的一个粗略预期"

Sure
Sampling Tumor gDNA can not satisfied
Illumina high density SNP arrays while it below 5 ng even from 2015
now 2010 is 200 ng one sample
pls refer:
We also routinely run the high density array technique to genotype up to 1
million snps per subject. The available platform is from Illumina and is
able to generate genotypes for up 300-750 subjects per week depending on the
type of array chosen.
Required material 200 ng DNA per sample
Reaction format 96 wells
Detection machine iScan b... 阅读全帖

u*********1
发帖数: 2518

来自主题: Biology版 - 大家对NGS的发展如何看？

貌似你说的coverage是，比如你SNP calling一共找到了多少SNP
call出来的SNP越多，那么false positive的几率就越高
然后我们附加一个additional filtering，可能SNP总量就少很多，增加了可信度，但
同时may lose some power(sensitivity)
这个我很赞同。
但很多的project，我们要找的是rare SNP；对于那些很真的rare SNP，不管你如何调
节这个“coverage”，those rare stuff are always at the top of the list.
另外我很赞同的是，未来computer硬件是个大问题。人类基因组太大，TB级别的
cluster已经不够用了，或者用起来很痛苦

garbage

u*********1
发帖数: 2518

来自主题: Biology版 - 请教neurogenomics职业规划

你说的common SNP估计是GWAS的结果吧。
我才入行一年，正好碰到sequencing这个潮流，所以直接关注的都是rare mutation；
对于complex disease，基本上现在exome seq做的多的就是rare/de novo SNP，认为他
们有large effect size，可以解释autism这样幼儿疾病；这点我个人是很相信的。但
过去的GWAS所有的common SNP就都没意义吗？我觉得有些common SNP对于疾病的
susceptibility还是有贡献的，只不过是small effect size。。。所以我觉得如果有
足够多的样本，每个样本都有序列（目前当然不可能），完全可以做个sequencing-
based的association study。
其实我倒巴不得测序成本降低的慢点，这样做我们这行的就不会太吃力，有更多的时间
来“忽悠”。比如现在你要再起步做exome sequencing就都已经晚了，因为做的人已经
太多太多了。
但其实我个人觉得测序成本降低的很快，所以很快就可以做很多的whole genome
sequencing... 阅读全帖

s*****3
发帖数: 20

来自主题: Biology版 - 怎样检测一个基因的变异与疾病的关系

Here are my 2 cents.
1) If you only look at one or a few SNP(s) for that gene, Taqman SNP
analysis (in 384-well or even in 96-well format) can be your choice. This is
much
cheaper and faster than Sanger or NGS.
2) If you look at 10-100 SNPs, Openarray SNP analysis (using OpenArray or
Quantstudio) can be your choice.
3) If you look at a large number of SNPs, e.g >100 SNPS (though I doubt it
since you only look at one gene), you could consider NGS target resequencing
such as Ion Torrent custom Am... 阅读全帖

发帖数: 1

来自主题: Biology版 - 关于biological vs technical replicate

allele: one of a number of alternative forms of the same genetic locus (from
wiki)
人是diploid，所以对于每一个人来说，每一个genetic locus上都有两个allele（XY除
外）。
allele是对于haploid genome来说的，对于人来说称作genotype更合适，例如AA Aa/aA
aa是三种genotype。楼主说的检测不同allele，我的猜测是检测携带homozygous AA/
aa genotype（而非allele）的细胞，因为细胞不可能是单倍体（除生殖细胞）。
SNP不止存在AT和GC变换，可以从ATGC中的任何一个变到ATGC中的任何另一个，有
transition和transversion的区别。
一个allele，可能存在多个snp吗？
这里概念搞错了。SNP是指一个位点上在群体里有不同的allele，比如你带AA，我带Aa
。而allele指的是A或a。
如果你的问题是，一个SNP，可能存在多个allele吗？当然可能，有tri-allelic的SNP
的... 阅读全帖

V****n
发帖数: 651

来自主题: History版 - YDNA为O不是中国人甚至东亚人的充分条件或必要条件

一个金发碧眼的YDNA为N的芬兰人，你会把他当作东亚人吗？
一个YDNA为O3,100%的中国人娶个100%白人女子，然后升个儿子，儿子继续娶个100%的
白人女子，持续10代，第十一代的男性后代直剩下1/1024的中国人基因，尽管他的YDNA
还是O3，你说他是中国人？
23andme基因测试，根据的是比较成千上万的SNP，每一个SNP都跟发生在Y染色体上YDNA
的单个SNP变异一样，不同的是绝大多数发生在autosome上。东亚人之间平均共同拥有
比如10000个SNP，跟尼人一样的有300个，那么东亚人携带3%尼人基因。欧洲和非洲人
群都拥有发生在23对染色体各个位置上的独特的成千上万个SNP变异。
每个人有30亿个碱基对，拷贝出错的频率在千万到亿分之一，也就是说每个人都有几十
个到几百个跟父母完全不同的碱基对变异。所以变异是常态，YDNA和MTDNA被研究的多
，无非是因为发生在性染色体上，是唯一可能被追踪研究的变异而已。而且所谓追踪，
对于一个男性指的是你可以查到300年前10代1024个祖宗里的一个而已，其它1023个除
非你有家谱否则根本无从知晓。亦是说你也一样继承另外... 阅读全帖

l****z
发帖数: 29846

来自主题: USANews版 - 英国议会选举结束, 保守党大胜

The UK results are in. The pollsters could not have been more wrong. The
expected result was a close vote and a hung parliament. Instead, Labour and
the Liberal Democrats got pounded. Here are the Final Tallies from the
Guardian.
In a surge of nationalism that will likely lead to a call for another
independence referendum, the Scotland National Party (SNP) won 56 seats of
59 seats.
Nigel Farage did not win his seat, but he will be around. So will UKIP. It
appears UKIP did not take votes from the... 阅读全帖

t**x
发帖数: 20965

来自主题: USANews版 - 这两天没有跟川粉切磋，想问一下川粉搞遗传的多吗？

看一些数据怪怪的，觉得这个世界有大阴谋。
变异吗，外行不知道觉得很可怕，其实内行应该都知道snp算个啥，屁都不是，怎
么会那么容易出事。所以snp看见了根本不当回事。lab不报我家孩子的变异也无所谓
，我知道作假就行了。。
问题是既然snp不是回事，他妈的为什么数据库里面的很多snp就直接标记成
pathogenic的，怀疑我还得学学。。我很笨不懂。
可是这么报出来对于我这种半懂不懂的就看着还不舒服。因为snp很容易发生，又这
么乱报，是不是可以有组织的把一些黄种人突变，虽然是良性，也可以说成是容易
自杀，消极怠工，等等。同样，也可以把坏的说成好的，基本就是医生随便放屁都
行。反正医生胡说，猥琐男发文章，大家骗钱。最后美国的数据库 clinvar 就是
最大的垃圾场。
整个就是trash。整个美国的遗传学其实彻底烂透了，当然搞这行的不愿意承认。不
过我觉得越来越象这么回事。
问题是胡搞还行，就怕有计划地消灭一些人。比如天天说你是某个病，有基因，妈
的一切符合程序，你就相信了，然后就吃药，最后就真翘辫子了。。
比如我家儿子，... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天