r**********e 发帖数: 587 | 1 whole-genome数据来call structural variation(SV)和copy number variation(CNV)
一般SV就是三种signal, read-pair(RP), read-depth(RD), split-read(SR)
1000Genome project里用了一些比如Breakdancer,CNVnator这样元老型的软件,但缺
点是都只用一种signal
现在使用combine multiple signal的软件越来越多并且成了主流,比如Delly。Delly
主要是基于SR和RP,当然现在也有了后期基于RD的filter
SV的问题是,SV本质过于复杂,有不同size,不同type的SV,一种signal或者
algorithm很难完全对付,所以sensitivity和specificity都不高(跟SNP calling比起
来);为了得到更好的结果,有两种想法:
1. 对于一个genome,把Breakdancer,CNVnator,Delly等等的结果merge起来;只挑选
出同时被好几种tools支持的SV callings。这个很容易想到,就是用bedtools找
overlap,最后specificity会大大提高,但问题是sensitivity会大大降低
2. 就只用Delly这种先进的软件。比如Delly结果上进一步用RD来filter,让最后结果
是基于SR, RP, RD 三种signal,这样比硬生生的intersect两种不同的tools要温和点
(我个人觉得),或许sensitivity不会那么受到损伤
是不是第二种做法更好呢,尤其如果我现在只研究deletion?不知道自己讲明白了没。
希望听更多高人的指点 |
r**********e 发帖数: 587 | 2 dd
CNV)
Delly
【在 r**********e 的大作中提到】 : whole-genome数据来call structural variation(SV)和copy number variation(CNV) : 一般SV就是三种signal, read-pair(RP), read-depth(RD), split-read(SR) : 1000Genome project里用了一些比如Breakdancer,CNVnator这样元老型的软件,但缺 : 点是都只用一种signal : 现在使用combine multiple signal的软件越来越多并且成了主流,比如Delly。Delly : 主要是基于SR和RP,当然现在也有了后期基于RD的filter : SV的问题是,SV本质过于复杂,有不同size,不同type的SV,一种signal或者 : algorithm很难完全对付,所以sensitivity和specificity都不高(跟SNP calling比起 : 来);为了得到更好的结果,有两种想法: : 1. 对于一个genome,把Breakdancer,CNVnator,Delly等等的结果merge起来;只挑选
|
c*********r 发帖数: 1312 | 3 不懂,帮顶!
顺便问几个naive的问题,不同个体之间的各种SVs大概有多少?这些SVs是不是对于以
后个性化治疗什么的极为重要?
现在哪种测序技术对于准确检测出这些SVs更有优势?Illumina?Ion Torrent? PacBio
? Complete Genomics?其它?数据分析看样子还是一个巨大的挑战?先做de novo
assembly然后和reference比较是否可行? |
r**********e 发帖数: 587 | 4 1. 不同个体之间的各种SVs大概有多少?
SV的问题是,有不同种类deletion,insertion,duplication, CNV, translocation,
inversion, segmental duplication...
而且有不同的size,小的1bp,大的好几MB
这两个维度都是SNP研究里不曾遇到的
如果你要问一个human being有多少SV? 我觉得目前都无法回答。因为目前的研究大部
分还是基于short reads的针对基因组的uniq sequence。真正SV hotspot是repetitive
region,但我们无法研究。当然,对于NA12828,人们做了大量研究,really high-
depth seq, Pacbio long reads,或许对这个样本的总结可以给你答案
所以不管是NGS技术,还是后续的计算,SV都是基因组学最大的难关;而难关中的难关
就是那些repetitive seq。
2. 这些SVs是不是对于以后个性化治疗什么的极为重要
对于非常巨大的比如1MB deletion,一般会造成新生儿的neurodevelopmental defect
,所以这对产检的意义非常巨大的。但是如此巨大的deletion第一少见第二用array这
种传统方式就可以检测到。NGS可以检测比如10KB, 100KB的deletion,但是这样
medium size的deletion对疾病的贡献就需要基础研究了
3. 现在哪种测序技术对于准确检测出这些SVs更有优势?Illumina?Ion Torrent?
PacBio
主流当然Illumina
但是game changer,大革命肯定是long reads。我很久没接触Pacbio了。不知道Pacbio
的error rate是否还那么高
一旦long reads出现,BWA什么的就要被淘汰。我们会回到过去BLAST的时代
PacBio
【在 c*********r 的大作中提到】 : 不懂,帮顶! : 顺便问几个naive的问题,不同个体之间的各种SVs大概有多少?这些SVs是不是对于以 : 后个性化治疗什么的极为重要? : 现在哪种测序技术对于准确检测出这些SVs更有优势?Illumina?Ion Torrent? PacBio : ? Complete Genomics?其它?数据分析看样子还是一个巨大的挑战?先做de novo : assembly然后和reference比较是否可行?
|
c*********r 发帖数: 1312 | 5 谢科普!
我以前也觉得PacBio错误率高,嫌弃它。现在搞明白了,PacBio可以通过对同一个分子
重复测序来correction,把错误率降到非常低。但是PacBio成本比较高,比Illumina还
是贵不少。不缺钱的话应用PacBio可以做不少事情,de novo assembly在好几个物种里
一个染色体就是一个contig,在人里边还是差一些但是比illumina要厉害。
等PacBio成本降下来了,肯定对SV研究会有新的方法和认识。
translocation,
repetitive
【在 r**********e 的大作中提到】 : 1. 不同个体之间的各种SVs大概有多少? : SV的问题是,有不同种类deletion,insertion,duplication, CNV, translocation, : inversion, segmental duplication... : 而且有不同的size,小的1bp,大的好几MB : 这两个维度都是SNP研究里不曾遇到的 : 如果你要问一个human being有多少SV? 我觉得目前都无法回答。因为目前的研究大部 : 分还是基于short reads的针对基因组的uniq sequence。真正SV hotspot是repetitive : region,但我们无法研究。当然,对于NA12828,人们做了大量研究,really high- : depth seq, Pacbio long reads,或许对这个样本的总结可以给你答案 : 所以不管是NGS技术,还是后续的计算,SV都是基因组学最大的难关;而难关中的难关
|
r**********e 发帖数: 587 | 6 What's the average length of contig in Pacbio?
I remember like 10KB?
Maybe I'm too out-dated
If it's only 10KB....well think about human chromosome1, 100000kB level?
【在 c*********r 的大作中提到】 : 谢科普! : 我以前也觉得PacBio错误率高,嫌弃它。现在搞明白了,PacBio可以通过对同一个分子 : 重复测序来correction,把错误率降到非常低。但是PacBio成本比较高,比Illumina还 : 是贵不少。不缺钱的话应用PacBio可以做不少事情,de novo assembly在好几个物种里 : 一个染色体就是一个contig,在人里边还是差一些但是比illumina要厉害。 : 等PacBio成本降下来了,肯定对SV研究会有新的方法和认识。 : : translocation, : repetitive
|
c*********r 发帖数: 1312 | 7 PacBio P6-C4 单个read读长可以达到50%大于20KB
组装的contig长度最长能达到多少我不知道,和测序深度有关。人的染色体50M到300M
大小。目前还没有见过de novo assembly可以组装成完整染色体的。
单看de novo assembly,PacBio完败Illumina。
【在 r**********e 的大作中提到】 : What's the average length of contig in Pacbio? : I remember like 10KB? : Maybe I'm too out-dated : If it's only 10KB....well think about human chromosome1, 100000kB level?
|