由买买提看人间百态

topics

全部话题 - 话题: 1000genome
1 (共1页)
r**********e
发帖数: 587
1
来自主题: Biology版 - 请教染色体易位
说下我的comments吧
DELLY其实是比较新的软件,综合了paired-end discordant和split-read两种signal来
make calls,自然是不错的,而且也是1000genome使用的软件之一,而且最后结果提供
vcf format
SV领域最早最原始的三个软件,我个人认为的,read-depth的CNVnator;discordant的
breakdancer;以及split-read的Pindel;后续陆陆续续出来了很多类似软件,其实大
同小异,很多都是为了发文章而发文章的trash paper。上面说的三个软件,虽然都是
基于一种signal,但都算元老,1000genome使用的软件,而且关键是有四五年历史,很
多人使用,所以一直在update,debug,maintain,使用起来比较上手。但CNVnator是
不可能计算translocation的,Pindel可以找到translocation但Pindel是针对比较小的
structural variation,因为big SV的computational cost太高
还有一个超级好的... 阅读全帖
u*********1
发帖数: 2518
2
作为一个曾经0基础的菜鸟,我还是蛮有体会的。
想想一年前我连linux里的grep都不晓得是啥。老板说“grep”,我说gre。。啥?greb
吗?老板摇摇头说you really have a lot to learn...不过老板超好,想办法给我把
各种基础的东西讲清楚。。。包括RAM是啥。。汗。。。
做NGS/bioinformatics的,我觉得核心思想还是:如何利用计算机手段解决生物问题。
说起来简单但未必每个人都深刻体会的到。什么python/bash/perl啥啥的,要入门很快
,但也绝对不是什么两个星期就搞定。我现在和python打交道也一年了,但也完全就是
个皮毛,主要是你自己的project决定的。。如果你永远只需要简单的process下你的
text,而且text如果不大比如100MB,你可以永远for line in text。。或者readlines
(),但如果碰到很大的text,就不能readlines()了因为cluster可能没有那么大的
memory to load the whole text.
所以我觉得就是现学现用,除非你是CS系科班搞计算出身... 阅读全帖
g*********3
发帖数: 177
3
来自主题: Biology版 - Pardis Sabeti真人生赢家啊
都啥跟啥啊。。。。
她和Eric lander一伙的 你说是不是体制内
她是很牛逼 不过也是赶上了时代。她的那篇science paper在固然牛逼,但其实新意也
不是那么大,也就是将三种算法(已经用了很久了)整合起来。
后来harvard找她,Eric起了很大作用(慧眼吧):1000genome出来了,她在
1000genome里面再弄一遍,又有好几片paper.
如果拼实力,华人里面功底比她好的很多。但就是命好。
伊朗和以色列在boston一块混得好的很多。
g*********3
发帖数: 177
4
来自主题: Biology版 - Pardis Sabeti真人生赢家啊
她前一段研究集中在positive selection: 其中的 haplotype range, frequency.etc
这些方法其实都不是她原创。不过02年的nature(我说错了不是science:))算是第一
次将这三种方法结合起来,但也是小规模。
后来有了1000genome,她的paper紧随其后,应该是1000genome的data她能实时拿到吧
,不然不可能这么快。她的方法在大规模的数据上用了一遍,发现了很不错的结论。
不过LS的说的很对,招她看的是潜力,确实是这样的,因为她做的一系列工作positive
selection随着NGS的出现而有一系列的发现是很显然的。
LS说的关于病毒方面的研究我确实不知道,但是她的malaria工作确实展开很久了,这种
host-infection.etc coevolution确实很有意义
n******7
发帖数: 12463
5
CNV我最近在做,刚处理了一下1000genome的数据。别的不说,NGS分辨率是1bp,
microarray根本
不能比
n******7
发帖数: 12463
6
CNV分析我刚接触,不知道怎么比较sequencing和microarray检测出来的质量,
1000genome的文
章有详细的方法叙述,感兴趣可以看看
分辨率对我们来说很重要,因为我们需要精确的知道break point。 microarray的分辨
率是500左
右,比很多exon都大了。。。
g*********d
发帖数: 233
7
check and see if they have the same SNP done
1. GWAS has more than 1000 samples
http://grants.nih.gov/grants/gwas/
2. 1000 genome project has good coverage
http://www.1000genomes.org/
e*****t
发帖数: 642
8
我的意思是说DNA seq。他们这些数据都是加工过的啦。如果有原始的测序,像
1000genome,那样。我们也可以做一些bioinfo的分析。
t**k
发帖数: 16
9
haploview虽然能给出一些risk haplotype, 但是老板让我作功能相关的研究,验证这
些结果,非常挠头,不知道从哪里下手,有人跟我说,针对p值高的分析一些dna 蛋白
结合,EMSA, 但是我感觉很多SNPs都很难说,有点瞎猫碰死耗子的感觉。
老板一心想深入下去,而且还在作进一步的sequencing,并且给我很多比hapmap和
1000genom project 里面更全的genotypes data。 弄得我都不知道怎么利用这些东西
了。
l**********1
发帖数: 5204
10
来自主题: Biology版 - tools to open GFF3 or GVF files
GVF2VCF
GVF to VCF file converter (currently beta)
The Genome Variation Format (GVF) is a file format for describing sequence
variants at nucleotide resolution relative to a reference genome. GVF dumps
are available from the Ensembl FTP site. However, many tools prefer to use
the 1000 Genomes VCF format (e.g. Genome Analysis Toolkit), so a converter
is often needed. This converter currently only supports output in VCF v4.0.
Large, inexact structural variants will therefore be skipped (v4.1 of VC... 阅读全帖
u*********1
发帖数: 2518
11
来自主题: Biology版 - 大家对NGS的发展如何看?
我觉得要考虑几个方面:
1.如何定义“遗传因素比较大”? 想确定到底是familial还是sporadic,肯定要收集
足够的sample吧。。有时候对于有的疾病sample都很难收集。这不仅是人力,精力,
funding的问题,有的疾病病人死的很快,或者sample本身很少,总是很难碰到一个好
的大的pedigree的
2.NGS技术本身我当然是很看好的了,肯定越来越精确成熟,而且越来越便宜。但到底
能有多便宜?什么时候可以很轻松的给每个人做全基因组测序?read length可以达到
长?(肯定是越长越好)计算机的硬件能跟上NGS数据发展的趋势吗?
3.生物信息分析。我只能说现在的bioinformatic pipeline,除了read alignment和
SNP calling变的非常成熟(不仅sensitivity/specificity很高,而且可以做
population-level的分析),在其他方面,要么很艰难,要么很混乱。就是说无法达成
一个统一大家公认的最好的pipeline,我开发一个方法,你开发一个软件,最后把使用
者都搞的糊里糊涂的。比如indel cal... 阅读全帖
b****r
发帖数: 17995
12
来自主题: Biology版 - 请教cancer genomics的牛牛们
你应该到ESP ARIC 1000genome等群体数据库看看,也许是因为正常人里太常见?
b****r
发帖数: 17995
13
来自主题: Biology版 - 请教大家一个技术路线的困境
比如其中一个data是一种dyskinesia,就是某种异常神经放电造成的疾病
遗传方面的东西还是不会有什么问题的。是个大家系里先连锁再测序发现的,LOD>3。
Case control和GWAS的data那确实很多都难说,我目前没有打算往那方面做
这个突变是truncating mutation,造成premature stop codon,因为在外周血不表达
,还不知道会不会non sense mediated decay。ESP6500和1000Genome 都没有。而且老
鼠KO也有一点类似表型,in vitro也有几篇JBC之类的文章证实和sodium channel互相
作用
其实如果能再发现个家系,直接就nature genetics或者AJHG了,只是好家系这东东像
你说的,再找个真不容易,万一让人家抢先了可惜,能加点功能的先发了也好
u*********1
发帖数: 2518
14
来自主题: Biology版 - Translational research 就是个破筐
其实translational research这个词,一方面强调了研究应用化,另一方面也算个空话
可以钻很多空子。我眼里的translational其实可以囊括basic research以外的所有研
究,比如clinical research/biostat/药物/engineering,甚至包括我自己这种用病人
样本但还是基础手段做disease研究的。总之最后目的还是治病救人;要translational
肯定离不开basic science;但一味basic最后也就很容易陷入拼figure,纠结detail的
泥潭。
但我要说,从不同角度看同一个主题,还真是不一样。
比如neuroscience vs neurology,过去刚入行的时候觉得这俩应该肯定有很多
overlapping吧,但XX-ology就真的是想方设法,动用各种手段来了解disease本身,一
个有影响力的MD老板,手上有样本有资源,就可以招各路神仙,有做genetics的,做
bioinformaitcs/测序的,做RNA的,做protein structure的,做老鼠的,做signaling
path... 阅读全帖
s*********x
发帖数: 1923
15
hg16?
at least hg19 and there is a version used by 1000Genome
h****n
发帖数: 333
16
来自主题: Biology版 - 有没有autism exome database?
像1000genome,NHLBI ESP database那样的public exome database,针对autism的,
有吗?
在Simons Simplex Collection 看了一圈,没找到exome data
也不知道是不是我找错地方了。多谢!
h****n
发帖数: 333
17
来自主题: Biology版 - 有没有autism exome database?
像1000genome,NHLBI ESP database那样的public exome database,针对autism的,
有吗?
在Simons Simplex Collection 看了一圈,没找到exome data
也不知道是不是我找错地方了。多谢!
n******7
发帖数: 12463
18
来自主题: Biology版 - 转行 bioinformatics

1. 这波NGS(还有三代测序TGS)热,我觉得会比microarray热持续的更久也更有前途一
些。不知道你怎么看?microarray的兴衰,对NGS/TGS的发展有什么启示?microarray
的衰落基本上是和NGS的发展有关,那么NGS/TGS的衰落会由什么新兴技术造成?
----
如果没有NGS,microarray现在依然会很火。个人认为NGS是继PCR之后对生物医学科研
影响最大的技术,也是最能体现bioinfo价值的技术。我是all-in了。
----
2. 关于“生物信息的projects大致分两类”,这两类有没有可能结合起来?我也特别
喜欢研究问题。我总觉得生物学领域有很多很有意思的课题,我是做Evo-Devo的,接触
过很多很有意思的模式/非模式生物和系统。我总觉得如果能深入挖掘的话,会有不少
有意思的东西。但是我技术不够,所以从NGS开始在一点点学习方法和技术,以后想把
统计、编程、算法等方面再加强一下。我尝试过拉着CS科班出身的同学来研究Biology
,结果不太成功。。。而且自己的性格也是,自己学明白了,用着才舒服。所以想探讨
一下有没有方法真正的把开发... 阅读全帖
n******7
发帖数: 12463
19
来自主题: Biology版 - 转行 bioinformatics

1. 这波NGS(还有三代测序TGS)热,我觉得会比microarray热持续的更久也更有前途一
些。不知道你怎么看?microarray的兴衰,对NGS/TGS的发展有什么启示?microarray
的衰落基本上是和NGS的发展有关,那么NGS/TGS的衰落会由什么新兴技术造成?
----
如果没有NGS,microarray现在依然会很火。个人认为NGS是继PCR之后对生物医学科研
影响最大的技术,也是最能体现bioinfo价值的技术。我是all-in了。
----
2. 关于“生物信息的projects大致分两类”,这两类有没有可能结合起来?我也特别
喜欢研究问题。我总觉得生物学领域有很多很有意思的课题,我是做Evo-Devo的,接触
过很多很有意思的模式/非模式生物和系统。我总觉得如果能深入挖掘的话,会有不少
有意思的东西。但是我技术不够,所以从NGS开始在一点点学习方法和技术,以后想把
统计、编程、算法等方面再加强一下。我尝试过拉着CS科班出身的同学来研究Biology
,结果不太成功。。。而且自己的性格也是,自己学明白了,用着才舒服。所以想探讨
一下有没有方法真正的把开发... 阅读全帖
r**********e
发帖数: 587
20
来自主题: Biology版 - 请教染色体易位
If you mean inter- or intra- chromosomal translocation, many structural
variation/SV software could help you
Breakdancer/CREST
Genome Strip
Delly
If I'm correct, Breakdancer/CREST specifically designed for tumor/matched
control; mostly because translocation is usually seen in cancer but not
other disease
个人觉得现在NGS 各种SV的软件挺多的,也用了一段时间了,随着1000genome完工。但
五花八门,用起来寻找想要的数据还真是不那么容易的,毕竟这种东西比SNP复杂的多
的多的多的多
r**********e
发帖数: 587
21
看到一堆whole-genome sequencing寻找structural variation的文章,但大部分的都
是methodology;然后1000genome测了几千个正常人的SV
但我搜了半天都几乎没看到有什么具体的disease(貌似有几个cancer tumor的),说
某个病通过WGS寻找到新的SV的。(已知SV然后验证的不算)
或许是我搜索能力太差?
谢谢
r**********e
发帖数: 587
22
whole-genome数据来call structural variation(SV)和copy number variation(CNV)
一般SV就是三种signal, read-pair(RP), read-depth(RD), split-read(SR)
1000Genome project里用了一些比如Breakdancer,CNVnator这样元老型的软件,但缺
点是都只用一种signal
现在使用combine multiple signal的软件越来越多并且成了主流,比如Delly。Delly
主要是基于SR和RP,当然现在也有了后期基于RD的filter
SV的问题是,SV本质过于复杂,有不同size,不同type的SV,一种signal或者
algorithm很难完全对付,所以sensitivity和specificity都不高(跟SNP calling比起
来);为了得到更好的结果,有两种想法:
1. 对于一个genome,把Breakdancer,CNVnator,Delly等等的结果merge起来;只挑选
出同时被好几种tools支持的SV calling... 阅读全帖
r**********e
发帖数: 587
23
来自主题: Biology版 - 高年级PhD毕业求建议
当然不是简单的run一下GATK找SNP,RNA-seq, exome, WGS, ChIP-seq, ENCODE,
1000genome, Haploreg都有接触
不过也就是跑别人的软件分析遗传学数据
请定义下何为高级bioinformatics?自己写软件?
r**********e
发帖数: 587
24
来自主题: Biology版 - 高年级PhD毕业求建议
不生气
我只想请教下您说的“算法”以及“web application”,能否举几个例子?
我的体会是bioinformatics怎么是越来越偏向biology,计算无非是个手段。
需要会的:
1,计算基本是linux,python和R;至少入门是挺容易的。很少人写C/java;除非你自
己做GATK一样的软件。如何在high-throuput cluster上跑big data, 如何
parallelization
2,各种NGS各种测序的原理
3,目前主流还是基因组研究,所以各种软件:BLAST/BLAT, bwa/bowtie, samtools,
GATK, Annovar, velvet, 转录组的tophat, cufflinks, RSEM, ChIP-seq的比如MACS,
这些现有软件学会用精就很不易了,大部分人也就是用用这些,你自己去写,写的过
Broad Institute么?写出来也就是junk paper,没有用户群
4,各种public data; UCSC, uniprot, GOterm, ENCODE, 1000Genome,
EpigenomeRo... 阅读全帖
1 (共1页)