j*p 发帖数: 411 | 1 攒人品,顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法,包括GATK, Samtools, Varscan,
SeqGenes, 等,并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验,BWA + GATK 最好,sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing,共4个文件,C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19,你的BWA index 在这里:/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖 |
|
j*p 发帖数: 411 | 2 攒人品,顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法,包括GATK, Samtools, Varscan,
SeqGenes, 等,并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验,BWA + GATK 最好,sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing,共4个文件,C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19,你的BWA index 在这里:/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖 |
|
l**********1 发帖数: 5204 | 3 同意楼下的
Step one
SRAto fastq
btw LZ be careful:
cited:
The problem you are experiencing is that the version of the SRA toolkit is
out of date and that there is now an un(der)documented option in fastq-dump
to dump paired end data from an SRA-lite submission. The guidance notes on
the NCBI website you refer to are for version 2.0.1, and state that they are
not up to date:
link:
//www.biostars.org/post/show/11111/how-to-convert-sra-lite-paired-end-
submission-to-fastq/
then try
FASTQ to BAM (vers... 阅读全帖 |
|
n******7 发帖数: 12463 | 4 现在很多应用都会用上Molecular Index
一般这样的数据,用MI对原始fastq做了demultiplexing之后
用什么格式存储呢?
我看有的人用BAM格式,应该是利用BAM里面很灵活的tags来记录MI的信息
而且很多工具可以用来提取这个信息
但是我总觉得BAM格式overkill了,毕竟这里面没有任何alignment信息
我也听说有人直接根据MI把fastq分了,存在很多subfolder里面
结果就有问题了
我琢磨直接用fastq的ID line存这个信息
因为本质上还是fastq 格式
就是这样记录MI的方式就比较随意了
不是通用标准 |
|
n******7 发帖数: 12463 | 5 谢谢
记得bam是不记录fastq id line
那我决定随便搞了
board是喜欢bam,我之前说的那个用bam记录demultiplexed reads的就是board出来的
人弄的
还没看源码,感觉是基于picard做的
我问过能不能用fastq.gz
他说fastq只是temporary的格式。。
只是存序列的话,我还是喜欢fastq.gz
简单明了,兼容所有reads处理工具
最多用gzip pipe一下
unaligned bam的压缩比应该差不多,但是后续处理大部分第三方工具不支持
我猜board是喜欢自己搞整个工具链吧
你说的那个hiseq4000的error rate太吓人了,伊鲁米娜肯定不承认,或者会快速修复的 |
|
d****n 发帖数: 1637 | 6 FASTQ file customize deindex?
step1, use klib->kseq to read fastq files. No other lib is faster than this.
step 2, build a hash base on your barcode list, and open 1000 file handlers
as the hash values.
step3. iterate through your fastq files,(using kseq), when a
barcode match a key write it to the value(file hanlder)
I bet you no other solution is faster than this. |
|
s******y 发帖数: 17729 | 7 你骗鬼吧,任何一个医院,只要你挂号开单检测的,一个基因测序的fastq你要就给你,
拿优盘去就行。一般不和报告一起打印出来,是因为一堆AGCT病人拿着当废纸一样看不
懂。
你如果只是要fastq的数据,你都不用去医院,直接把你儿子的肝样品干冰保存寄给任何
一家测序公司就可以做。尼玛华大基因的业务全球覆盖,又快又好,一堆厂妹加班加点
的干,三天数据就出来了 |
|
s******y 发帖数: 17729 | 8 艹,被我说中了吧
他就是不愿意做检测,让人家给他开报告,读单,签字
我前面都给你说了,你要是测序,只要fastq。你现在回去弄样品送到任何一家测序公司
都能给你测出来。当然你没办法穿刺或者割一块你儿子的肝,所以你还得去医院。
还有本来测序有一定误差,医院测的水平就低,医院的实验室比起科研的实验室准确度
要挫逼很多,他们不愿意给fastq数据很正常。 |
|
s******y 发帖数: 17729 | 9 你这就是精神病啊
人家医院说的很清楚了,raw data是很多个病人的,不给你太正常了
通常来说测序,跑一次测序仪可以跑好几十上百个样品,出来一堆的fastq文件。很多病
人都在这个里面,怎么给你?
再说医生又不球懂测序,只懂读报告,她也不懂如何分离这些fastq。
你别告诉我,医生为了给你raw data还请个人去给他写一个shell script把你儿子的se
quence给你分离出来,尼玛美国人工这么贵,你用脚想也不可能。
你去中国医院做,除非有熟人,也照样没人会给你raw data,你只有去测序公司做,才
能给你raw data。当然中国人力贱,给你跑一下分出来也不是不可以。你要给我,我分
分钟给你分析出结果。 |
|
y*j 发帖数: 3139 | 10 不明白,他要raw data 干嘛?难道他要转行搞生物了?
:你这就是精神病啊
:人家医院说的很清楚了,raw data是很多个病人的,不给你太正常了
:通常来说测序,跑一次测序仪可以跑好几十上百个样品,出来一堆的fastq文件。很
多病
:人都在这个里面,怎么给你?
:再说医生又不球懂测序,只懂读报告,她也不懂如何分离这些fastq。
:你别告诉我,医生为了给你raw data还请个人去给他写一个shell script把你儿子的
sequence给你分离出来,尼玛美国人工这么贵,你用脚想也不可能。
:你去中国医院做,除非有熟人,也照样没人会给你raw data,你只有去测序公司做,
才能给你raw data。当然中国人力贱,给你跑一下分出来也不是不可以。你要给我,我
分分钟给你分析出结果。 |
|
g******t 发帖数: 18158 | 11 医生没有故意杀人,大多数医生不会用IGV,他们也不懂fastq和vcf有什么区别和联系
用IGV,知道fastq和vcf的另外一伙人,那一伙人没有诊断的能力,责任和义务
现在这两批人试图合作,试图把这些数据和病情的诊断建立一个联系,但是还处在研究
阶段,现在没有成为标准的诊断方法。以后会不会用这些数据建立标准必须的诊断方法
现在没人知道。就算将来有了相关的诊断方法,你也不能用未来的诊断方法证明现在的
医生们无能,更无法证明他们有罪。
你连起码的逻辑都没有,不必做无用功了 |
|
e****e 发帖数: 3450 | 12 我按这个readme来的
Software Requirements
=====================
1. GCC is required to compile most tools.
2. FASTA-Clipping-Histogram tool requires Perl, the "PerlIO::gzip",
"GD::Graph::bars" modules.
Installing the perl modules can be accomplised by running:
$ sudo cpan 'PerlIO::gzip'
$ sudo cpan 'GD::Graph::bars'
3. FASTX-Barcode-Splitter requires the GNU Sed program.
4. FASTQ-Quality-Boxplot and FASTQ-Nucleotides-Distribution requires the
'gnuplot' program.
Installation
===== |
|
A*****n 发帖数: 243 | 13 你要是作exome sequencing的话,一般来说你不用关心图像识别,basecalling这些阶
段的,
如果是facility作的测序,他们会提供fastq序列文件,从这里开始分析就可以了。
如果是outsource到华大什么测序的话,他们一般会在fastq序列的基础上提供一些初步
的分析结果。 |
|
g**********y 发帖数: 423 | 14 欢迎讨论,特别是各种程序的调用参数 。。。
http://dl.dropbox.com/u/62547840/NGS_Illumina.pm
http://dl.dropbox.com/u/62547840/NGS_Illumina.pl
screen output:
Illumina 1.3+ fastq format: ASCII(min, max) = (66, 102)
2012/08/25 11:41:15 START maq ill2sanger Run1_testicular-28T_lane2_read1_
sequence.txt Testis_T28_read1_sanger.fq
2012/08/25 11:42:57 SUCCESS after running 0 hours 1 minutes 42 seconds
2012/08/25 11:42:57 START maq ill2sanger Run1_testicular-28T_lane2_read2_
sequence.txt Testis_T28_read2_sanger.fq
2012/08/25... 阅读全帖 |
|
x*****d 发帖数: 704 | 15 楼主少了一步吧?
bwa aln -t 4 -f -I
fastq>
bwa aln -t 4 -f -I
fastq>
,C |
|
d****7 发帖数: 109 | 16 你既然用mac的话,就好办(虽然linux更好)
如果只想看别人chip-seq中的motif,只要把他们的peak calling结果下载下来就行,
就是个BED file,很小。然后从bed file提取dna sequence,这个步骤很多地方都能做
(UCSC table, galaxy, cistrome 什么的好多),提取了sequence后,上传到MEME
chip或者RSAT这种网站,直接就出结果。也可以在你自己的mac上安装Weeder或者HOMER
之类的软件自己找motif
要是想找其他人的raw data,然后和自己的chip seq比较,最好从头做。
下个sratoolkit(这个有pre-compiled mac version),然后下载.sra文件,用
sratoolkit里的dump-fastq把它转换成fastq文件,然后做mapping,用bowtie很快。
然后peak calling。
以上这些步骤不用很搞的计算机配置,用比较新的macbook pro就能全跑下来,
你想要user-friendly的软件? 很可惜,在bioiformatics... 阅读全帖 |
|
n******7 发帖数: 12463 | 17 哦 那就对了
有损压缩quality score的路是对的
因为这玩意损不损区别不大
刚查了下illumina的官方文档
它也建议离散化quality score
这样可以省好多空间
再用reference sequence信息省省
存储空间可以继续下降不少
不过坏处是高压缩比的数据处理起来远没有 fastq.gz方便
我前段时间研究过一下
还是决定用fastq.gz了 |
|
发帖数: 1 | 18 做一回雷锋
如果你想从raw fastq data到结果,大概两个步骤:
1. raw fastq--bwa--mutation/gene expression
主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你
的目标是找variants那就用GATK这样的主流软件
1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC
来submit job,学会tune BWA/GATK的参数,是很容易的。
1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组
需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。
1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
你可以理解这一步就是从海量海量的数据里初步filter出你要的东西,但是粗糙的东西
,不是完整产品
2. gene expression---统计分析/美丽的图图
这个主要是RNA-seq,你tophat之类的得到一堆基... 阅读全帖 |
|
t**x 发帖数: 20965 | 19 只是要基因检测原始数据
fastq
baylor有, 不需要任何意见, 只是签字而已。
就说要数据看看。
那个狗屁不懂的胡扯。 |
|
t**x 发帖数: 20965 | 20 你傻逼啊, 人的基因就是不变的。
这又不是普通数据。 基因数据共享是常事。
连fastq也不懂, 连基因不至于不懂吧。
上面那个清华女孩基因共享没有看到。
越是只是少越是自以为是啊。 |
|
s******y 发帖数: 17729 | 21 再说,你麻痹fastq的数据就是一个txt文本,全是碱基序列,你拿来干毛,你看不懂,
生物千老也看不懂,还得放到电脑里面blast然后分析。要出结果,还得检测机构给你出
,要诊断还得医院。
所谓的结果,人家只给你解读结果。和亲子鉴定一样,给你一张报告单,不管是撕逼还
是打官司都行,他给你一堆碱基序列你拿着这些AGCT你上坟烧纸去给鬼说啊
公司 |
|
t**x 发帖数: 20965 | 22 看来你就这行的, 有能力处理fastq, 或其他数据
把某个基因的变异全部找出来吗?
我给你几个基因和数据,
你能不能帮忙看看。
骂我的话我都收着。 您老敢帮这个忙吗?谢谢你先, 别尿遁。
我自己有别人给做的结果, 不能给你看。 要验证你的结果, 你把所有变异把我找出
来好不好。
没心版没人管。 我不信中国人那么多在这个行当, 咋干事情的时候都躲起来了。 您
牛我给你数据。
割肝
病变 |
|
g******t 发帖数: 18158 | 23 raw data是可以分开的,一个样品一个fastq
大多数医生也不懂这个,都是另外一组人(bioinformatics group)在处理这个数据,给
他们看个最终医生能看的结果。医生不管这个
多病
se |
|
s******y 发帖数: 17729 | 24 所以耗子都没明白啊
fastq这个东西真的不是necessary的,尤其作为临床辅助诊断,测序这些玩意儿发个不
痛不痒的paper灌个水捞个绿卡又快又好,在临床上屁大点事儿。
就算测出了某个酶活性飙高了,吊炸天了,都不一定能落实到诊断上,治疗就更遥远。
撑死算个旁证。 |
|
t**x 发帖数: 20965 | 25 有人说你能帮忙, fastq to VCF
谢谢, 别推脱。
cchcmc的医生说我们 两个孩子,有一样的脂肪酸代谢病, 这是常染色体上的, 他们
开了检测。
其他一些搞基因和销售的告诉我们说, 你们家孩子如果是这个病, 而且兄弟两个都有
, 不可能测不出来。
现在数据我们公布, 谁能生成vcf来寄给我们
https://drive.google.com/file/d/0B3-bsyRHGbNQX2k0YlJSOHlObWs/view?usp=
sharing
地址,
21743 ne 105th pl, redmond, wa 98053
证明病的新生儿代谢和酶活性实验都有, 只是想看变异, 咋就没有报出来。
跑完 寄给我们vcf文件就行, 需要尽可能详细的。
谢谢, 没有人会trace到你。
我这是赌博, 赌博几个医生不怕美国医疗界会说实话, 这几个是
Dr. Kevin Bove of CCHMC
Dr. William F. Balistreri of CCHMC
Dr. Benjamin Shnieder of Texas Children (previously with... 阅读全帖 |
|
发帖数: 1 | 26 耗子的逻辑是这样的
你是医生吗?是,那你就应该给他看处方看完了,还要和他结论一样,医院谋杀他的孩
子,否则你和其他医生一样是杀人犯
你是千老吗?看的懂ngs数据不,看得懂就该给耗子分析fastq文件,然后得出耗子需要
的结论医生错了,否则你是帮凶,所有的千老都是帮凶
你说谁TMD敢接耗子的茬 |
|
发帖数: 1 | 27 你不信你问耗子或者问问班上其他生物千老,看我瞎说没有
他那个fastq的测序报告不止发给下弦月一个千老 |
|
发帖数: 1 | 28 给举一个例子,黑到啥程度。。。
为什么我很多年不愿意看基因数据吗?因为里面应该是更多的黑暗。。。。。现在慢慢
看到了。。
检测公司给了两个数据,一个是我们可以看到的变异txt文件,一个是fastq数据文件。
和所有检测实验室一样,当时的illumina测的。
我家孩子是cpt2,最常见的代谢病。
Txt文件里面,一个温度敏感的变异报告出来了。另外说有六段没有Target...我一直好
奇这六段里面是什么。。。猜测是黑暗。
黑暗是什么吗?!
就是黑洞洞。。。终于现在我看到了。。。真的是黑洞洞。。。原始数据里面什么都没
有。。。别的基因有,这个没有。这个基因完全给剪切掉了
我猜测里面有明确的致病变异,这种情况仪器直接把测量的数值给全部清为零。
我看了也不奇怪了。美国什么都程序化,这就是发达。默认值就是杀人屠命。
想必检测公司给我们的时候都不知道仪器会输出这些结果。。。。
作弊杀人的背后其实已经不是实验室,医院,公司了,
而是国会,议员,和你民选上去的政客。。 |
|
发帖数: 1 | 29 早期编完数据,发现和后面不符合,最后只好去改fastq 干的漂亮 |
|
t**x 发帖数: 20965 | 30 更正一下, 比你理解的更过分
一开始说有md代表我要他们就给, 没有md帮忙。结果我们一个朋友有国内md, 帮助我们
要了。然后baylor拒绝给, 说是得他代表学校要。我朋友咨询学校律师, 学校律师建议
不要。估计他继续帮忙学校开除, 黑暗势力太大了。
事故在华盛顿州, 实验德州, 朋友亚利桑那大学
辛辛那提要的时候拒绝给, 理由是别的病人数据混在一起。我们指出测量仪器有输出单
个病人fastq格式的功能, 然后就不理了。
很多人想当然, 我就问不理你你能怎么样?
: “baylor先说只要有md要,我们就给” 凭什么病人要他就不
给?这个完全没道
理的,
: 你可以另约一个MD看然后拿所有的MEDICAL RECORDS, 而且美国看病都是
自由的
,你可
: 以任意选医生,我不明白他有什么权利限制你看外面的医生。
: 很多人看病都没有要MEDICAL RECORDS的习惯,甚至连results是什么都不
问一下
,医生
: 说什么就是什么,医生是最喜欢这样的病人,容易管理,但是病人把所有
的都交
给医生
:... 阅读全帖 |
|
f*****a 发帖数: 156 | 31 编程水平不行,用Python的readline和C++的getline写的code慢死了,求高效算法。
问题如下:
两个输入文件,文件1是fastq格式,几千万行,每行最多100个字符
(每4行是一个序列的信息,其中的第2行是序列本身):
@SEQ_ID1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
@SEQ_ID2
AATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
+''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
@SEQ_ID3
TAGGCGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
C''F((((***+))%%%++)(%%%%).1***-+*''))**55... 阅读全帖 |
|
o*******p 发帖数: 27 | 32 如果长度不等,可以用10 (=15-6+1)个dictionary,每个对应相对的长度:
ds = []
for i in range(10): ds.append({})
for line in open('file2.txt').readlines():
name, seq = line.strip().split()
length = len(seq)
ds[length - 6][seq] = 0
这样第一个文件的每一个序列需要与ds的每一个dictionary相比,对应不同的长度:
for seq in seqs: #省略了FASTQ reading
for i in range(10):
prefix = seq[6 + i]
if prefix in ds[i]:
ds[i] += 0
这样比直接比较应该快很多。 |
|
n******7 发帖数: 12463 | 33 假设你是solexa,拿到fastq,有时候可能要预处理,trim一下,然后用bowtie/BWA
align到reference genome,然后找个工具call SNP/indel什么的,据说现在最好的
caller是dindel |
|
A*******e 发帖数: 284 | 34 真的吗? 如此则有指望了,我的电脑刚升级过,4G的内存看样也能勉强。 测得结果还
没有回来,想自己也找点练练,从GEO下载了SRA file练手,这个下载后转换了一堆
fastq,下一步我就不知道怎么办了,要从零开始了 |
|
j*p 发帖数: 411 | 35 "for my TF, the data make sense to me but the core said it is trash/useless,
9-20% mappable reads (out of 9-11M, meant to get 20M) and peaks calling with
a FDR of 100%. "
Mouse sample with 20%x11M = 2.2M is useless for publication. But it is still
potentially useable for trouble shooting.
Possible reasons(most likely -- least likely):
1. Anti-body doesn't work, did not pull down anything, therefore, no signal
enrichment on sites that are supposed TF-binding. The whole signal should
look no diffe... 阅读全帖 |
|
u*********1 发帖数: 2518 | 36 坦白说对genomics/sequencing技术还是很有兴趣的。也喜欢交叉科学。而且sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理;然后大规模的fastq就写一点简单的python来pre-processing
一点成就感都没有。或者说一点技术含量都没有。感觉人家CS的,学到了技术,学到了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人就可以学会。
另外,我在的这个一般的medical school都没有CS course。我都是自学,觉得很野鸡,一点都不科班。这个破烂bioinformatics program也很一般,很小很新,都没什么人。各位在综合性大学bioinformaticics phd p... 阅读全帖 |
|
d*****r 发帖数: 2583 | 37 问题问得很好,可以转给SarahtheFool批阅。。
我的感觉是,这个主要看你的老板是bio background还是CS background的,你跟什么
背景的老板就学到什么东西,bio背景的老板用工具多一些,CS背景的老板主要自己
develop工具和算法。
Sarah以前实验室的工具都是自己C++写的。她好像也没有take什么课,就自己学,但是
他们学校的资源太强大了。应该是整个领域这方面最强的。
sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会... 阅读全帖 |
|
G***y 发帖数: 1082 | 38 对我来说生物信息是工具不是问题。你现在要想明白的是你自己的兴趣到底在哪边,是
生物还是计算机。
如果你喜欢的是生物,你要找到你感兴趣的,可以用生物信息学方法解决的生物问题,
比如rare SNP对疾病的贡献。
如果你喜欢的是计算机或者算法,你可能要再上一些CS的课程。你的研究方向可以是如
何提高现有的算法,比如如何快速精确的进行whole genome de novo assembly。
这两个方向虽说都归在生物信息下面,但是用到的知识和研究的性质还是有很大区别的。
sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种... 阅读全帖 |
|
S**********l 发帖数: 3835 | 39 没关系的。别郁闷了。其实本科毕业,要是学生自己没兴趣的话什么都做不了,不管是
bio还是CS的。自己闲下来的时候提高提高就可以了。
sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会。
鸡,一点都不科班。这个破烂bioinformatics program也很一般,很小很新,都没什么
人。各位在综合性大学bioinformaticics phd program的,你们都有上很正规的CS的
course么?还是说CS这个东西,就是自己瞎捣弄就ok了?
摸索。所... 阅读全帖 |
|
S*M 发帖数: 10832 | 40 能把别人的算法发扬光大了,也是不错的事情
sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会。
鸡,一点都不科班。这个破烂bioinformatics program也很一般,很小很新,都没什么
人。各位在综合性大学bioinformaticics phd program的,你们都有上很正规的CS的
course么?还是说CS这个东西,就是自己瞎捣弄就ok了?
摸索。所以想转到一个established的更好的bioinformatics program;但... 阅读全帖 |
|
N******n 发帖数: 3003 | 41 很多生物信息学program或者faculty都是半路出家,水平可想而知。但是,他对个人的
要求很高,起码是EE,CS的本科基础知识,加上生物的课程,当然还有编程和数据库的
经验,没有4-5年,很难。
现在网络的资源很多,都很容易学的到。
至少要统计硕士的课程, cs算法课程,还有,一些sampling method, Bayesian,
optimization....这些是基本的工具。
sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会。
鸡,一点都不科... 阅读全帖 |
|
t*d 发帖数: 1290 | 42 看你自己适合什么了。和很多其它学科一样,bioinformatics也分理论多一些,和应用
多一些的领域。象物理中理论物理对数学要求高一些,实验物理就比较繁琐一些。
编程那点东西也是很繁琐的,是把别人开发好的成千上万 API,module 拼在一起用一
用。学起来不见得比bioinformatics更清爽。不过cs的应用面广,工作好找,工资也就
高了。
你先需要把自己的目标弄清楚。你是想写出一个大家都喜欢用的程序呢,还是想找出一
些 biomarker,drug targets。有了一个清楚的目标,再去学需要的技术。
写程序也很 boring 的。问问 macs 的作者 Tao Liu,看看每天对付mail-list 上的那
么多问题,不停的找出 bug,debug 一个程序是不是也蛮烦人的。
sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;... 阅读全帖 |
|
f****b 发帖数: 2410 | 43 BIOINFORMATICS for Next Generation-Sequencing analysis @ ICBR of University of Florida
RESPONSIBILITIES:
• Provide high level bioinformatics support to molecular biologists
by applying information technology and statistics to genomic and proteomic
projects;
• Evaluate available bioinformatics tools for next generation-
sequencing data and prototype new methods and algorithms to enhance existing
analysis capabilities and pipelines;
• Provide computational support for in... 阅读全帖 |
|
j*p 发帖数: 411 | 44 sra 可以换bam吗?我只知道sra to fastq |
|
n******7 发帖数: 12463 | 45 fastq怎么可以到bam呢?
需要align啊
或者直接转成unaligned的?这个不是多此一举吗
dump
are |
|
l**********1 发帖数: 5204 | 46 最新 plus 正版吗 那个soft?
Sam≂BAM format
pls refer:
What 'Picard' does?
FastqToSam converts FASTQ files to unaligned BAM files.
httPS://test.g2.bx.psu.edu/root?tool_id=picard_FastqToSam |
|
l**********1 发帖数: 5204 | 47 plus 各取所需 用C++ or Perl or python or R etc 取决于生信分析的对象
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wik... 阅读全帖 |
|
o******n 发帖数: 511 | 48 大家好,
我有几十个细菌isolates,从不同的宿主和环境下培养出来,测了它们的基因组。我想
通过比较它们的基因组来分析它们怎么适应不同的宿主或环境的。
现在我拿到的data是Illumina测序后的全基因组DNA fastq file,我们的合作者应该也
给它们做了annotation,以后才会拿到。
我不会写perl/python,会一点R。请问对于新手,有什么好的程序或package,让我可
以做些初步分析?另外,是不是只有做过annotation的序列才适合分析,纯DNA序列没
法怎么分析?
谢谢任何建议或帮助。 |
|
u*********1 发帖数: 2518 | 49 Sanger sequencing的话得到的都是.ab1的文件吧
其实我一直有个问题,如何把.ab1 file转化成fasta/fastq格式然后可以按照NGS的
方法来做?
如果只找比如罕见突变,我自己用的program叫novoSNP,觉得还不错
如果要看LD啥的,估计就是那个broad的haploview吧,我自己也没做过,不确定
), |
|
x******m 发帖数: 736 | 50 SRA is Sequance Read Archive file. you have to convert it into fastq. there
is a tool called sratoolkit for that job. but u have to know linux. find
some bioinfo guys help you... |
|