关于samtool的讨论汇总 - 话题女王

全部话题 - 话题: samtool

F*********g
发帖数: 43

来自主题: Biology版 - samtools

那位大侠熟悉bioinformatics中的pipeline软件samtools? 怎么样把它安装在cygwin下
，并能够生成可执行文件开始运行？我学统计，对unix相关东西一点不懂，谢谢！

G***G
发帖数: 16778

来自主题: Biology版 - samtool view negative strand

how to use samtool to exact negative strand
such as chr2:20,100,000-20,200,000-1

l**1
发帖数: 64

来自主题: Biology版 - samtools mpileup 总是报segmentation fault

try to downgrade your samtools version to
0.1.18

F*********g
发帖数: 43

来自主题: Computation版 - samtools

F*********g
发帖数: 43

来自主题: Statistics版 - samtools

g**********y
发帖数: 423

来自主题: Biology版 - NGS_Illumina类

欢迎讨论，特别是各种程序的调用参数。。。
http://dl.dropbox.com/u/62547840/NGS_Illumina.pm
http://dl.dropbox.com/u/62547840/NGS_Illumina.pl
screen output:
Illumina 1.3+ fastq format: ASCII(min, max) = (66, 102)
2012/08/25 11:41:15 START maq ill2sanger Run1_testicular-28T_lane2_read1_
sequence.txt Testis_T28_read1_sanger.fq
2012/08/25 11:42:57 SUCCESS after running 0 hours 1 minutes 42 seconds
2012/08/25 11:42:57 START maq ill2sanger Run1_testicular-28T_lane2_read2_
sequence.txt Testis_T28_read2_sanger.fq
2012/08/25... 阅读全帖

t*****z
发帖数: 1598

来自主题: Biology版 - 现在测序facility的主流计算还是CPU吗

JAVA程序的命令行都太冗长了，简直反人类，而且时不时还要考虑内存问题。比如给
BAM文件排序，Picard是：
java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
SORT_ORDER=coordinate
而SAMtools仅仅是：
samtools sort input.bam
我常用SAMtools配合Bash的pipe整出高效且干净的one-liner，例如去除某些序列：
bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
F 256 | samtools sort -@ 16 -n | samtools view -bS | bedtools bamtofastq -i
- -fq out_R1.fq -fq2 out_R2.fq &> output.log
不知道Picard能不能？

u*********1
发帖数: 2518

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

非常同意。
直接把你的sam用samtools来call SNP
请看：
http://samtools.sourceforge.net/mpileup.shtml
就是那个samtools/bcftools的两个command，得到一个vcf file
然后用annovar来对比这个vcf file和你的old database
貌似都用不到bedtools

i***r
发帖数: 1035

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

谢谢，祝你一切顺利！
我这种情况怎么搞（目前还是没有弄明白）
有2个原始文件，一个是发飙了的SNPs数据，大概70个不同human poupulations，是一
个bed文件，结构是这样（右边省略了若干column）
chr1 41217 41218 snp 2 + T A dbsnp.108:
rs3863625 NN
chr1 41255 41256 snp 3 + C T dbsnp.111:
rs4543737 NN
chr1 41980 41981 snp 4 + A G dbsnp.86:
rs806721
姑且叫A.bed
另一个是个bam文件，别的地方下载的，是另一个human population数据，转成sam文件
之后（为了好看把SEQ和QUAL拿掉了）：
all-hg18_1 0 chr1 39 10... 阅读全帖

i***r
发帖数: 1035

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

u*********1
发帖数: 2518

来自主题: Biology版 - bioinformatics吐下槽

http://bio-bwa.sourceforge.net/bwa.shtml
http://samtools.sourceforge.net/samtools.shtml
这个，自己多实验几下就应该很容易吧。
一下子读完所有tutorial其实还是一头雾水。要不断实践，才慢慢明白那些parameter
啥意思

u*********1
发帖数: 2518

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

还需要知道那个SNP position 位点是不是在我的新数据里面也是SNP
Don't quite understand. You mean "your new database"(我的新数据) is not SNP-
calling file? Then first use GATK/Samtools to call SNP/indel from "your new
database", then filter against your old database.
If you have no experience using GATK, and in a hurry to get results, I
strongly suggest using Samtools, which is basically just one bash command,
while GATK is monsterous algorithm. Also newest version of GATK is coming
out and all those old scripts may now be ... 阅读全帖

l**********1
发帖数: 5204

来自主题: Biology版 - 如何处理RNA-Seq

Pls check,
i) Trapnell C et al., (2012).
Differential gene and transcript expression analysis of RNA-seq experiments
with TopHat and Cufflinks.
Nat Protoc 7: 562–578.
ii) Li H et al., (2009).
The sequence alignment/Map format and SAMtools.
Bioinformatics 25: 2078–2079.
plus
Weikard R et al., (2013).
Identification of novel transcripts and noncoding RNAs in bovine skin by
deep next generation sequencing.
BMC Genomics. 14: 789. [Epub ahead of print]
>http://www.ncbi.nlm.nih.gov/pubmed/24225384
c... 阅读全帖

w***a
发帖数: 432

来自主题: Military版 - C++ 和 Java 是当今最受欢迎的两个语言吗？

Just checked some of the program on sequence analysis:
BWA: C language
Bowtie2: C++
STAR: C++
Samtools: C
Cufflink: C++
Also others with python or perl when counting readings (htseq-count) or
ngsplot (r).
C and C++, both.

b*******m
发帖数: 3

来自主题: Postdoc版 - postdoc position available in bioinformatics

Hiring unit:
Garmire Group (PI starting 09/01/2012, the postdoc position available 09/01
or later) )
University of Hawaii Cancer Research Center
Job description:
Located on the beautiful sea shore of Honolulu, Hawaii, overlooking the
Pacific Ocean, the University of Hawaii Cancer Center (UHCC) is one of only
66 research organizations in the country designated by the National Cancer
Institute. Its mission is to focus on key cancers that impact the multi-
ethic population of Hawaii, as well as wor... 阅读全帖

d********f
发帖数: 43471

来自主题: Joke版 - Re: 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？ (转载)

【以下文字转载自 Biology 讨论区】
发信人: deadsea1 (aa), 信区: Biology
标题: Re: 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？
发信站: BBS 未名空间站 (Wed Sep 26 19:34:04 2012, 美东)
linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
bioconductor是什么？有个简单的介绍么？

n******7
发帖数: 12463

来自主题: Hardware版 - Mac Pro 配置推荐

那还是别折腾mac pro了，老老实实PC+linux
我同事几个月前配你这类似的，HP workstation, 6 core + 32GB + 2TB HDD,不到2K
因为我们是当destkop用的，所以其实内存应该在加点，要是你们跑job
reads alignment是高度可并行的，所以core多点好，现在似乎6-core的价格还在性价
比线性范围内。上双CPU价格就上去了
你们要只处理自己的数据，比如RNA-SEQ,Exome sequencing,其实不用太fancy的机器，
我想你们比较穷的话，自己的data也不多
这些个bioinfo工具linux下面跑没有任何问题。大部分应该osx下面也能跑，不过难说
某些有问题。
你们干活的机器，实在没有必要上mac. 装个debian，什么bowtie2，samtools直接在库
里面，一行命令安装好。不然我琢磨你这背景安装就要折腾半天

A*****n
发帖数: 243

来自主题: Biology版 - illumina测序数据分析

这个并不难啊，samtools上去＋sed就可以了
确实只是几个命令的事，不过楼主最麻烦的是连自己的机器都没有
别人如果要分析的话，数据传输就得一两天时间。

c**********e
发帖数: 70

来自主题: Biology版 - Broad's Heng Li Wins 2012 Benjamin Franklin Award

Congratulation to him.
-----------------------------
March 14, 2012 | Heng Li, a research scientist at the Broad Institute, is
the winner of the 2012 Benjamin Franklin Award for Open Access in the Life
Sciences.
“I have to say I’m a little surprised,” Li told Bio-IT World, of the
award, though his contributions speak for themselves. Li made essential
contributions to the next generation sequencing (NGS) field with tools like
SAMtools, BWA, MAQ, TreeSoft and TreeFam, many of which began as proj... 阅读全帖

l**********1
发帖数: 5204

来自主题: Biology版 - what kind of data

Samtool file
flag inside sam file
SEQanswers - Bioinformatics — I got a read aligned as below: ~ HWI-1KL138:2
:2105:12847:125331#GCCAATGCCAAT 161 chr1 12036 1 74M = 12645 1188
CTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGG
hhhhhhhhhhhghhhhhhhhhhhhhhhhhheffffdffffhhhghhehefhhhhhghhfhfffWdbfffbffff
NM:i:0 NH:i:3 CC:Z:chr15 CP:i:102519061 HI:i:0 ~ The flag here is 161=128+32
+1. 128 means 2nd pair; 32 means mated reverse strand; 1 means paired read.
I am wondering why th... 阅读全帖

S**o
发帖数: 447

来自主题: Biology版 - Heng Li

anyone knows Heng Li at Harvard?
he programmed the BWA, samtool, etc.

c*****g
发帖数: 66

来自主题: Biology版 - samtool view negative strand

add this option when you view the bam file
-f 0x10
check with sam spec to make sure the flag is right.

u*********1
发帖数: 2518

来自主题: Biology版 - bioinformatics吐下槽

坦白说对genomics/sequencing技术还是很有兴趣的。也喜欢交叉科学。而且sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；然后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理；然后大规模的fastq就写一点简单的python来pre-processing
一点成就感都没有。或者说一点技术含量都没有。感觉人家CS的，学到了技术，学到了那就是自己的；以后用的到。而我们这种随便run个人家写好的program，感觉是个人就可以学会。
另外，我在的这个一般的medical school都没有CS course。我都是自学，觉得很野鸡，一点都不科班。这个破烂bioinformatics program也很一般，很小很新，都没什么人。各位在综合性大学bioinformaticics phd p... 阅读全帖

d*****r
发帖数: 2583

来自主题: Biology版 - bioinformatics吐下槽

问题问得很好，可以转给SarahtheFool批阅。。
我的感觉是，这个主要看你的老板是bio background还是CS background的，你跟什么
背景的老板就学到什么东西，bio背景的老板用工具多一些，CS背景的老板主要自己
develop工具和算法。
Sarah以前实验室的工具都是自己C++写的。她好像也没有take什么课，就自己学，但是
他们学校的资源太强大了。应该是整个领域这方面最强的。

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
；然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的；以后用的到。而我们这种随便run个人家写好的program，感觉是个人
就可以学会... 阅读全帖

G***y
发帖数: 1082

来自主题: Biology版 - bioinformatics吐下槽

对我来说生物信息是工具不是问题。你现在要想明白的是你自己的兴趣到底在哪边，是
生物还是计算机。
如果你喜欢的是生物，你要找到你感兴趣的，可以用生物信息学方法解决的生物问题，
比如rare SNP对疾病的贡献。
如果你喜欢的是计算机或者算法，你可能要再上一些CS的课程。你的研究方向可以是如
何提高现有的算法，比如如何快速精确的进行whole genome de novo assembly。
这两个方向虽说都归在生物信息下面，但是用到的知识和研究的性质还是有很大区别的。

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
；然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的；以后用的到。而我们这种... 阅读全帖

S**********l
发帖数: 3835

来自主题: Biology版 - bioinformatics吐下槽

没关系的。别郁闷了。其实本科毕业，要是学生自己没兴趣的话什么都做不了，不管是
bio还是CS的。自己闲下来的时候提高提高就可以了。

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
；然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的；以后用的到。而我们这种随便run个人家写好的program，感觉是个人
就可以学会。
鸡，一点都不科班。这个破烂bioinformatics program也很一般，很小很新，都没什么
人。各位在综合性大学bioinformaticics phd program的，你们都有上很正规的CS的
course么？还是说CS这个东西，就是自己瞎捣弄就ok了？
摸索。所... 阅读全帖

S*M
发帖数: 10832

来自主题: Biology版 - bioinformatics吐下槽

能把别人的算法发扬光大了，也是不错的事情

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
；然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的；以后用的到。而我们这种随便run个人家写好的program，感觉是个人
就可以学会。
鸡，一点都不科班。这个破烂bioinformatics program也很一般，很小很新，都没什么
人。各位在综合性大学bioinformaticics phd program的，你们都有上很正规的CS的
course么？还是说CS这个东西，就是自己瞎捣弄就ok了？
摸索。所以想转到一个established的更好的bioinformatics program；但... 阅读全帖

N******n
发帖数: 3003

来自主题: Biology版 - bioinformatics吐下槽

很多生物信息学program或者faculty都是半路出家，水平可想而知。但是，他对个人的
要求很高，起码是EE，CS的本科基础知识，加上生物的课程，当然还有编程和数据库的
经验，没有4-5年，很难。
现在网络的资源很多，都很容易学的到。
至少要统计硕士的课程， cs算法课程，还有，一些sampling method, Bayesian,
optimization....这些是基本的工具。

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
；然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的；以后用的到。而我们这种随便run个人家写好的program，感觉是个人
就可以学会。
鸡，一点都不科... 阅读全帖

G***G
发帖数: 16778

来自主题: Biology版 - bioinformatics吐下槽

NIU.
do you have tutorial about how to use bwa and samtools?

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好br />
都没有。感觉人家CS的，学到了技术，学到了那就是自己的；以后用的到。而我们这种
随便run个人家写好的program，感觉是个人就可以学会。
鸡，一点都不科班。这个破烂bioinformatics program也很一般，很小很新，都没什么
人。各位在综合性大学bioinformaticics phd program的，你们都有上很正规的CS的
course么？还是说CS这个东西br />
摸索。所以想转到一个established的更好的bioinformatics program；但这不就把目
前的老板给得罪了么
也有个大概的概念。但cs master，自己又没钱；而且担心身份出问题

t*d
发帖数: 1290

来自主题: Biology版 - bioinformatics吐下槽

看你自己适合什么了。和很多其它学科一样，bioinformatics也分理论多一些，和应用
多一些的领域。象物理中理论物理对数学要求高一些，实验物理就比较繁琐一些。
编程那点东西也是很繁琐的，是把别人开发好的成千上万 API，module 拼在一起用一
用。学起来不见得比bioinformatics更清爽。不过cs的应用面广，工作好找，工资也就
高了。
你先需要把自己的目标弄清楚。你是想写出一个大家都喜欢用的程序呢，还是想找出一
些 biomarker，drug targets。有了一个清楚的目标，再去学需要的技术。
写程序也很 boring 的。问问 macs 的作者 Tao Liu，看看每天对付mail-list 上的那
么多问题，不停的找出 bug，debug 一个程序是不是也蛮烦人的。

sequencing成本越来越低，越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的；然后来了美国半路转到bioinformatics。但我觉得很郁闷的是，
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie；... 阅读全帖

u*********1
发帖数: 2518

来自主题: Biology版 - bioinformatics吐下槽

我倒不想像heng li那样能写BWA/samtools，甚至ANNOVAR这样的非常popular大家都用
的爽的软件。
因为我竞争不过那些科班出身的牛人；其次目前NGS的各种平台软件已经搭好了；我晚
出生很多年，没赶上。
但我只想根据自己的意愿，希望能写一些相对复杂的program；而不是每天傻里巴几的
用人家的program。我一个bioinformatician，都写不出属于自己的program，真是没脸混
但你说写那写复杂的软件；一方面C++/java要学；另外一方面很多statistics啊，
algorithm啊，我都没上类似的course。也比较没头绪

f****b
发帖数: 2410

来自主题: Biology版 - bioinformatics postdoc poition($35,000 - $40,000)

BIOINFORMATICS for Next Generation-Sequencing analysis @ ICBR of University of Florida
RESPONSIBILITIES:
• Provide high level bioinformatics support to molecular biologists
by applying information technology and statistics to genomic and proteomic
projects;
• Evaluate available bioinformatics tools for next generation-
sequencing data and prototype new methods and algorithms to enhance existing
analysis capabilities and pipelines;
• Provide computational support for in... 阅读全帖

l*****a
发帖数: 1431

来自主题: Biology版 - bioinformatics postdoc poition($35,000 - $40,000)

我们这里招的bioinformatician，master degree。就是做做NGS aligment，用的就是现
成的软件，BWA，SAMtool之类，工资90K。

b*******m
发帖数: 3

来自主题: Biology版 - postdoc position available in bioinformatics (转载)

【以下文字转载自 Postdoc 讨论区】
发信人: bioinform (ngs), 信区: Postdoc
标题: postdoc position available in bioinformatics
发信站: BBS 未名空间站 (Fri Jul 20 00:44:34 2012, 美东)
Hiring unit:
Garmire Group (PI starting 09/01/2012, the postdoc position available 09/01
or later)
University of Hawaii Cancer Research Center
Job description:
Located on the beautiful sea shore of Honolulu, Hawaii, overlooking the
Pacific Ocean, the University of Hawaii Cancer Center (UHCC) is one of only
66 research organizations in the coun... 阅读全帖

w****w
发帖数: 521

来自主题: Biology版 - 有人转换过sra到bam文件吗?

原来以为只能用samtools从bam文件抽取区域，得把整个cSRA先转成bam,计算量会太大
。后来发现sam-dump有--aligned-region option,问题就解决了。

k******d
发帖数: 76

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

GATK 和samtools可以call SNPs。annovar好像可以比较是否有交集，最简单的是写一
个程序直接比较两个SNP文件

n******7
发帖数: 12463

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

我没做过复杂的SNP分析，不负责任地随便说说
你数据A应该是SAM格式的alignment数据吧？不建议你直接一个read一个read的来分析
variance site，因为这个完全可能是sequencing/alignment的错误造成的。最直接可
靠的方法是用一些variance caller，比如samtools，先call出snp/indel来，然后在比
较。这个比较可以用一些标准工具,比如楼上提到的；或者自己写个简单的脚本。

略）

n******7
发帖数: 12463

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

另外感觉你是不是还想知道你的read有没有覆盖到某个snp？
这个你可以自己parse sam 文件，或者用samtools,bedtools之类的工具，我记得有算
coverage的功能

n******7
发帖数: 12463

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

另外感觉你是不是还想知道你的read有没有覆盖到某个snp？
这个你可以自己parse sam 文件，或者用samtools,bedtools之类的工具，我记得有算
coverage的功能

i***r
发帖数: 1035

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

我现在就在尝试用samtool和bedtool，没用过加上这两个tool的说明书都极其简单，而
且是好几个小的tools，不知具体该用哪个。。。
但是我相信这两个tool应该能够实现我大部分需求，甚至全部需求。

c*****g
发帖数: 66

来自主题: Biology版 - 【包子求助】call SNPs 有哪些工具？？

这个事情很简单：
1. 根据A做一个bed file
例如
chr1 1239 1240
注意，bed是0起始的
2. samtools mpileup -l snpA.bed your.bam
and pipe the output to whatever you want.
directly reading line by line from a SAM (like you described) is a bad idea.

略）

j*p
发帖数: 411

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

攒人品，顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法，包括GATK, Samtools, Varscan,
SeqGenes, 等，并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验，BWA + GATK 最好，sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing，共4个文件，C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19，你的BWA index 在这里：/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖

j*p
发帖数: 411

来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

t****a
发帖数: 1212

来自主题: Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

至少应该学会linux + BWA/samtools系列
学会python/perl + R/bioconductor更好。

d******1
发帖数: 709

来自主题: Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
bioconductor是什么？有个简单的介绍么？

t****a
发帖数: 1212

来自主题: Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

2个礼拜？您老是天才，咱们一般人没办法那么快学会。
linux
想当年我从windows往linux上move用了半年/一年，况且我还是developer出身的。不是
说光学个login，mkdir之类就算linux哈，那样的干不了活。最起码学个vi or emacs编
辑文本，awk/sed处理txt/csv，再学点进程管理，后台任务什么的吧。
programming language
也没那么容易，况且还不是全脱产的学。不是说能写个helloworld就算学会了的。我自
个程序设计语言学了十几种了，要我再学一门语言并且用来干活，没有几个礼拜恐怕我
也干不成，真正到熟练语言特性，各种常用library，我至少得用上一年以上时间。
BWA/samtools是做基本的alignment/pileup之类，R/Bioconductor是用来做后期的统计
/数据分析/绘图。
详细的自个去google。

s******s
发帖数: 13035

来自主题: Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

我不是搞这行的，说了大家别信，呵呵
其实，只是想分析一下RNAseq，ChIPseq的data，不搞太复杂的东西，
比如算法，RNA editing等等，前面的linux/python/perl/BWA/samtools
都不用学，只要学会excel和R作图就行了。
galaxy.psu.edu

u*********1
发帖数: 2518

来自主题: Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

作为一个曾经0基础的菜鸟，我还是蛮有体会的。
想想一年前我连linux里的grep都不晓得是啥。老板说“grep”，我说gre。。啥？greb
吗？老板摇摇头说you really have a lot to learn...不过老板超好，想办法给我把
各种基础的东西讲清楚。。。包括RAM是啥。。汗。。。
做NGS/bioinformatics的，我觉得核心思想还是：如何利用计算机手段解决生物问题。
说起来简单但未必每个人都深刻体会的到。什么python/bash/perl啥啥的，要入门很快
，但也绝对不是什么两个星期就搞定。我现在和python打交道也一年了，但也完全就是
个皮毛，主要是你自己的project决定的。。如果你永远只需要简单的process下你的
text，而且text如果不大比如100MB，你可以永远for line in text。。或者readlines
（），但如果碰到很大的text，就不能readlines（）了因为cluster可能没有那么大的
memory to load the whole text.
所以我觉得就是现学现用，除非你是CS系科班搞计算出身... 阅读全帖

q****r
发帖数: 26

来自主题: Biology版 - 博后想转NGS测序数据分析和软件开发，可行吗？

以前硕士做过一些生物实验，就是想不做实验转到Bioinformatics。NGS什么语言用的
最多？目前看到的软件大部分是C/C++,不过也有用到java的比如samtools的java版本
Picard。用java因为java比C/C++简单，容易上手。

q****r
发帖数: 26

来自主题: Biology版 - 博后想转NGS测序数据分析和软件开发，可行吗？

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天