由买买提看人间百态

topics

全部话题 - 话题: samtool
首页 上页 1 2 (共2页)
u*********1
发帖数: 2518
1
来自主题: Biology版 - NGS technique question, urgent!
samtools view -F 4 map.bam
4 (in decimal) or 0x0004 (in HEX) indicates that the query read is unmapped.
If you use the filter option (-F 4) you will remove unmapped reads, hence
the output will only contain mapped reads.
This flag will extract any mapped reads regardless of what mate pair looks
like.
If you'd like to account mate pair, please look at the link below:
http://www.biostars.org/p/14518/
u*********1
发帖数: 2518
2
来自主题: Biology版 - 新手请教CNV caller
SR methods are definitely the most accurate because it provides the exact
breakpoint; but we're not lucky enough to have reads encompassing
breakpoints all the time even for SV in unique region, not to mention those
complex structural variants involving repeats/duplication.
So till now, SV field or even indel calling, I would say still quite messy
with lots of false positives, and whole field is lagging behind compared
with SNP calling.
If you are interested in repeats, please first define "repe... 阅读全帖
a***e
发帖数: 1010
3
来自主题: Biology版 - NGS数据分析的流程
your sample --> company --> FQ or FA file
--> blat or bowtie or Tophat to align --> (.sam, .bam file)
--> Samtools or GATK to call variants --> .vcf file (excel file)
--> igvtools or genome browser to visualize
or it is said u can use CLC to replace the last three steps.
v***r
发帖数: 1046
4
来自主题: Biology版 - NGS数据分析的流程
就是说公司给的是aligned好的bam文件,接下来不就是用samtools, GATK做snp
calling吗?为什么不是很容易搞定呢?难点在哪?
x******m
发帖数: 736
5
reference genome index过了,为啥还有问题。
我的sample seq文件大概20G左右。
r******0
发帖数: 357
6
did you sort it first?
x******m
发帖数: 736
7
yes, sorted and indexed.
r**********e
发帖数: 587
8
来自主题: Biology版 - 转行 bioinformatics
而且现在大部分做bioinformatics的工作,基本就是用现成的工具,加上一点Python等程
序, 就可以搞定大
部分问题, 说白了其实没什么技术含量
非常赞同。我也是biology背景然后读bioinformatics phd。我有很多NGS whole-
genome/exome/RNA-seq的经验,就是我可以把现有的pipeline成功跑起来,根据我的生
物医学的兴趣目的,来挖掘信息。
但是数学和statistics还真是没有系统学过,只能是bioinformatics里需要什么就现成
去学。所以每次看到indeed/linkedin招聘里写的要会一堆语言和statistics就觉得心
虚。
所以如果就找bioinformatician/genomics的工作,到底最看重什么呢?是NGS的经验吗?
我这种情况是不是去上下很多online course,恶补一下statistics的理论知识?
----------------------------------------------------------------------------
--------------... 阅读全帖
r**********e
发帖数: 587
9
来自主题: Biology版 - 转行 bioinformatics
而且现在大部分做bioinformatics的工作,基本就是用现成的工具,加上一点Python等程
序, 就可以搞定大
部分问题, 说白了其实没什么技术含量
非常赞同。我也是biology背景然后读bioinformatics phd。我有很多NGS whole-
genome/exome/RNA-seq的经验,就是我可以把现有的pipeline成功跑起来,根据我的生
物医学的兴趣目的,来挖掘信息。
但是数学和statistics还真是没有系统学过,只能是bioinformatics里需要什么就现成
去学。所以每次看到indeed/linkedin招聘里写的要会一堆语言和statistics就觉得心
虚。
所以如果就找bioinformatician/genomics的工作,到底最看重什么呢?是NGS的经验吗?
我这种情况是不是去上下很多online course,恶补一下statistics的理论知识?
----------------------------------------------------------------------------
--------------... 阅读全帖
c*********r
发帖数: 1312
10
收到猎头的信,biotech制药公司招人,Abbvie Bioresearch Center in Worcester,
MA,生物信息方面,具体待遇我不清楚,glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系:[email protected]/* */。
更新一下工资:The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右?
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖
c*********r
发帖数: 1312
11
收到猎头的信,biotech制药公司招人,Abbvie Bioresearch Center in Worcester,
MA,生物信息方面,具体待遇我不清楚,glassdoor上边应该有它家类似的信息。主要
是使用R分析测序和芯片数据。有感兴趣的欢迎email联系:[email protected]/* */。
更新一下工资:The manager is targeting a range of $40/hr to $50/hr on a W2.
This position will require an average of 40 hours per week.换算成年薪大概8万
到10万左右?
Hi XXX,
I came across your profile while sourcing candidates for a one year contract
opportunity with AbbVie in Worcester, MA. The hiring manager is in need of
a Senior Information Scientist... 阅读全帖
r**********e
发帖数: 587
12
来自主题: Biology版 - 高年级PhD毕业求建议
不生气
我只想请教下您说的“算法”以及“web application”,能否举几个例子?
我的体会是bioinformatics怎么是越来越偏向biology,计算无非是个手段。
需要会的:
1,计算基本是linux,python和R;至少入门是挺容易的。很少人写C/java;除非你自
己做GATK一样的软件。如何在high-throuput cluster上跑big data, 如何
parallelization
2,各种NGS各种测序的原理
3,目前主流还是基因组研究,所以各种软件:BLAST/BLAT, bwa/bowtie, samtools,
GATK, Annovar, velvet, 转录组的tophat, cufflinks, RSEM, ChIP-seq的比如MACS,
这些现有软件学会用精就很不易了,大部分人也就是用用这些,你自己去写,写的过
Broad Institute么?写出来也就是junk paper,没有用户群
4,各种public data; UCSC, uniprot, GOterm, ENCODE, 1000Genome,
EpigenomeRo... 阅读全帖
n******7
发帖数: 12463
13
来自主题: Biology版 - 大家对Nova seq怎么看?
我看了一下metect的paper,更加确定了我的想法
几点评论:
1. 我不是用AF来做cutoff call snv,而是个设定的目标
一般develop相关的方法,不管计算的还是实验的
都会设定这样一个有实际意义的specification
我最近帮人做一个方法,在决定测序通量的时候就这么算的
其实mutect paper里面也是这样,你看method section里面
Variant detection这个部分,那个f就是AF
2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
也就是说,脱离AF谈error rate是没有意义的
还是我之前的列子,如果AF是1%,而error rate是0.1%
也就是Q30
那么很大可能这就是个true SNP,因为差太远了
但是你想call 0.1%的SNV的话,Q30就不够用了
反过来,如果是AF 50%的 SNV,read depth足够的话,Q5就可以了
这个mutect的第二步就是基本的bayesian分析
我最早看到类似的用法应该还是在samtools里面
后来我照葫芦画瓢用到一个特别的... 阅读全帖
n******g
发帖数: 2201
14
来自主题: Biology版 - 练好coding是一切的基础
大部分千老不具备编程能力,只有分析数据的能力。孰高孰低不评论,这是千老的生态
环境
所限制的。生物研究需要的编程能力 越等与0.
甚至大部分生信人员也不会编程,他门只能用bowtie, DESeq 做一步一步的分析数据,
然后用R 作复杂的图,这一套技能够千老学习两年的。然后就是不断的重复这三种技能。
这个是需求决定的,她们的最终目的是发文章,发文章不需要好的coding.
编程牛屄如李横这样的人,写出过klib, samtools,他直接服务的是生信人员,不是生物
大牛和千老,而生物界只有生物大牛才掌握资源,所以李横的程序写的再漂亮,也不如
一个千老的图值钱。
G***G
发帖数: 16778
15
来自主题: Biology版 - Heng Li长得就像个天才码农啊
有个小问题。在samtool诞生之前,人们是怎么使用bam文件的?
人们用什么工具读取和理解这个bam文件?
bam文件的格式和接口是不是一开始就是公开的?还是是公司秘密的文件格式?

发帖数: 1
16
来自主题: Biology版 - Heng Li长得就像个天才码农啊
GoooG:sam,bam和samtools是一起做的。没有先后。一直都是公开的。
cellcreator:可以试试stampy,毕竟它是少数考虑了高突变率的short-read mapper。
但不知效果会怎样,没有经验。你也可以考虑先组装再比对。高heterozygosity可能同
样难办,不过有时间的话可以试一个样品。
dimorphism:我很欣赏跟生物密切结合的应用,所以Erez Lieberman更牛。
profile:谢谢你的鼓励和你前面的祝福,谢谢!
t*****z
发帖数: 1598
17
Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
如何?

发帖数: 1
18
同疑问。还是比对耗费时间。

:Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
:SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
:如何?
n******7
发帖数: 12463
19
run jar文件是比较啰嗦
这种大工具集为了风格统一,也会造成一些啰嗦的用法
其实java的文化就是啰嗦但不复杂
因为缺省一些东西意味着你大脑要记住一些默认规则
这就为出问题创造了机会,滥用这点也会增加复杂度
比如就这个samtools,我记得好像就是这个sort命令,在某个版本之前和之后是不一样的
一个版本默认到stdout,需要用-O指定输出文件前缀;一个是直接跟输出文件前缀,
-o是到stdout
具体可能有出入,但是这种问题挺烦人,各个工具也不一样,不如统一规范省心
另一个问题就是pipe的时候,各个工具接收stdin的方式会有不同,有时也是挺烦的
java的控制pipe library我没用过,应该不是问题

-
i
d*******e
发帖数: 1649
20
来自主题: Statistics版 - samtools
i never used it under windows. But I strongly suggest you to use it under
linux. If you just follow the instructions online, it is not hard at all.
F*********g
发帖数: 43
21
来自主题: Statistics版 - samtools
能给我你说的instruction的链接吗,我几乎没找着什么关于安装使用的有用信息,我
再在windows下试试,不行就学下linux。先谢过!
c**********5
发帖数: 653
22
来自主题: Statistics版 - samtools
Did you succeed in windows, did you have a good link?
A*****n
发帖数: 243
23
来自主题: Statistics版 - samtools
If you must use it Windows, better try MingW instead of Cygwin, it maybe
helpful.
But you better learn something for linux if you want to do something related
to NGS.
首页 上页 1 2 (共2页)