由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 下一代技术测序分析结果需要会什么软件技术?
相关主题
NGS(GATK) vs Sanger results该转到computational bio领域吗
问个whole exome capture之后出来的data要怎么分析新手请教CNV caller
请教Bioinformatics职业规划~~~Bioinformatics招人 提供refer
版上有谁用过或知道Knome这个公司吗?制药公司招生物信息Senior Information Scientist
bioinformatics吐下槽Heng Li长得就像个天才码农啊
bioinformatics postdoc poition($35,000 - $40,000)【包子求助】call SNPs 有哪些工具??
贡献一个SNP/Indel calling pipeline高年级PhD毕业求建议
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?illumina测序数据分析
相关话题的讨论汇总
话题: 测序话题: python话题: bwa话题: 数据分析话题: 需要
进入Biology版参与讨论
1 (共1页)
r******f
发帖数: 987
1
我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
学什么软件呢?
听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。
M*P
发帖数: 6456
2
接触有什么用?公司已经做好了。

【在 r******f 的大作中提到】
: 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢?
: 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
: 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。

x***u
发帖数: 297
3
如果是想省钱的话就不用想了。基本上是培养出来一个,走一个。如果是想提升对数据
分析结果的理解,可以从broad institute 的 "best practice" 看起。

【在 r******f 的大作中提到】
: 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢?
: 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
: 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。

f*****n
发帖数: 499
4
做一回雷锋
如果你想从raw fastq data到结果,大概两个步骤:
1. raw fastq--bwa--mutation/gene expression
主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你
的目标是找variants那就用GATK这样的主流软件
1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC
来submit job,学会tune BWA/GATK的参数,是很容易的。
1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组
需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。
1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
你可以理解这一步就是从海量海量的数据里初步filter出你要的东西,但是粗糙的东西
,不是完整产品
2. gene expression---统计分析/美丽的图图
这个主要是RNA-seq,你tophat之类的得到一堆基因的expression pattern,这时候你
需要画heatmap吧?correlation map吧?就是看看哪些基因表达降低了之类的
2a. 这时候就到了你所说的python了,这里对编程的要求就比前面高了,你需要学基础
的python或者R来画图
2b. 但这时候你面对的数据量(也就是提取出来的feature)要小很多,比如就
5000X5000行这种,不像前面的三亿行
2c. 因为要自己coding,所以python的基础什么syntax,pandas还是要稍微理解一点
其实都不难,只要用心
但需要不少积累,给你一下子灌输这么多脑子会大,如果过去没有计算机数学基础
不过当你喜欢做这个之后,鬼才做实验呢,都转data analyst了

【在 r******f 的大作中提到】
: 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢?
: 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
: 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。

f*****n
发帖数: 499
5
基本上是培养出来一个,走一个
您是说培养出一个做计算的,就都跳槽转行去做data的了?
lol

【在 x***u 的大作中提到】
: 如果是想省钱的话就不用想了。基本上是培养出来一个,走一个。如果是想提升对数据
: 分析结果的理解,可以从broad institute 的 "best practice" 看起。

s******s
发帖数: 13035
6
如果是RNA的话,现在有很多很方便的软件可以用。
可以拿这些上手啊,有些连mapping步骤都不用了。
不过一般linux得比较熟练,会点bash/perl/python。
再傻瓜的也可以用用galaxy嘛

【在 r******f 的大作中提到】
: 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢?
: 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
: 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。

r******f
发帖数: 987
7
太感激了,真不愧是大侠啊,多谢指点,我慢慢学起来。

HPCC

【在 f*****n 的大作中提到】
: 做一回雷锋
: 如果你想从raw fastq data到结果,大概两个步骤:
: 1. raw fastq--bwa--mutation/gene expression
: 主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你
: 的目标是找variants那就用GATK这样的主流软件
: 1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC
: 来submit job,学会tune BWA/GATK的参数,是很容易的。
: 1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组
: 需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。
: 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care

r******f
发帖数: 987
8
我去看看best practice,也多谢指点啊。

【在 x***u 的大作中提到】
: 如果是想省钱的话就不用想了。基本上是培养出来一个,走一个。如果是想提升对数据
: 分析结果的理解,可以从broad institute 的 "best practice" 看起。

a******r
发帖数: 786
9
用galaxy 吧,
上手比较块
r******f
发帖数: 987
10
谢谢啦,我加紧学!

【在 a******r 的大作中提到】
: 用galaxy 吧,
: 上手比较块

相关主题
bioinformatics postdoc poition($35,000 - $40,000)该转到computational bio领域吗
贡献一个SNP/Indel calling pipeline新手请教CNV caller
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?Bioinformatics招人 提供refer
进入Biology版参与讨论
s******s
发帖数: 13035
11
全不懂的,还是从有UI的东西学起吧。比如Galaxy, DNA Nexus, 7-bridges,
Firecloud,
后面三个记得以前都有free credit,先跑几个练练手。

【在 r******f 的大作中提到】
: 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢?
: 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
: 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。

E*******e
发帖数: 4
12
既然都找公司了,分析的工作交给公司好了。作为客户,我觉得有两点,一是理解数据
格式,比如BAM、BED;二是学会用IGV,可以用来读取并可视化BAM、BED、TDF、
Bedgraph等多种数据,也可以加载一些公共数据(如ENCODE),这样你就可以结合公司
的报告对这些报告产生的数据基础有个直观的认识。

【在 r******f 的大作中提到】
: 我们现在测很多序列,但是都是准备好样品,送出去测,然后公司直接给报告,我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢?
: 听说要python,这个可以做测序结果的数据分析吗?但是貌似python并不是一种软件,
: 更像是一种语言,难道要自己编程?比较晕,求指点,多谢了。

s*********y
发帖数: 1189
13
thank you
I******i
发帖数: 203
14
从哪里可以下载一个sample raw data? 我想学习一下这些软件
w******a
发帖数: 1527
15
感谢活雷锋。

HPCC

【在 f*****n 的大作中提到】
: 做一回雷锋
: 如果你想从raw fastq data到结果,大概两个步骤:
: 1. raw fastq--bwa--mutation/gene expression
: 主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你
: 的目标是找variants那就用GATK这样的主流软件
: 1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC
: 来submit job,学会tune BWA/GATK的参数,是很容易的。
: 1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组
: 需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。
: 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care

1 (共1页)
进入Biology版参与讨论
相关主题
illumina测序数据分析bioinformatics吐下槽
现在测序哪家强?能不能找蓝翔啊bioinformatics postdoc poition($35,000 - $40,000)
问个人基因组测序的问题贡献一个SNP/Indel calling pipeline
这个值得关注吗?Brain Activity Map有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
NGS(GATK) vs Sanger results该转到computational bio领域吗
问个whole exome capture之后出来的data要怎么分析新手请教CNV caller
请教Bioinformatics职业规划~~~Bioinformatics招人 提供refer
版上有谁用过或知道Knome这个公司吗?制药公司招生物信息Senior Information Scientist
相关话题的讨论汇总
话题: 测序话题: python话题: bwa话题: 数据分析话题: 需要