l*******e 发帖数: 170 | 1 我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找 |
M******n 发帖数: 508 | 2 oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
的数据 |
s******8 发帖数: 2131 | 3 请问TCGA的数据一般怎么分析?
【在 M******n 的大作中提到】 : oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数 : 据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株 : 的数据
|
M******n 发帖数: 508 | 4 oncomine和cbioportal上有TCGA数据的分析结果,要想分析原始数据,至少先读个CS的
master吧,然后转行得了,分析数据都省了。
【在 s******8 的大作中提到】 : 请问TCGA的数据一般怎么分析?
|
C*********s 发帖数: 31 | 5 才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了 来源应该是Broad 只是不支持大规模的
数据下载 可以自己写写script去query 用不着cs master
TCGA的原始数据 如果是bam file 是需要账号的 我记得只有美国的pi才行 也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html
【在 l*******e 的大作中提到】 : 我目前的理解是 : Oncomine只有transcript data (mRNA)。 : TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data : CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株 : cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找
|
a**r 发帖数: 352 | 6 我的理解是,TCGA 的原始数据需要对使用人的身份进行认证和审批,raw-data,特别
是seq data, 牵涉到病人的隐私(IRP和HIPAA). 一般就是直接从TCGA的网站上下载
level-3级别的data,就是已经处理好(当然你必须要再加工,否则很难用),完全没
有个人信息的(clinical meta data也只是有病人ID)。 |
G******n 发帖数: 289 | 7 TCGA 会用R,会统计就行了,如果不分析raw data的话。
最好补一下统计和线性代数,矩阵算起来快一些。
【在 l*******e 的大作中提到】 : 我目前的理解是 : Oncomine只有transcript data (mRNA)。 : TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data : CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株 : cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找
|
s******s 发帖数: 13035 | 8 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。
TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。
另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用。
它可以帮你自动找到需要的数据,并且做简单的处理,否则自己找累死。
类似TCGA的,还有一个TARGET,都是小孩的癌症。现在只有一个ALL的数据,
不过其他数据基本都好了,估计整理一下几个月内能出来。不过TARGET的WGS
基本是complete genomics data,也在cghub,估计大家下载了也没用。
【在 l*******e 的大作中提到】 : 我目前的理解是 : Oncomine只有transcript data (mRNA)。 : TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data : CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株 : cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找
|
a**r 发帖数: 352 | 9 赞详细解释!
【在 s******s 的大作中提到】 : 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。 : 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变, : genotype等等。TCGA的病人clinical data都deindentify了,所以用起来 : 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都 : 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过 : 批准不难。 : TCGA的数据主要分三部分,一个是data portal上的open access data,随便 : 下载;另一个是protected access data, 要账号;最后是原始的NGS data, : 在ucsc的cghub上有一份,在uchicago的pdc上有一份。 : 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
|
m***T 发帖数: 11058 | 10 赞!解释得很详细
【在 s******s 的大作中提到】 : 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。 : 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变, : genotype等等。TCGA的病人clinical data都deindentify了,所以用起来 : 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都 : 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过 : 批准不难。 : TCGA的数据主要分三部分,一个是data portal上的open access data,随便 : 下载;另一个是protected access data, 要账号;最后是原始的NGS data, : 在ucsc的cghub上有一份,在uchicago的pdc上有一份。 : 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
|
|
|
R****n 发帖数: 708 | 11 TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
就满了。
【在 s******s 的大作中提到】 : 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。 : 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变, : genotype等等。TCGA的病人clinical data都deindentify了,所以用起来 : 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都 : 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过 : 批准不难。 : TCGA的数据主要分三部分,一个是data portal上的open access data,随便 : 下载;另一个是protected access data, 要账号;最后是原始的NGS data, : 在ucsc的cghub上有一份,在uchicago的pdc上有一份。 : 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
|
s******s 发帖数: 13035 | 12 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。
matrix
【在 R****n 的大作中提到】 : TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是 : 几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix : 就满了。
|
R****n 发帖数: 708 | 13 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
assemble成matrix就一两个小时,这个assembler能快点不?
【在 s******s 的大作中提到】 : 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如 : genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv, : maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能 : assembler弄下来。 : 你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。 : 用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene : 名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方 : 数据比较的烦死我。 : : matrix
|
s******s 发帖数: 13035 | 14 没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。
dry
【在 R****n 的大作中提到】 : 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry : 都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个 : level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般 : assemble成matrix就一两个小时,这个assembler能快点不?
|
s******s 发帖数: 13035 | 15 btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大,不过
我只是玩过,没真用过
dry
【在 R****n 的大作中提到】 : 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry : 都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个 : level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般 : assemble成matrix就一两个小时,这个assembler能快点不?
|
R****n 发帖数: 708 | 16 K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
现在凑合着用。希望今年能拿点钱买个专门的server.
【在 s******s 的大作中提到】 : 没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。 : 你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜, : 然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件 : 也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果 : 不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多, : 而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。 : : dry
|
s******s 发帖数: 13035 | 17 应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的,不是给我这样乱开VM的。
说实话,要用R, core啥的都没用,主要还是ram.
其实用的不多的话,还不如上amazon. 我刚看了一下,8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用,要用的时候开大的,一年花不了几百。
【在 R****n 的大作中提到】 : K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上, : 现在凑合着用。希望今年能拿点钱买个专门的server.
|
s******s 发帖数: 13035 | 18 btw, 炫耀一下。我们实验室大概有100T左右的memory,嘿嘿嘿。
【在 R****n 的大作中提到】 : K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上, : 现在凑合着用。希望今年能拿点钱买个专门的server.
|