l*******e 发帖数: 170 | 1 我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找 |
|
M******n 发帖数: 508 | 2 oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
的数据 |
|
|
|
|
M******n 发帖数: 508 | 6 oncomine和cbioportal上有TCGA数据的分析结果,要想分析原始数据,至少先读个CS的
master吧,然后转行得了,分析数据都省了。 |
|
C*********s 发帖数: 31 | 7 才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了 来源应该是Broad 只是不支持大规模的
数据下载 可以自己写写script去query 用不着cs master
TCGA的原始数据 如果是bam file 是需要账号的 我记得只有美国的pi才行 也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html |
|
a**r 发帖数: 352 | 8 我的理解是,TCGA 的原始数据需要对使用人的身份进行认证和审批,raw-data,特别
是seq data, 牵涉到病人的隐私(IRP和HIPAA). 一般就是直接从TCGA的网站上下载
level-3级别的data,就是已经处理好(当然你必须要再加工,否则很难用),完全没
有个人信息的(clinical meta data也只是有病人ID)。 |
|
G******n 发帖数: 289 | 9 TCGA 会用R,会统计就行了,如果不分析raw data的话。
最好补一下统计和线性代数,矩阵算起来快一些。 |
|
s******s 发帖数: 13035 | 10 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。
TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。
另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用... 阅读全帖 |
|
|
|
R****n 发帖数: 708 | 13 TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
就满了。 |
|
s******s 发帖数: 13035 | 14 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。
matrix |
|
R****n 发帖数: 708 | 15 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
assemble成matrix就一两个小时,这个assembler能快点不? |
|
s******s 发帖数: 13035 | 16 没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。
dry |
|
s******s 发帖数: 13035 | 17 btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大,不过
我只是玩过,没真用过
dry |
|
R****n 发帖数: 708 | 18 K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
现在凑合着用。希望今年能拿点钱买个专门的server. |
|
s******s 发帖数: 13035 | 19 应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的,不是给我这样乱开VM的。
说实话,要用R, core啥的都没用,主要还是ram.
其实用的不多的话,还不如上amazon. 我刚看了一下,8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用,要用的时候开大的,一年花不了几百。 |
|
s******s 发帖数: 13035 | 20 btw, 炫耀一下。我们实验室大概有100T左右的memory,嘿嘿嘿。 |
|
|
G******n 发帖数: 289 | 22 明显是要CCLE。
楼主要是需要可以联系我,我正好刚整理完
amplication |
|
|
|
l***y 发帖数: 4671 | 25 一个可能性就是 clinical samples 不纯。tumor 是 tissue,里面有很多种细胞。比
如说,TCGA 的 BRCA tumor sample 的标准是 60% 以上的细胞核是 tumor cell 的。
sample 里面的免疫细胞往往数量比较大,很多看到的关联,其实是来自于免疫细胞而
不是 tumor cell 的。
可以考虑用 cancer cell line 的 expression 数据看一下,比如说 ccle 的数据。 |
|