请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

相关主题
● 有没有tumor CNA的统计数据	● Heng Li长得就像个天才码农啊
● 有没有谁有鼓捣生物信息服务公司的想法？	● 翻墙求合作
● NCBI 的 SRA 停了？	● 怎么GENOTYPE HOMOZYGOTE tg MICE
● 弱问肿瘤基因表达数据库	● 如果genotyping结果发现一个SNP不符合HWE说明啥？
● 做生物实验能偷懒还获得很多data吗？	● wierd genotyping, and need help
● copy number variation	● genotype 的价格
● 用WGS寻找疾病structural variation的文章	● 请问怎么查一个基因在某细胞中是否表达
● machine learning来对GWAS结果建模	● 一个GWAS genotype imputation的问题

相关话题的讨论汇总
话题: tcga话题: data话题: cbioportal话题: oncomine话题: ccle

进入Biology版参与讨论

(共1页)

l*******e
发帖数: 170

我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织，而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株，数据做了处理，比较容易查找

M******n
发帖数: 508

oncomine和cbioportal都是提供分析好的数据的平台，数据来源比较杂，TCGA的原始数
据非常大，做一两个sample还行，想做大规模分析一般人没这个资源，CCLE只有细胞株
的数据

s******8
发帖数: 2131

请问TCGA的数据一般怎么分析？

【在 M******n 的大作中提到】

: oncomine和cbioportal都是提供分析好的数据的平台，数据来源比较杂，TCGA的原始数
: 据非常大，做一两个sample还行，想做大规模分析一般人没这个资源，CCLE只有细胞株
: 的数据

M******n
发帖数: 508

oncomine和cbioportal上有TCGA数据的分析结果，要想分析原始数据，至少先读个CS的
master吧，然后转行得了，分析数据都省了。

【在 s******8 的大作中提到】

: 请问TCGA的数据一般怎么分析？

C*********s
发帖数: 31

才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了来源应该是Broad 只是不支持大规模的
数据下载可以自己写写script去query 用不着cs master
TCGA的原始数据如果是bam file 是需要账号的我记得只有美国的pi才行也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html

【在 l*******e 的大作中提到】

: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织，而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株，数据做了处理，比较容易查找

a**r
发帖数: 352

我的理解是，TCGA 的原始数据需要对使用人的身份进行认证和审批，raw-data，特别
是seq data，牵涉到病人的隐私（IRP和HIPAA）. 一般就是直接从TCGA的网站上下载
level-3级别的data，就是已经处理好（当然你必须要再加工，否则很难用），完全没
有个人信息的（clinical meta data也只是有病人ID）。

G******n
发帖数: 289

TCGA 会用R，会统计就行了，如果不分析raw data的话。
最好补一下统计和线性代数，矩阵算起来快一些。

【在 l*******e 的大作中提到】

s******s
发帖数: 13035

我比较熟TCGA啊，哈哈，估计版上比我熟的不多。
不知道你raw data的定义，TCGA有无数high level的data，比如表达，突变，
genotype等等。TCGA的病人clinical data都deindentify了，所以用起来
没问题；但是genomic data，包括genotype等，凡是有病人基因序列的，都
属于protected, 比如用era commons账号登陆才行，这玩意儿很繁琐，不过
批准不难。
TCGA的数据主要分三部分，一个是data portal上的open access data，随便
下载；另一个是protected access data, 要账号；最后是原始的NGS data，
在ucsc的cghub上有一份，在uchicago的pdc上有一份。
另外，每次有人要玩TCGA data，我都要提醒一句有个annotation database,
这个最好研究一下，比较难用，不过不去看得话，garbage in garbage out。
对于open access的data，有一个R package叫做TCGA Assembler非常好用。
它可以帮你自动找到需要的数据，并且做简单的处理，否则自己找累死。
类似TCGA的，还有一个TARGET，都是小孩的癌症。现在只有一个ALL的数据，
不过其他数据基本都好了，估计整理一下几个月内能出来。不过TARGET的WGS
基本是complete genomics data，也在cghub，估计大家下载了也没用。

【在 l*******e 的大作中提到】

a**r
发帖数: 352

赞详细解释！

【在 s******s 的大作中提到】

: 我比较熟TCGA啊，哈哈，估计版上比我熟的不多。
: 不知道你raw data的定义，TCGA有无数high level的data，比如表达，突变，
: genotype等等。TCGA的病人clinical data都deindentify了，所以用起来
: 没问题；但是genomic data，包括genotype等，凡是有病人基因序列的，都
: 属于protected, 比如用era commons账号登陆才行，这玩意儿很繁琐，不过
: 批准不难。
: TCGA的数据主要分三部分，一个是data portal上的open access data，随便
: 下载；另一个是protected access data, 要账号；最后是原始的NGS data，
: 在ucsc的cghub上有一份，在uchicago的pdc上有一份。
: 另外，每次有人要玩TCGA data，我都要提醒一句有个annotation database,

m***T
发帖数: 11058

赞！解释得很详细

【在 s******s 的大作中提到】

相关主题
● copy number variation	● Heng Li长得就像个天才码农啊
● 用WGS寻找疾病structural variation的文章	● 翻墙求合作
● machine learning来对GWAS结果建模	● 怎么GENOTYPE HOMOZYGOTE tg MICE
进入Biology版参与讨论

R****n
发帖数: 708

TCGA assembler 是从server上直接download？SNP什么的估计还行，RNAseq 450k,都是
几百兆上G的data怎么实时分析？我16G的机器，基本上load一个methylation的matrix
就满了。

【在 s******s 的大作中提到】

s******s
发帖数: 13035

我说了， NGS的BAM和FASTQ都在CGHub；所有其他能infer sequence的东西，比如
genotype, vcf，要password；其他的一切东西，包括蛋白分析，methylation, cnv,
maf(tumor - normal)， gene表达，等绝大多数，都在open access, 基本上都能
assembler弄下来。
你的450k，估计你不会自己去分析raw data吧，分析过的beta value啥都很小的。
用assembler搞450k尤其方便，因为它可以帮你搞gene level的平均，然后把gene
名字搞成hugo. TCGA的gene model是GAF2，那个是用起来相当的头痛，和其他地方
数据比较的烦死我。

matrix

【在 R****n 的大作中提到】

: TCGA assembler 是从server上直接download？SNP什么的估计还行，RNAseq 450k,都是
: 几百兆上G的data怎么实时分析？我16G的机器，基本上load一个methylation的matrix
: 就满了。

R****n
发帖数: 708

我都是直接搞level 3,normalization让TCGA弄吧，我现在也不可能一个人把wet，dry
都从头到尾搞定了。450k的差异是很小，很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M，一种cancer300-500的病人，一般就要8-10G的内存。一般
assemble成matrix就一两个小时，这个assembler能快点不？

【在 s******s 的大作中提到】

: 我说了， NGS的BAM和FASTQ都在CGHub；所有其他能infer sequence的东西，比如
: genotype, vcf，要password；其他的一切东西，包括蛋白分析，methylation, cnv,
: maf(tumor - normal)， gene表达，等绝大多数，都在open access, 基本上都能
: assembler弄下来。
: 你的450k，估计你不会自己去分析raw data吧，分析过的beta value啥都很小的。
: 用assembler搞450k尤其方便，因为它可以帮你搞gene level的平均，然后把gene
: 名字搞成hugo. TCGA的gene model是GAF2，那个是用起来相当的头痛，和其他地方
: 数据比较的烦死我。
:
: matrix

s******s
发帖数: 13035

没研究过内存使用，我们自己有cloud，我一般都开一个大的，96GB一类的。
你试一下就行了，看看里面那个sample，就第一次做可能要让他抓目录过夜，
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存，一个文件
也就20M，一共五列，有用的也就是beta和gene name或者coordinate，如果
不是做genomewide(包括所有没基因的区域）, 只算gene level，就少了很多，
而且可以一个一个算，最后算个mean就行了，不需要一起放进内存。

dry

【在 R****n 的大作中提到】

: 我都是直接搞level 3,normalization让TCGA弄吧，我现在也不可能一个人把wet，dry
: 都从头到尾搞定了。450k的差异是很小，很多有差异的基因均值也就差0.0x。450k一个
: level3的文件就是30M，一种cancer300-500的病人，一般就要8-10G的内存。一般
: assemble成matrix就一两个小时，这个assembler能快点不？

s******s
发帖数: 13035

btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大，不过
我只是玩过，没真用过

dry

【在 R****n 的大作中提到】

R****n
发帖数: 708

K, 那就不能比了，96g ram!!土豪。我ubuntu，和windows都在这个i7+16G的机器上，
现在凑合着用。希望今年能拿点钱买个专门的server.

【在 s******s 的大作中提到】

: 没研究过内存使用，我们自己有cloud，我一般都开一个大的，96GB一类的。
: 你试一下就行了，看看里面那个sample，就第一次做可能要让他抓目录过夜，
: 然后你研究一下估计半个小时就能搞定。应该不需要那么多内存，一个文件
: 也就20M，一共五列，有用的也就是beta和gene name或者coordinate，如果
: 不是做genomewide(包括所有没基因的区域）, 只算gene level，就少了很多，
: 而且可以一个一个算，最后算个mean就行了，不需要一起放进内存。
:
: dry

s******s
发帖数: 13035

应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的，不是给我这样乱开VM的。
说实话，要用R, core啥的都没用，主要还是ram.
其实用的不多的话，还不如上amazon. 我刚看了一下，8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用，要用的时候开大的，一年花不了几百。

【在 R****n 的大作中提到】

: K, 那就不能比了，96g ram!!土豪。我ubuntu，和windows都在这个i7+16G的机器上，
: 现在凑合着用。希望今年能拿点钱买个专门的server.

s******s
发帖数: 13035

btw, 炫耀一下。我们实验室大概有100T左右的memory，嘿嘿嘿。

【在 R****n 的大作中提到】

: K, 那就不能比了，96g ram!!土豪。我ubuntu，和windows都在这个i7+16G的机器上，
: 现在凑合着用。希望今年能拿点钱买个专门的server.

(共1页)

进入Biology版参与讨论

相关主题
● 一个GWAS genotype imputation的问题	● 做生物实验能偷懒还获得很多data吗？
● 求问一个：经典的c－myc high和low的肿瘤细胞系有哪些？	● copy number variation
● 哪个网站可以看cell line的gene expression 和mutation 还有deletion？	● 用WGS寻找疾病structural variation的文章
● 请教一个学术问题：如何知道一个细胞系比如293a的基因表达图谱	● machine learning来对GWAS结果建模
● 有没有tumor CNA的统计数据	● Heng Li长得就像个天才码农啊
● 有没有谁有鼓捣生物信息服务公司的想法？	● 翻墙求合作
● NCBI 的 SRA 停了？	● 怎么GENOTYPE HOMOZYGOTE tg MICE
● 弱问肿瘤基因表达数据库	● 如果genotyping结果发现一个SNP不符合HWE说明啥？

相关话题的讨论汇总
话题: tcga话题: data话题: cbioportal话题: oncomine话题: ccle

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天