由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 请大牛科普下这几个database:Oncomine, TCGA, CCLE, cBioPortal
相关主题
有没有tumor CNA的统计数据Heng Li长得就像个天才码农啊
有没有谁有鼓捣生物信息服务公司的想法?翻墙求合作
NCBI 的 SRA 停了?怎么GENOTYPE HOMOZYGOTE tg MICE
弱问肿瘤基因表达数据库如果genotyping结果发现一个SNP不符合HWE说明啥?
做生物实验能偷懒还获得很多data吗?wierd genotyping, and need help
copy number variationgenotype 的价格
用WGS寻找疾病structural variation的文章请问怎么查一个基因在某细胞中是否表达
machine learning来对GWAS结果建模一个GWAS genotype imputation的问题
相关话题的讨论汇总
话题: tcga话题: data话题: cbioportal话题: oncomine话题: ccle
进入Biology版参与讨论
1 (共1页)
l*******e
发帖数: 170
1
我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找
M******n
发帖数: 508
2
oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
的数据
s******8
发帖数: 2131
3
请问TCGA的数据一般怎么分析?

【在 M******n 的大作中提到】
: oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
: 据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
: 的数据

M******n
发帖数: 508
4
oncomine和cbioportal上有TCGA数据的分析结果,要想分析原始数据,至少先读个CS的
master吧,然后转行得了,分析数据都省了。

【在 s******8 的大作中提到】
: 请问TCGA的数据一般怎么分析?
C*********s
发帖数: 31
5
才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了 来源应该是Broad 只是不支持大规模的
数据下载 可以自己写写script去query 用不着cs master
TCGA的原始数据 如果是bam file 是需要账号的 我记得只有美国的pi才行 也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html

【在 l*******e 的大作中提到】
: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找

a**r
发帖数: 352
6
我的理解是,TCGA 的原始数据需要对使用人的身份进行认证和审批,raw-data,特别
是seq data, 牵涉到病人的隐私(IRP和HIPAA). 一般就是直接从TCGA的网站上下载
level-3级别的data,就是已经处理好(当然你必须要再加工,否则很难用),完全没
有个人信息的(clinical meta data也只是有病人ID)。
G******n
发帖数: 289
7
TCGA 会用R,会统计就行了,如果不分析raw data的话。
最好补一下统计和线性代数,矩阵算起来快一些。

【在 l*******e 的大作中提到】
: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找

s******s
发帖数: 13035
8
我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。
TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。
另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用。
它可以帮你自动找到需要的数据,并且做简单的处理,否则自己找累死。
类似TCGA的,还有一个TARGET,都是小孩的癌症。现在只有一个ALL的数据,
不过其他数据基本都好了,估计整理一下几个月内能出来。不过TARGET的WGS
基本是complete genomics data,也在cghub,估计大家下载了也没用。

【在 l*******e 的大作中提到】
: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找

a**r
发帖数: 352
9
赞详细解释!

【在 s******s 的大作中提到】
: 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
: 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
: genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
: 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
: 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
: 批准不难。
: TCGA的数据主要分三部分,一个是data portal上的open access data,随便
: 下载;另一个是protected access data, 要账号;最后是原始的NGS data,
: 在ucsc的cghub上有一份,在uchicago的pdc上有一份。
: 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,

m***T
发帖数: 11058
10
赞!解释得很详细

【在 s******s 的大作中提到】
: 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
: 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
: genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
: 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
: 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
: 批准不难。
: TCGA的数据主要分三部分,一个是data portal上的open access data,随便
: 下载;另一个是protected access data, 要账号;最后是原始的NGS data,
: 在ucsc的cghub上有一份,在uchicago的pdc上有一份。
: 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,

相关主题
copy number variationHeng Li长得就像个天才码农啊
用WGS寻找疾病structural variation的文章翻墙求合作
machine learning来对GWAS结果建模怎么GENOTYPE HOMOZYGOTE tg MICE
进入Biology版参与讨论
R****n
发帖数: 708
11
TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
就满了。

【在 s******s 的大作中提到】
: 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
: 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
: genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
: 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
: 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
: 批准不难。
: TCGA的数据主要分三部分,一个是data portal上的open access data,随便
: 下载;另一个是protected access data, 要账号;最后是原始的NGS data,
: 在ucsc的cghub上有一份,在uchicago的pdc上有一份。
: 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,

s******s
发帖数: 13035
12
我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。

matrix

【在 R****n 的大作中提到】
: TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
: 几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
: 就满了。

R****n
发帖数: 708
13
我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
assemble成matrix就一两个小时,这个assembler能快点不?

【在 s******s 的大作中提到】
: 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
: genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
: maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
: assembler弄下来。
: 你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
: 用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
: 名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
: 数据比较的烦死我。
:
: matrix

s******s
发帖数: 13035
14
没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。

dry

【在 R****n 的大作中提到】
: 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
: 都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
: level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
: assemble成matrix就一两个小时,这个assembler能快点不?

s******s
发帖数: 13035
15
btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大,不过
我只是玩过,没真用过

dry

【在 R****n 的大作中提到】
: 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
: 都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
: level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
: assemble成matrix就一两个小时,这个assembler能快点不?

R****n
发帖数: 708
16
K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
现在凑合着用。希望今年能拿点钱买个专门的server.

【在 s******s 的大作中提到】
: 没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
: 你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
: 然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
: 也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
: 不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
: 而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。
:
: dry

s******s
发帖数: 13035
17
应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的,不是给我这样乱开VM的。
说实话,要用R, core啥的都没用,主要还是ram.
其实用的不多的话,还不如上amazon. 我刚看了一下,8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用,要用的时候开大的,一年花不了几百。

【在 R****n 的大作中提到】
: K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
: 现在凑合着用。希望今年能拿点钱买个专门的server.

s******s
发帖数: 13035
18
btw, 炫耀一下。我们实验室大概有100T左右的memory,嘿嘿嘿。

【在 R****n 的大作中提到】
: K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
: 现在凑合着用。希望今年能拿点钱买个专门的server.

1 (共1页)
进入Biology版参与讨论
相关主题
一个GWAS genotype imputation的问题做生物实验能偷懒还获得很多data吗?
求问一个:经典的c-myc high和low的肿瘤细胞系有哪些?copy number variation
哪个网站可以看cell line的gene expression 和mutation 还有deletion?用WGS寻找疾病structural variation的文章
请教一个学术问题:如何知道一个细胞系比如293a的基因表达图谱machine learning来对GWAS结果建模
有没有tumor CNA的统计数据Heng Li长得就像个天才码农啊
有没有谁有鼓捣生物信息服务公司的想法?翻墙求合作
NCBI 的 SRA 停了?怎么GENOTYPE HOMOZYGOTE tg MICE
弱问肿瘤基因表达数据库如果genotyping结果发现一个SNP不符合HWE说明啥?
相关话题的讨论汇总
话题: tcga话题: data话题: cbioportal话题: oncomine话题: ccle