由买买提看人间百态

topics

全部话题 - 话题: cbioportal
1 (共1页)
l*******e
发帖数: 170
1
我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找
M******n
发帖数: 508
2
oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
的数据
M******n
发帖数: 508
3
oncomine和cbioportal上有TCGA数据的分析结果,要想分析原始数据,至少先读个CS的
master吧,然后转行得了,分析数据都省了。
C*********s
发帖数: 31
4
才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了 来源应该是Broad 只是不支持大规模的
数据下载 可以自己写写script去query 用不着cs master
TCGA的原始数据 如果是bam file 是需要账号的 我记得只有美国的pi才行 也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html
S*********s
发帖数: 304
5
来自主题: Biology版 - TCGA microRNA表达水平
不会编程的直接去这里查吧。
http://www.cbioportal.org/public-portal/
p********i
发帖数: 116
R****n
发帖数: 708
7
来自主题: Biology版 - 弱问肿瘤基因表达数据库
我可以做,你想查那个基因和癌症种类。 我一般是TCGA数据库,你可以用Cbioportal。
h********n
发帖数: 4079
8
来自主题: Biology版 - 弱问肿瘤基因表达数据库
I guess you can try TCGA
http://www.cbioportal.org/public-portal/
g******r
发帖数: 139
i*e
发帖数: 352
i*e
发帖数: 352
s******8
发帖数: 2131
12
请问TCGA的数据一般怎么分析?
a**r
发帖数: 352
13
我的理解是,TCGA 的原始数据需要对使用人的身份进行认证和审批,raw-data,特别
是seq data, 牵涉到病人的隐私(IRP和HIPAA). 一般就是直接从TCGA的网站上下载
level-3级别的data,就是已经处理好(当然你必须要再加工,否则很难用),完全没
有个人信息的(clinical meta data也只是有病人ID)。
G******n
发帖数: 289
14
TCGA 会用R,会统计就行了,如果不分析raw data的话。
最好补一下统计和线性代数,矩阵算起来快一些。
s******s
发帖数: 13035
15
我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。
TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。
另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用... 阅读全帖
a**r
发帖数: 352
16
赞详细解释!
m***T
发帖数: 11058
17
赞!解释得很详细
R****n
发帖数: 708
18
TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
就满了。
s******s
发帖数: 13035
19
我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。

matrix
R****n
发帖数: 708
20
我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
assemble成matrix就一两个小时,这个assembler能快点不?
s******s
发帖数: 13035
21
没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。

dry
s******s
发帖数: 13035
22
btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大,不过
我只是玩过,没真用过

dry
R****n
发帖数: 708
23
K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
现在凑合着用。希望今年能拿点钱买个专门的server.
s******s
发帖数: 13035
24
应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的,不是给我这样乱开VM的。
说实话,要用R, core啥的都没用,主要还是ram.
其实用的不多的话,还不如上amazon. 我刚看了一下,8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用,要用的时候开大的,一年花不了几百。
s******s
发帖数: 13035
25
btw, 炫耀一下。我们实验室大概有100T左右的memory,嘿嘿嘿。
G******n
发帖数: 289
26
来自主题: Biology版 - 请教基因coexpression 分析
cBioPortal
TCGA
if u r in cancer
s******s
发帖数: 13035
27
看看cbioportal或者firebrowse
1 (共1页)