关于ccle的讨论汇总 - 话题女王

l*******e
发帖数: 170

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织，而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株，数据做了处理，比较容易查找

M******n
发帖数: 508

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

oncomine和cbioportal都是提供分析好的数据的平台，数据来源比较杂，TCGA的原始数
据非常大，做一两个sample还行，想做大规模分析一般人没这个资源，CCLE只有细胞株
的数据

b***8
发帖数: 31

来自主题: Biology版 - 请问怎么查一个基因在某细胞中是否表达

The Cancer Cell Line Encyclopedia (CCLE)
http://www.broadinstitute.org/ccle/home

i***9
发帖数: 106

来自主题: Biology版 - 请教一个学术问题：如何知道一个细胞系比如293a的基因表达图谱

Try CCLE
http://www.broadinstitute.org/ccle/home

s******8
发帖数: 2131

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

请问TCGA的数据一般怎么分析？

M******n
发帖数: 508

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

oncomine和cbioportal上有TCGA数据的分析结果，要想分析原始数据，至少先读个CS的
master吧，然后转行得了，分析数据都省了。

C*********s
发帖数: 31

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了来源应该是Broad 只是不支持大规模的
数据下载可以自己写写script去query 用不着cs master
TCGA的原始数据如果是bam file 是需要账号的我记得只有美国的pi才行也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html

a**r
发帖数: 352

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

我的理解是，TCGA 的原始数据需要对使用人的身份进行认证和审批，raw-data，特别
是seq data，牵涉到病人的隐私（IRP和HIPAA）. 一般就是直接从TCGA的网站上下载
level-3级别的data，就是已经处理好（当然你必须要再加工，否则很难用），完全没
有个人信息的（clinical meta data也只是有病人ID）。

G******n
发帖数: 289

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

TCGA 会用R，会统计就行了，如果不分析raw data的话。
最好补一下统计和线性代数，矩阵算起来快一些。

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

我比较熟TCGA啊，哈哈，估计版上比我熟的不多。
不知道你raw data的定义，TCGA有无数high level的data，比如表达，突变，
genotype等等。TCGA的病人clinical data都deindentify了，所以用起来
没问题；但是genomic data，包括genotype等，凡是有病人基因序列的，都
属于protected, 比如用era commons账号登陆才行，这玩意儿很繁琐，不过
批准不难。
TCGA的数据主要分三部分，一个是data portal上的open access data，随便
下载；另一个是protected access data, 要账号；最后是原始的NGS data，
在ucsc的cghub上有一份，在uchicago的pdc上有一份。
另外，每次有人要玩TCGA data，我都要提醒一句有个annotation database,
这个最好研究一下，比较难用，不过不去看得话，garbage in garbage out。
对于open access的data，有一个R package叫做TCGA Assembler非常好用... 阅读全帖

a**r
发帖数: 352

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

赞详细解释！

m***T
发帖数: 11058

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

赞！解释得很详细

R****n
发帖数: 708

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

TCGA assembler 是从server上直接download？SNP什么的估计还行，RNAseq 450k,都是
几百兆上G的data怎么实时分析？我16G的机器，基本上load一个methylation的matrix
就满了。

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

我说了， NGS的BAM和FASTQ都在CGHub；所有其他能infer sequence的东西，比如
genotype, vcf，要password；其他的一切东西，包括蛋白分析，methylation, cnv,
maf(tumor - normal)， gene表达，等绝大多数，都在open access, 基本上都能
assembler弄下来。
你的450k，估计你不会自己去分析raw data吧，分析过的beta value啥都很小的。
用assembler搞450k尤其方便，因为它可以帮你搞gene level的平均，然后把gene
名字搞成hugo. TCGA的gene model是GAF2，那个是用起来相当的头痛，和其他地方
数据比较的烦死我。

matrix

R****n
发帖数: 708

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

我都是直接搞level 3,normalization让TCGA弄吧，我现在也不可能一个人把wet，dry
都从头到尾搞定了。450k的差异是很小，很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M，一种cancer300-500的病人，一般就要8-10G的内存。一般
assemble成matrix就一两个小时，这个assembler能快点不？

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

没研究过内存使用，我们自己有cloud，我一般都开一个大的，96GB一类的。
你试一下就行了，看看里面那个sample，就第一次做可能要让他抓目录过夜，
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存，一个文件
也就20M，一共五列，有用的也就是beta和gene name或者coordinate，如果
不是做genomewide(包括所有没基因的区域）, 只算gene level，就少了很多，
而且可以一个一个算，最后算个mean就行了，不需要一起放进内存。

dry

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大，不过
我只是玩过，没真用过

dry

R****n
发帖数: 708

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

K, 那就不能比了，96g ram!!土豪。我ubuntu，和windows都在这个i7+16G的机器上，
现在凑合着用。希望今年能拿点钱买个专门的server.

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的，不是给我这样乱开VM的。
说实话，要用R, core啥的都没用，主要还是ram.
其实用的不多的话，还不如上amazon. 我刚看了一下，8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用，要用的时候开大的，一年花不了几百。

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

btw, 炫耀一下。我们实验室大概有100T左右的memory，嘿嘿嘿。

m*****r
发帖数: 1164

来自主题: Biology版 - 求问一个：经典的c－myc high和low的肿瘤细胞系有哪些？

去CCLE 和 Cosmic上搜搜吧

G******n
发帖数: 289

来自主题: Biology版 - 哪个网站可以看cell line的gene expression 和mutation 还有deletion？

明显是要CCLE。
楼主要是需要可以联系我，我正好刚整理完

amplication

r******k
发帖数: 446

来自主题: Biology版 - 哪个网站可以看cell line的gene expression 和mutation 还有deletion？

弱弱的问一句啥事CCLe？？？

r******k
发帖数: 446

来自主题: Biology版 - 哪个网站可以看cell line的gene expression 和mutation 还有deletion？

弱弱的问一句啥事CCLe？？？

l***y
发帖数: 4671

来自主题: Biology版 - 在细胞内A诱导B，但在肿瘤标本中不是，为什么？谢谢！

一个可能性就是 clinical samples 不纯。tumor 是 tissue，里面有很多种细胞。比
如说，TCGA 的 BRCA tumor sample 的标准是 60% 以上的细胞核是 tumor cell 的。
sample 里面的免疫细胞往往数量比较大，很多看到的关联，其实是来自于免疫细胞而
不是 tumor cell 的。
可以考虑用 cancer cell line 的 expression 数据看一下，比如说 ccle 的数据。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天