s******s 发帖数: 13035 | 1 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。
TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。
另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用... 阅读全帖 |
|
R****n 发帖数: 708 | 2 no limitation now. you can do what ever you want, but asking for a
permission from TCGA before publication. Breast cancer has around 500
patients.
https://tcga-data.nci.nih.gov/tcga/ |
|
n******e 发帖数: 110 | 3 想下载TCGA原始测序data,可看了说明说是得PI申请。是不是申请都能够批呢?上次看
到TCGA的人做报告说是所有breast cancer的数据都可以下载,没有限制了。有谁知道
给说说?谢谢! |
|
x******3 发帖数: 111 | 4 目前文章在一顶级杂志revise中,准备一个月内修回,其他实验都好办,唯独我们用的
药物临床数据是个问题,制药公司效率比较低,一个月之内不可能给我们相应的数据。
我决定尝试用其他类似的药物的临床数据(reviewer知道并且也建议这么做),不知道
TCGA
能不能解决我的问题? 我现在看到下面这篇文章应该能给我足够多的BRCA1-MUTANT病
例(~40 patients)和对carboplatin的response。
https://tcga-data.nci.nih.gov/docs/publications/ov_2011/
现在我想将他们分为两组根据我的研究的基因的表达高低,然后比较药物敏感度。
如果数据能用,我不介意增加co-author (需要跟老板商量一下,但基本上我可以决定
,老板非常好说话),但是至少会acknowledgement。
其实我们有自己的生物信息部门,但是我希望能找到一个长久合作的人士,以后不管回
国还是在国外建组时能够相互合作。
如果你觉得你有朋友可能感兴趣的的话请转告一下。不胜感激! |
|
x******3 发帖数: 111 | 5 今天终于有人联系我,非常感谢。但我不知道回信成功了没?(请联系我的邮箱
K********[email protected] )因为前几天一直没有人答复我,很着急,所以我今早去找了
我们的生物信息学部门谈了合作,不然这个周末都过不好了。但是我不知道他们能不能
帮的到我?他们说下周四之前跟我说。不知道还有人愿不愿意帮我看一下 (可能只能
acknowledgement)?
另外,如果您能找到除了下面这篇文章以外的TCGA数据库或者其他数据(BRCA1-MUTANT
肿瘤, 对cisplatin或者carboplatin的生存期)并且能用的话,我们还是很愿意加入进
去的 (可以 co-author)。
我们会在三个月内再投一篇,我希望可以找到一个可以长期合作的伙伴。
I am wondering whether you have time to discuss with the data analysis on
the BRCA1-mutant tumors from the following paper https://tcga-data.nci.nih.
gov/docs/publicatio... 阅读全帖 |
|
C*********s 发帖数: 31 | 6 才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了 来源应该是Broad 只是不支持大规模的
数据下载 可以自己写写script去query 用不着cs master
TCGA的原始数据 如果是bam file 是需要账号的 我记得只有美国的pi才行 也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html |
|
a**r 发帖数: 352 | 7 我的理解是,TCGA 的原始数据需要对使用人的身份进行认证和审批,raw-data,特别
是seq data, 牵涉到病人的隐私(IRP和HIPAA). 一般就是直接从TCGA的网站上下载
level-3级别的data,就是已经处理好(当然你必须要再加工,否则很难用),完全没
有个人信息的(clinical meta data也只是有病人ID)。 |
|
s******s 发帖数: 13035 | 8 我给你说一下随便给你fastq的严重程度吧。
我给你,我马上会被开除。
上次在TCGA的一个邮件列表里,里面绝大多数人都有这些数据权限。
其中又一个bioinformatician发现一个bug,report的时候引用了十几条
reads,也就是一个文件的百万分之一都不到吧,马上被列表管理员要求
所有的列表成员确认把那封邮件删除,然后一个一个去列表管理员里面汇
报自己删除了,没有TCGA权限的也要特别说明,然后提交NCI备注。 |
|
m***u 发帖数: 39 | 9 想看看TCGA database里miR-21在Breast cancer中的表达量的变化,有哪一个软件可以
做?现在可以download下来,但是不会分析啊??有没有同行说说。谢拉 |
|
l*******e 发帖数: 170 | 10 我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找 |
|
M******n 发帖数: 508 | 11 oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
的数据 |
|
|
M******n 发帖数: 508 | 13 oncomine和cbioportal上有TCGA数据的分析结果,要想分析原始数据,至少先读个CS的
master吧,然后转行得了,分析数据都省了。 |
|
G******n 发帖数: 289 | 14 TCGA 会用R,会统计就行了,如果不分析raw data的话。
最好补一下统计和线性代数,矩阵算起来快一些。 |
|
R****n 发帖数: 708 | 15 TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
就满了。 |
|
s******s 发帖数: 13035 | 16 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。
matrix |
|
R****n 发帖数: 708 | 17 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
assemble成matrix就一两个小时,这个assembler能快点不? |
|
s******s 发帖数: 13035 | 18 btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大,不过
我只是玩过,没真用过
dry |
|
s********9 发帖数: 132 | 19 肿瘤组织的异质性是都知道的事实了,tcga列出肿瘤中存在某个突变的时候怎么知道在
该组织中有多少比例的细胞存在这样的突变呢?在level1,2,3的数据哪一个里面能得
到这个信息呢?
多谢 |
|
n******7 发帖数: 12463 | 20 谢谢详细解答,有些是我知道的,有些细节我确实不清楚
我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
他们那个bulk download没搞清楚怎么用...
TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
我决定先投了,reviewer让QC再QC吧,结果应该只会更好
我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
以我们需要access
昨天我想要一个很简单的统计,比如每个cancer sample,整个genome上%多少的region
是double deletion, single dele... 阅读全帖 |
|
s******s 发帖数: 13035 | 21 你的理解是错误的。你要找什么data,我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA ... 阅读全帖 |
|
y**********n 发帖数: 478 | 22 把我能看到的SLC25A13的突变贴出来吧(HGMD),方便对照:
Missense/nonsense 27:
Codon change Amino acid change
tGAG-TAG Glu-Term
GCA-GAA Ala-Glu
tCGA-TGA Arg-Term
cCGA-TGA Arg-Term
TCG-TAG Ser-Term
tCGA-TGA Arg-Term
GGT-GAT Gly-Asp
cGAT-AAT Asp-Asn
tCGA-TGA Arg-Term
aCGA-TGA Arg-Term
GGC-GTC Gly-Val
aGGT-AGT Gly-Ser
aCAG-TAG Gln-Term
cACA-CCA Thr-Pro
AAG-AGG Lys-Arg
tCGA-TGA Arg-Term
aTGC-CGC Cys-Arg
GGT-GAT Gly-Asp
GCT-GAT Ala-Asp
ACG-AGG Thr-Arg
ACG-A... 阅读全帖 |
|
|
|
s******s 发帖数: 13035 | 25 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
tumor
purity |
|
s******s 发帖数: 13035 | 26 解释一下我们中心主要做什么
最大的一部分是做工程项目。GDC https://gdc.cancer.gov/是我们做的最早的也是
现在最大的data commons项目,基本上NCI CCG support的研究项目,里面有基因组数
据的都会过来,现在已经有十几个项目了(很多数据没放出来)。大家不知道CCG是干
啥的,就是做TCGA的部门,做癌症基因组这行的TCGA都知道把。现在TCGA的数据我们全
分析过一遍,在我们OpenStack的云上,然后在Google和AWS上各有一个几千个TB的copy,
现在FireCloud,7-bridges啥的都是在用云上的数据。计划以后的项目都这么搞,不愿
意下载数据的我们直接提供可视化页面分析,愿意下载在电脑里少量分析的可以用我们
的工具下载,要大量分析的,直接上云随意。
btw, 对国内科委生物大数据项目有兴趣的可以去看看国内的五年计划,基本要求就是
按照我们现在已经实现的部分写的,不谦虚的说,我们是美国第一个成功搭建的data
commons, 比国内基本领先三到五年。
在GDC的基础上,我们推出了一系列可以帮助别人搭建data com... 阅读全帖 |
|
|
n********t 发帖数: 1079 | 28 TCGA的原始数据很可能是一个烂摊子(比如他们某个小项的WGS数据中至少一半的pair
有严重的artifacts),单靠刨TCGA出来的东西,自己不实验验证,结果多数是垃圾。 |
|
Z******5 发帖数: 435 | 29 准备把GEO的和TCGA的乳腺癌数据都整理一下。 TCGA的还没详细看,但大概知道可以整
类的下载。 GEO的自己处理了一些,但是搜索和分类有点麻烦,要是有直接分类好的
就好了。 |
|
s******s 发帖数: 13035 | 30 你要表达谱的话,TCGA里面尽量用RNAseqV2, 然后把annotation里面提到的去掉。
不过,TCGA里面V2用的是mapslice+RSEM,gene model是GAF2,单独看还行,
和其他的项目比较还有more work |
|
s******s 发帖数: 13035 | 31 有啊。TCGA一堆数据, SNP6 level 3 segmentation data, open-access
没空研究的,去看一下Broad ABSOLUTE的paper,可能TCGA pan-cancer的paper也有 |
|
n******7 发帖数: 12463 | 32 TCGA 的CNA基本都是microarray based
基于WGS的data存在CGhub
这些data process过后再ICGC有(我在TCGA死活没找到)
而这个是controlled access |
|
s******s 发帖数: 13035 | 33 我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道,直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分... 阅读全帖 |
|
n******7 发帖数: 12463 | 34
我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
--
这个不错。不过好像没有sample annotation information? 用data matrix会生成一
个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
sample挺方便的
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
--
这个我也了解不多,我们知道有处理过的data之后,就混乱进去,现在等他们给我们一
个什么wiki的access,估计有do... 阅读全帖 |
|
n******7 发帖数: 12463 | 35 sequencing center?
你说的这些TCGA的问题让我感觉这是一个巨大的坑
我下个project还要用TCGA data,真愁死了 |
|
s******s 发帖数: 13035 | 36 正相关还是强烈诱导表达?两码事啊!
另外,你TCGA看的是什么data?不一样的平台总体可以比,个别基因可能有偏差。
话说,我最近比较TCGA和GTEx的data,发现了一个唯一而且极端显著的Tumor
Specific的regulation event, 后来发现多半是RNA-Seq analysis不一样pipeline造成
的。 |
|
s******s 发帖数: 13035 | 37 正相关还是强烈诱导表达?两码事啊!
另外,你TCGA看的是什么data?不一样的平台总体可以比,个别基因可能有偏差。
话说,我最近比较TCGA和GTEx的data,发现了一个唯一而且极端显著的Tumor
Specific的regulation event, 后来发现多半是RNA-Seq analysis不一样pipeline造成
的。 |
|
j**********9 发帖数: 4 | 38 我回复一下。记不住zhegufei2015的密码了,就用以前注册的ID回复一下。
(1)为什么和流行病学家合作?因为他们采集样本,长期跟踪病人数据;这些数据和
分析技术/实验技术同等重要甚至更为重要。很多人不满意TCGA的原因就是TCGA病人数
据不好。
(2)我没有讲清楚,这个博后位置主要是流行病学PI招的,我是Secondary mentor.
当然一起负责。
(3)其实我们自己有Bioinformatics的人处理数据,流水线的活一般不够博后干。招
博后就要写Paper的。
(4)J1是访问学者签证;H1B是只给federal government employee的。雇佣一个
federal government employee非常麻烦,关键还要看有没有位置空出来。如果申请人
背景很好而且正好属于我们特别想要的,我们需要写Memo找老板要位置。这个相当麻烦
。在美国的PhD可以用OPT。
(5)三个月前发帖子,我们完成面试,面试的人very impressive。我们正在Draft
Offer letter,现在在等第三封推荐信。现在合作招人的是另外一个流行病PI。
(6)... 阅读全帖 |
|
z**********5 发帖数: 63 | 39 我回复一下。
(1)为什么和流行病学家合作?因为他们采集样本,长期跟踪病人数据;这些数据和
分析技术/实验技术同等重要甚至更为重要。很多人不满意TCGA的原因就是TCGA病人数
据不好。
(2)我没有讲清楚,这个博后位置主要是流行病学PI招的,我是Secondary mentor.
当然一起负责。
(3)其实我们自己有Bioinformatics的人处理数据,流水线的活一般不给博后干。招
博后就要写Paper的。
(4)J1是访问学者签证;H1B是只给federal government employee的。雇佣一个
federal government employee非常麻烦,关键还要看有没有位置空出来。如果申请人
背景很好而且正好属于我们特别想要的,我们需要写Memo找老板要位置。这个相当麻烦
。在美国的PhD可以用OPT。
(5)三个月前发帖子,我们完成面试,面试的人very impressive。我们正在Draft
Offer letter,现在在等第三封推荐信。现在合作招人的是另外一个流行病PI。
(6)NIH博后有很多机会写Grant,包括内部的(NIH, NCI或者我... 阅读全帖 |
|
c********e 发帖数: 598 | 40
“很多人不满意TCGA的原因就是TCGA病人数据不好”。能展开讲讲吗? |
|
h*******k 发帖数: 975 | 41 一招毙命y
最重要的不是看到什么信息,而是不看什么信息。
SwissPro,TCGA 这些数据库,全是专门遴选的。一定要建立可靠的 server 和 流量,
确保能利用这些宝藏。 |
|
s******s 发帖数: 13035 | 42 扯淡。
美国TCGA/GTEx的基因组数据中国都随便下载。我不是说这个不需要保护,
不过其实这个基本上和国家安全毫无关系。 |
|
l***y 发帖数: 4671 | 43 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
是不依赖于特定模型的。
这个流程越来越成为主流了:对公共数据做数据挖掘来得到 knowledge,然后用这个
knowledg... 阅读全帖 |
|
l***y 发帖数: 4671 | 44 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
是不依赖于特定模型的。
这个流程越来越成为主流了:对公共数据做数据挖掘来得到 knowledge,然后用这个
knowledg... 阅读全帖 |
|
l***y 发帖数: 4671 | 45 What? 几个 TB 也叫大数据?TCGA 现在一整就是一两个 PB 的说。 |
|
m****s 发帖数: 18160 | 46 【 以下文字转载自 Biology 讨论区 】
发信人: valine (valine), 信区: Biology
标 题: Postdoctoral position available
发信站: BBS 未名空间站 (Mon Jul 1 15:38:12 2013, 美东)
Postdoctoral Fellow Position
A postdoctoral fellow position is available to study ERK3 kinase signaling
in cancer progression and metastasis. ERK3 is a member of the atypical MAP
kinase subfamily. In contrast to the well-studied classic MAPKs, such as
ERK1/2, little is known concerning the molecular regulation of ERK3
signaling and its function in cancer... 阅读全帖 |
|
|
M*P 发帖数: 6456 | 48 这个叫TCGA ,nih 从2006年开始搞,都好多年了。 |
|
h********n 发帖数: 4079 | 49 TCGA就在做你设想的事情, 做了好些年了.
很多对cancer了解不够的人喜欢说"....对肿瘤的治疗进步比较缓慢"----进展从来都有
, 也不见得慢, 只是很多人, 包括一些cancer researcher, 对cancer的复杂性大大低
估了, 所以才觉得进展缓慢. |
|
j*p 发帖数: 411 | 50 1. 许多癌症的存活率之所以很低,很大一个原因,是相当一部分患者在确诊患癌症的
时候,已经是很晚期。相反,如果发现的早,那么按照现在的医学水平,还是有很多办
法可以治愈或者控制许多癌症,并以此延长患者的生命。
2. NGS以及其他技术(例如cell sorting, signal-cell seq/image)的发展,当然也
包括像TCGA等大型项目的实施,将在不久的将来对癌症的早期诊断获得突破,尽管目前
还存有许多实验上和分析上的技术问题。
3. 然而这些技术的发展对了解癌症机理的贡献,并以此提出新的治疗方案,或者发明
新的药物,短期内不会有太大的突破。不仅仅因为癌症,作为一个笼统的概念,是数百
个不同的疾病的总和,不同的癌症发病机理有可能会非常不同。这里牵涉到的问题非常
多,例如此前有同学说的,signaling pathway,gene and protein expression, post
transcriptional and translational modification等,也涉及到DNA/RNA
methylation,acetylation, histome m... 阅读全帖 |
|