r**********e 发帖数: 587 | 1 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
找出所有含有at least one such transposon element的基因,然后把gene list直接
放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
。目的是看这些基因是否专门富集到某种category
最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
已经考虑了这个基因大小的bias?
我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
element作为分子;这样一除就是一个权重score,比如:
gene1 1/3000
gene2 2/50000
大家是如何处理这个基因长度的bias的?谢谢 |
n******7 发帖数: 12463 | 2 对这个問題没经验
我感觉这种問題的一般思路就是评估一个background (H0)
只有严重偏离background的才是true signal
btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多? |
G******n 发帖数: 289 | 3 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
在GO的时候不用考虑length
TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
考虑。其他的model需要考虑 |
r**********e 发帖数: 587 | 4 binding site在intron的也很多啊
【在 n******7 的大作中提到】 : 对这个問題没经验 : 我感觉这种問題的一般思路就是评估一个background (H0) : 只有严重偏离background的才是true signal : btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?
|
c*********r 发帖数: 1312 | 5 你做DE analysis的时候是用什么package?
如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
length无关。
写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
里,应该没问题,也不需要考虑gene length。理由同上。 |
r**********e 发帖数: 587 | 6 我就是先MACS算出所有的peaks,bed format,chr:start-end
然后根据这个bed去intersect hg19 gene list
这样就得到所有至少含有一个peaks的gene的list
我的目的就是想看看至少含有一个peaks的gene到底是什么category的(但就会有gene
length bias这个问题)
“考虑过gene length之后算出来的一个list”
怎么算呢?如我说的,比如gene A,这个基因里有3个binding sites,然后基因长度是
10000,然后3/10000就是这个geneA的权重score?
然后人为的设置一个cutoff?比如score排名top 100的基因筛选出来进行 GO TERM?
【在 G******n 的大作中提到】 : 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以 : 在GO的时候不用考虑length : TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用 : 考虑。其他的model需要考虑
|
r**********e 发帖数: 587 | 7 或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
such transposon element的基因,把gene list直接放到GO term里去。
而我的背景list就是default的人类基因组所有的基因吧?
reference。
GO
【在 c*********r 的大作中提到】 : 你做DE analysis的时候是用什么package? : 如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化 : ,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的 : ,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。 : 然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene : length无关。 : 写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。 : 你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到 : GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。 : 如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
|
c*********r 发帖数: 1312 | 8 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
分析的结果。
one
【在 r**********e 的大作中提到】 : 或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential : expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析) : 其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的 : binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one : such transposon element的基因,把gene list直接放到GO term里去。 : 而我的背景list就是default的人类基因组所有的基因吧? : : reference。 : GO
|
r**********e 发帖数: 587 | 9 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
GO
【在 c*********r 的大作中提到】 : 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential : expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或 : 者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。 : 如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情 : 况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO : 分析的结果。 : : one
|
d*********u 发帖数: 13 | 10 试试chip-enrich?
http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk
【在 r**********e 的大作中提到】 : 请教下,ChIP-seq之后如何做DE分析和GO分析呢? : 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。 : : GO
|
|
|
c*********r 发帖数: 1312 | 11 我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
识估计还不完全吧。
简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
提到length of differential region, 不过我就没有细看了。希望能有点帮助。
http://bib.oxfordjournals.org/content/early/2016/01/12/bib.bbv1
【在 r**********e 的大作中提到】 : 请教下,ChIP-seq之后如何做DE分析和GO分析呢? : 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。 : : GO
|
r**********e 发帖数: 587 | 12 受教了
遗憾自己一直没什么RNA-seq的训练
而现在好像bioinfor找工作好多好多都是分析RNA-seq
【在 c*********r 的大作中提到】 : 我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计 : 每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在 : 不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考 : 虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知 : 识估计还不完全吧。 : 简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎 : 都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑 : 基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件 : ,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也 : 提到length of differential region, 不过我就没有细看了。希望能有点帮助。
|
N******n 发帖数: 3003 | 13 都看几个,找几个有意义的基因就行了。
channel gene 可以先排除,第二富集的的啥? |
r**********e 发帖数: 587 | 14 为啥先排除channel gene?
【在 N******n 的大作中提到】 : 都看几个,找几个有意义的基因就行了。 : channel gene 可以先排除,第二富集的的啥?
|
r**********e 发帖数: 587 | 15 多谢多谢
读了这个chip-enrich,还发现另外一个很好的software:GREAT
http://bejerano.stanford.edu/great/public/html/splash.php
专门解决ChIP-seq gene enrichment的问题,自然是normalize了这个gene length的
【在 d*********u 的大作中提到】 : 试试chip-enrich? : http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk
|
c***y 发帖数: 615 | 16 ontology enrichment是功能性分析和长度应该没有关系吧.
你说的在讨论这些问题的paper能给个link吗?
paper
【在 r**********e 的大作中提到】 : 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker, : 找出所有含有at least one such transposon element的基因,然后把gene list直接 : 放到GO term里去(这里background gene set就是default的人类基因组的所有基因) : 。目的是看这些基因是否专门富集到某种category : 最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义 : 说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。 : 对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper : 也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否 : 已经考虑了这个基因大小的bias? : 我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
|
c*********r 发帖数: 1312 | 17 RNA-seq分析其实入门挺容易的,edX上的课程看看就会了。
【在 r**********e 的大作中提到】 : 受教了 : 遗憾自己一直没什么RNA-seq的训练 : 而现在好像bioinfor找工作好多好多都是分析RNA-seq
|