由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - Gene length bias for ontology analysis.
相关主题
请教gene ontology/enrichment科学家惊奇发现章鱼基因不属于地球?
[求助]RNA-seq data怎么做broad的GSEA分析请问:基因的转录因子一定在转录起始位点上游吗?
Gene ontology和GSEA分析是不是糊弄人的啊?能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
Tool for Gene ontology annotation那个网站做gene ontology比较好啊?
Gene Ontology分析go
devono DNA motif finding 的意义【再次求助】如何对蛋白进行Gene Ontology分析?
"molecular therapy"在gene therapy 领域算是个咋样的杂志呀?protein categorization (gene ontology (GO) analysis
大家看看,这TIME上的话,是不是有语法错误?没有写代码经验,如何进行Gene Ontology/Function Classficati
相关话题的讨论汇总
话题: gene话题: go话题: length话题: 基因话题: ontology
进入Biology版参与讨论
1 (共1页)
r**********e
发帖数: 587
1
要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
找出所有含有at least one such transposon element的基因,然后把gene list直接
放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
。目的是看这些基因是否专门富集到某种category
最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
已经考虑了这个基因大小的bias?
我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
element作为分子;这样一除就是一个权重score,比如:
gene1 1/3000
gene2 2/50000
大家是如何处理这个基因长度的bias的?谢谢
n******7
发帖数: 12463
2
对这个問題没经验
我感觉这种問題的一般思路就是评估一个background (H0)
只有严重偏离background的才是true signal
btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?
G******n
发帖数: 289
3
你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
在GO的时候不用考虑length
TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
考虑。其他的model需要考虑
r**********e
发帖数: 587
4
binding site在intron的也很多啊

【在 n******7 的大作中提到】
: 对这个問題没经验
: 我感觉这种問題的一般思路就是评估一个background (H0)
: 只有严重偏离background的才是true signal
: btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?

c*********r
发帖数: 1312
5
你做DE analysis的时候是用什么package?
如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
length无关。
写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
里,应该没问题,也不需要考虑gene length。理由同上。
r**********e
发帖数: 587
6
我就是先MACS算出所有的peaks,bed format,chr:start-end
然后根据这个bed去intersect hg19 gene list
这样就得到所有至少含有一个peaks的gene的list
我的目的就是想看看至少含有一个peaks的gene到底是什么category的(但就会有gene
length bias这个问题)
“考虑过gene length之后算出来的一个list”
怎么算呢?如我说的,比如gene A,这个基因里有3个binding sites,然后基因长度是
10000,然后3/10000就是这个geneA的权重score?
然后人为的设置一个cutoff?比如score排名top 100的基因筛选出来进行 GO TERM?

【在 G******n 的大作中提到】
: 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
: 在GO的时候不用考虑length
: TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
: 考虑。其他的model需要考虑

r**********e
发帖数: 587
7
或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
such transposon element的基因,把gene list直接放到GO term里去。
而我的背景list就是default的人类基因组所有的基因吧?

reference。
GO

【在 c*********r 的大作中提到】
: 你做DE analysis的时候是用什么package?
: 如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
: ,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
: ,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
: 然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
: length无关。
: 写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
: 你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
: GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
: 如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO

c*********r
发帖数: 1312
8
如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
分析的结果。

one

【在 r**********e 的大作中提到】
: 或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
: expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
: 其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
: binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
: such transposon element的基因,把gene list直接放到GO term里去。
: 而我的背景list就是default的人类基因组所有的基因吧?
:
: reference。
: GO

r**********e
发帖数: 587
9
请教下,ChIP-seq之后如何做DE分析和GO分析呢?
我过去分析过一点点ChIP-seq,用的MACS,直接给peak。

GO

【在 c*********r 的大作中提到】
: 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
: expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
: 者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
: 如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
: 况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
: 分析的结果。
:
: one

d*********u
发帖数: 13
10
试试chip-enrich?
http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk

【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO

相关主题
devono DNA motif finding 的意义科学家惊奇发现章鱼基因不属于地球?
"molecular therapy"在gene therapy 领域算是个咋样的杂志呀?请问:基因的转录因子一定在转录起始位点上游吗?
大家看看,这TIME上的话,是不是有语法错误?能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
进入Biology版参与讨论
c*********r
发帖数: 1312
11
我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
识估计还不完全吧。
简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
提到length of differential region, 不过我就没有细看了。希望能有点帮助。
http://bib.oxfordjournals.org/content/early/2016/01/12/bib.bbv1

【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO

r**********e
发帖数: 587
12
受教了
遗憾自己一直没什么RNA-seq的训练
而现在好像bioinfor找工作好多好多都是分析RNA-seq

【在 c*********r 的大作中提到】
: 我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
: 每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
: 不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
: 虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
: 识估计还不完全吧。
: 简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
: 都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
: 基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
: ,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
: 提到length of differential region, 不过我就没有细看了。希望能有点帮助。

N******n
发帖数: 3003
13
都看几个,找几个有意义的基因就行了。
channel gene 可以先排除,第二富集的的啥?
r**********e
发帖数: 587
14
为啥先排除channel gene?

【在 N******n 的大作中提到】
: 都看几个,找几个有意义的基因就行了。
: channel gene 可以先排除,第二富集的的啥?

r**********e
发帖数: 587
15
多谢多谢
读了这个chip-enrich,还发现另外一个很好的software:GREAT
http://bejerano.stanford.edu/great/public/html/splash.php
专门解决ChIP-seq gene enrichment的问题,自然是normalize了这个gene length的

【在 d*********u 的大作中提到】
: 试试chip-enrich?
: http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk

c***y
发帖数: 615
16
ontology enrichment是功能性分析和长度应该没有关系吧.
你说的在讨论这些问题的paper能给个link吗?

paper

【在 r**********e 的大作中提到】
: 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
: 找出所有含有at least one such transposon element的基因,然后把gene list直接
: 放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
: 。目的是看这些基因是否专门富集到某种category
: 最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
: 说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
: 对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
: 也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
: 已经考虑了这个基因大小的bias?
: 我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon

c*********r
发帖数: 1312
17
RNA-seq分析其实入门挺容易的,edX上的课程看看就会了。

【在 r**********e 的大作中提到】
: 受教了
: 遗憾自己一直没什么RNA-seq的训练
: 而现在好像bioinfor找工作好多好多都是分析RNA-seq

1 (共1页)
进入Biology版参与讨论
相关主题
没有写代码经验,如何进行Gene Ontology/Function ClassficatiGene Ontology分析
请教如何处理novel genes的GO enrichment analysisdevono DNA motif finding 的意义
paper help"molecular therapy"在gene therapy 领域算是个咋样的杂志呀?
有没有同学用过一个叫GSEA(gene set enrichment analysis)的分析软件大家看看,这TIME上的话,是不是有语法错误?
请教gene ontology/enrichment科学家惊奇发现章鱼基因不属于地球?
[求助]RNA-seq data怎么做broad的GSEA分析请问:基因的转录因子一定在转录起始位点上游吗?
Gene ontology和GSEA分析是不是糊弄人的啊?能用real time RT-PCR来比较同一细胞的不同gene的含量吗?
Tool for Gene ontology annotation那个网站做gene ontology比较好啊?
相关话题的讨论汇总
话题: gene话题: go话题: length话题: 基因话题: ontology