Gene length bias for ontology analysis. - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - Gene length bias for ontology analysis.

相关主题
● 请教gene ontology/enrichment	● 科学家惊奇发现章鱼基因不属于地球？
● [求助]RNA-seq data怎么做broad的GSEA分析	● 请问：基因的转录因子一定在转录起始位点上游吗？
● Gene ontology和GSEA分析是不是糊弄人的啊？	● 能用real time RT-PCR来比较同一细胞的不同gene的含量吗？
● Tool for Gene ontology annotation	● 那个网站做gene ontology比较好啊？
● Gene Ontology分析	● go
● devono DNA motif finding 的意义	● 【再次求助】如何对蛋白进行Gene Ontology分析？
● "molecular therapy"在gene therapy 领域算是个咋样的杂志呀？	● protein categorization (gene ontology (GO) analysis
● 大家看看，这TIME上的话，是不是有语法错误？	● 没有写代码经验，如何进行Gene Ontology/Function Classficati

相关话题的讨论汇总
话题: gene话题: go话题: length话题: 基因话题: ontology

进入Biology版参与讨论

(共1页)

r**********e
发帖数: 587

要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker，
找出所有含有at least one such transposon element的基因，然后把gene list直接
放到GO term里去（这里background gene set就是default的人类基因组的所有基因）
。目的是看这些基因是否专门富集到某种category
最后结果的top hit是channel gene；但是有一个问题，很多channel gene（或者广义
说brain gene）整个的gene size就比一般的基因大的多，有非常长的intron区域。
对于gene enrichment/ontology,这个基因长度是不是很大的bias？我搜索到一些paper
也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
已经考虑了这个基因大小的bias？
我还有一个想法，就是那gene size作为分母，而一个基因里含有几个transposon
element作为分子；这样一除就是一个权重score，比如：
gene1 1/3000
gene2 2/50000
大家是如何处理这个基因长度的bias的？谢谢

n******7
发帖数: 12463

对这个問題没经验
我感觉这种問題的一般思路就是评估一个background (H0)
只有严重偏离background的才是true signal
btw, 一般TFBS不是看调节区域吗，binding site在gene体的似乎不多？

G******n
发帖数: 289

你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list，所以
在GO的时候不用考虑length
TF的话，要看你用什么办法算的，如果是简单的像DAVID一样的enrichment，那也不用
考虑。其他的model需要考虑

r**********e
发帖数: 587

binding site在intron的也很多啊

【在 n******7 的大作中提到】

: 对这个問題没经验
: 我感觉这种問題的一般思路就是评估一个background (H0)
: 只有严重偏离background的才是true signal
: btw, 一般TFBS不是看调节区域吗，binding site在gene体的似乎不多？

c*********r
发帖数: 1312

你做DE analysis的时候是用什么package？
如果是DESeq2或者EdgeR，默认不需要考虑gene length。因为默认是比较相对表达变化
，不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
，gene length也都是一样的，所以不依赖于gene length。除非你用不同的reference。
然后GO analysis input 是DE analysis output，只分析那些DE gene，也和gene
length无关。
写到这里我又看了一下你的问题，突然明白了我以上回答答非所问。。。
你只看了某“一个”TF的binding site，然后把这一个list，没有做任何DE，直接放到
GO里了吗？如果只有一个组织，没有做DE，我不确定这样做是否正确。
如果是同一个TF，但是有两个或更多的不同组织，做了DE之后，然后把DE list放到GO
里，应该没问题，也不需要考虑gene length。理由同上。

r**********e
发帖数: 587

我就是先MACS算出所有的peaks，bed format，chr:start-end
然后根据这个bed去intersect hg19 gene list
这样就得到所有至少含有一个peaks的gene的list
我的目的就是想看看至少含有一个peaks的gene到底是什么category的(但就会有gene
length bias这个问题)
“考虑过gene length之后算出来的一个list”
怎么算呢？如我说的，比如gene A，这个基因里有3个binding sites，然后基因长度是
10000，然后3/10000就是这个geneA的权重score？
然后人为的设置一个cutoff？比如score排名top 100的基因筛选出来进行 GO TERM?

【在 G******n 的大作中提到】

: 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list，所以
: 在GO的时候不用考虑length
: TF的话，要看你用什么办法算的，如果是简单的像DAVID一样的enrichment，那也不用
: 考虑。其他的model需要考虑

r**********e
发帖数: 587

或许我没说清楚。DE什么的我完全不懂，貌似是RNA-seq数据分析？differential
expression?（刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析）
其实我真正研究的是某一种transposon element（只不过碰巧是某个TF ChIP-seq的
binding之一）。我其实做的事情就是根据repeatmasker，找出所有含有at least one
such transposon element的基因，把gene list直接放到GO term里去。
而我的背景list就是default的人类基因组所有的基因吧？

reference。
GO

【在 c*********r 的大作中提到】

: 你做DE analysis的时候是用什么package？
: 如果是DESeq2或者EdgeR，默认不需要考虑gene length。因为默认是比较相对表达变化
: ，不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
: ，gene length也都是一样的，所以不依赖于gene length。除非你用不同的reference。
: 然后GO analysis input 是DE analysis output，只分析那些DE gene，也和gene
: length无关。
: 写到这里我又看了一下你的问题，突然明白了我以上回答答非所问。。。
: 你只看了某“一个”TF的binding site，然后把这一个list，没有做任何DE，直接放到
: GO里了吗？如果只有一个组织，没有做DE，我不确定这样做是否正确。
: 如果是同一个TF，但是有两个或更多的不同组织，做了DE之后，然后把DE list放到GO

c*********r
发帖数: 1312

如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
expression（DE）分析的GO分析，我就不太熟悉了。如果是用来比较TFBS的“密度”或
者“浓度”，我觉得需要考虑gene length。但是具体怎么做，我不知道。
如果是做DE之后做GO，毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
况你怎么确定你的gene list的？这个gene list的大小和选择标准直接关系到后面的GO
分析的结果。

one

【在 r**********e 的大作中提到】

: 或许我没说清楚。DE什么的我完全不懂，貌似是RNA-seq数据分析？differential
: expression?（刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析）
: 其实我真正研究的是某一种transposon element（只不过碰巧是某个TF ChIP-seq的
: binding之一）。我其实做的事情就是根据repeatmasker，找出所有含有at least one
: such transposon element的基因，把gene list直接放到GO term里去。
: 而我的背景list就是default的人类基因组所有的基因吧？
:
: reference。
: GO

r**********e
发帖数: 587

请教下，ChIP-seq之后如何做DE分析和GO分析呢？
我过去分析过一点点ChIP-seq，用的MACS，直接给peak。

GO

【在 c*********r 的大作中提到】

: 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
: expression（DE）分析的GO分析，我就不太熟悉了。如果是用来比较TFBS的“密度”或
: 者“浓度”，我觉得需要考虑gene length。但是具体怎么做，我不知道。
: 如果是做DE之后做GO，毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
: 况你怎么确定你的gene list的？这个gene list的大小和选择标准直接关系到后面的GO
: 分析的结果。
:
: one

d*********u
发帖数: 13

试试chip-enrich?
http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk

【在 r**********e 的大作中提到】

: 请教下，ChIP-seq之后如何做DE分析和GO分析呢？
: 我过去分析过一点点ChIP-seq，用的MACS，直接给peak。
:
: GO

相关主题
● devono DNA motif finding 的意义	● 科学家惊奇发现章鱼基因不属于地球？
● "molecular therapy"在gene therapy 领域算是个咋样的杂志呀？	● 请问：基因的转录因子一定在转录起始位点上游吗？
● 大家看看，这TIME上的话，是不是有语法错误？	● 能用real time RT-PCR来比较同一细胞的不同gene的含量吗？
进入Biology版参与讨论

c*********r
发帖数: 1312

我也没做过，想想就觉得不容易。RNA-seq大多数基因都有明确的boundary，很好统计
每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
不同条件下来比较呢？还是调节某个基因的所有binding sites来比较？后者不但要考
虑gene length，还要考虑如何定义哪些binding sites是调节哪个基因的，这个现有知
识估计还不完全吧。
简单查了一下，目前differential binding analysis（我之前叫DE其实不对），几乎
都是比较单个的binding site/peak的count差异（如果是这样的话我觉得应该不用考虑
基因长度的影响）。下边篇文章比较了十几个ChIP-seq differential analysis的软件
，简单的提到了gene ontology，找nearest gene。所以应该还是可以做GO的。里边也
提到length of differential region, 不过我就没有细看了。希望能有点帮助。
http://bib.oxfordjournals.org/content/early/2016/01/12/bib.bbv1

【在 r**********e 的大作中提到】

: 请教下，ChIP-seq之后如何做DE分析和GO分析呢？
: 我过去分析过一点点ChIP-seq，用的MACS，直接给peak。
:
: GO

r**********e
发帖数: 587

受教了
遗憾自己一直没什么RNA-seq的训练
而现在好像bioinfor找工作好多好多都是分析RNA-seq

【在 c*********r 的大作中提到】

: 我也没做过，想想就觉得不容易。RNA-seq大多数基因都有明确的boundary，很好统计
: 每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
: 不同条件下来比较呢？还是调节某个基因的所有binding sites来比较？后者不但要考
: 虑gene length，还要考虑如何定义哪些binding sites是调节哪个基因的，这个现有知
: 识估计还不完全吧。
: 简单查了一下，目前differential binding analysis（我之前叫DE其实不对），几乎
: 都是比较单个的binding site/peak的count差异（如果是这样的话我觉得应该不用考虑
: 基因长度的影响）。下边篇文章比较了十几个ChIP-seq differential analysis的软件
: ，简单的提到了gene ontology，找nearest gene。所以应该还是可以做GO的。里边也
: 提到length of differential region, 不过我就没有细看了。希望能有点帮助。

N******n
发帖数: 3003

都看几个，找几个有意义的基因就行了。
channel gene 可以先排除，第二富集的的啥？

r**********e
发帖数: 587

为啥先排除channel gene？

【在 N******n 的大作中提到】

: 都看几个，找几个有意义的基因就行了。
: channel gene 可以先排除，第二富集的的啥？

r**********e
发帖数: 587

多谢多谢
读了这个chip-enrich，还发现另外一个很好的software：GREAT
http://bejerano.stanford.edu/great/public/html/splash.php
专门解决ChIP-seq gene enrichment的问题，自然是normalize了这个gene length的

【在 d*********u 的大作中提到】

: 试试chip-enrich?
: http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk

c***y
发帖数: 615

ontology enrichment是功能性分析和长度应该没有关系吧.
你说的在讨论这些问题的paper能给个link吗?

paper

【在 r**********e 的大作中提到】

: 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker，
: 找出所有含有at least one such transposon element的基因，然后把gene list直接
: 放到GO term里去（这里background gene set就是default的人类基因组的所有基因）
: 。目的是看这些基因是否专门富集到某种category
: 最后结果的top hit是channel gene；但是有一个问题，很多channel gene（或者广义
: 说brain gene）整个的gene size就比一般的基因大的多，有非常长的intron区域。
: 对于gene enrichment/ontology,这个基因长度是不是很大的bias？我搜索到一些paper
: 也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
: 已经考虑了这个基因大小的bias？
: 我还有一个想法，就是那gene size作为分母，而一个基因里含有几个transposon

c*********r
发帖数: 1312

RNA-seq分析其实入门挺容易的，edX上的课程看看就会了。

【在 r**********e 的大作中提到】

: 受教了
: 遗憾自己一直没什么RNA-seq的训练
: 而现在好像bioinfor找工作好多好多都是分析RNA-seq

(共1页)

进入Biology版参与讨论

相关主题
● 没有写代码经验，如何进行Gene Ontology/Function Classficati	● Gene Ontology分析
● 请教如何处理novel genes的GO enrichment analysis	● devono DNA motif finding 的意义
● paper help	● "molecular therapy"在gene therapy 领域算是个咋样的杂志呀？
● 有没有同学用过一个叫GSEA（gene set enrichment analysis）的分析软件	● 大家看看，这TIME上的话，是不是有语法错误？
● 请教gene ontology/enrichment	● 科学家惊奇发现章鱼基因不属于地球？
● [求助]RNA-seq data怎么做broad的GSEA分析	● 请问：基因的转录因子一定在转录起始位点上游吗？
● Gene ontology和GSEA分析是不是糊弄人的啊？	● 能用real time RT-PCR来比较同一细胞的不同gene的含量吗？
● Tool for Gene ontology annotation	● 那个网站做gene ontology比较好啊？

相关话题的讨论汇总
话题: gene话题: go话题: length话题: 基因话题: ontology

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天