由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教一个microarray问题
相关主题
军版悬案求助:万能的军版求问个数学问题[合集] inverse function for Normal Distr.
CNN 能对输入的image做patch normalization么?请有图形编程经验的大牛给看看
An algorithm question.Tag的实现
c++里如何产生一个standard normal sample这样的代码有啥意义么
哪位同学推荐本数据库设计方面的好书?? (转载)计算围棋棋盘合法图案的源代码
double转换int的问题SQL要学到什么程度?要写sub procedure吗?
这该是什么统计术语?Spark 和 Tensorflow 线性回归问题
a newbie java question (转载)技术问题探讨:数据处理
相关话题的讨论汇总
话题: mas5话题: cel话题: rma话题: microarray
进入Programming版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
请版上的生物专家帮忙。
我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
需要把.CEL文件处理成适合机器学习的格式。
目前我用的就是三行R程序。
data <- ReadAffy(filenames=args[1])
eset.mas5 <- mas5(data)
write.exprs(est.mas5, file=args[2])
想请教下这种数据应该做什么样的normalization或者别的预处理
才适合进行后续机器学习。
穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。
g******w
发帖数: 78
2
Quantile Normalization可以试试

【在 w***g 的大作中提到】
: 请版上的生物专家帮忙。
: 我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
: 需要把.CEL文件处理成适合机器学习的格式。
: 目前我用的就是三行R程序。
: data <- ReadAffy(filenames=args[1])
: eset.mas5 <- mas5(data)
: write.exprs(est.mas5, file=args[2])
: 想请教下这种数据应该做什么样的normalization或者别的预处理
: 才适合进行后续机器学习。
: 穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。

w***g
发帖数: 5958
3
这个mas5的数值直接用可以吗?
或者mas5经过quantile normalization就可以直接用了吗?
主要是我这个数据提取不能显得太外行。后续机器学习倒是没问题。
多谢!

【在 g******w 的大作中提到】
: Quantile Normalization可以试试
x***u
发帖数: 297
4
mas5 已经是Normalized的了。再加其他的不太好。
MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
normalized。
像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
between chips,。
W***o
发帖数: 6519
5
是不是还要参照cDNA的量来normalize一下?
5年多没搞这东西了,呵呵
w***g
发帖数: 5958
6
是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
我从网上下了好几千个cel文件,如果normalize between chips会太慢,
或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。

【在 x***u 的大作中提到】
: mas5 已经是Normalized的了。再加其他的不太好。
: MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
: normalized。
: 像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
: between chips,。

A*****n
发帖数: 243
7
可以试一下frozen robust RMA (fRMA)。如果你这么多CEL都是来自于GEO的话,有一些
lab做过统一处理的事情,应该可以直接下载。不过这么多CEL,最后normarlization的
计算都很简单,meta data curation才最麻烦。

【在 w***g 的大作中提到】
: 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
: 我从网上下了好几千个cel文件,如果normalize between chips会太慢,
: 或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。

w***g
发帖数: 5958
8
请版上的生物专家帮忙。
我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
需要把.CEL文件处理成适合机器学习的格式。
目前我用的就是三行R程序。
data <- ReadAffy(filenames=args[1])
eset.mas5 <- mas5(data)
write.exprs(est.mas5, file=args[2])
想请教下这种数据应该做什么样的normalization或者别的预处理
才适合进行后续机器学习。
穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。
g******w
发帖数: 78
9
Quantile Normalization可以试试

【在 w***g 的大作中提到】
: 请版上的生物专家帮忙。
: 我有一批基因芯片数据,型号是affymetrix HG-U133_Plus_2。
: 需要把.CEL文件处理成适合机器学习的格式。
: 目前我用的就是三行R程序。
: data <- ReadAffy(filenames=args[1])
: eset.mas5 <- mas5(data)
: write.exprs(est.mas5, file=args[2])
: 想请教下这种数据应该做什么样的normalization或者别的预处理
: 才适合进行后续机器学习。
: 穷酸就穷酸吧。我反正是靠情怀活着,偶尔也做点火坑专业的事情。

w***g
发帖数: 5958
10
这个mas5的数值直接用可以吗?
或者mas5经过quantile normalization就可以直接用了吗?
主要是我这个数据提取不能显得太外行。后续机器学习倒是没问题。
多谢!

【在 g******w 的大作中提到】
: Quantile Normalization可以试试
相关主题
double转换int的问题[合集] inverse function for Normal Distr.
这该是什么统计术语?请有图形编程经验的大牛给看看
a newbie java question (转载)Tag的实现
进入Programming版参与讨论
x***u
发帖数: 297
11
mas5 已经是Normalized的了。再加其他的不太好。
MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
normalized。
像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
between chips,。
W***o
发帖数: 6519
12
是不是还要参照cDNA的量来normalize一下?
5年多没搞这东西了,呵呵
w***g
发帖数: 5958
13
是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
我从网上下了好几千个cel文件,如果normalize between chips会太慢,
或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。

【在 x***u 的大作中提到】
: mas5 已经是Normalized的了。再加其他的不太好。
: MAS5 是比较老的Normalization方法,最初是给 3‘ Chip 做的,每个array是独立
: normalized。
: 像affy这种 u133 plus 2 是probe level的 chp 用 RMA比较好。RMA会normalize
: between chips,。

A*****n
发帖数: 243
14
可以试一下frozen robust RMA (fRMA)。如果你这么多CEL都是来自于GEO的话,有一些
lab做过统一处理的事情,应该可以直接下载。不过这么多CEL,最后normarlization的
计算都很简单,meta data curation才最麻烦。

【在 w***g 的大作中提到】
: 是的。似乎我那个程序默认是用RMA。但是医院给的数据可以和mas5对上。
: 我从网上下了好几千个cel文件,如果normalize between chips会太慢,
: 或者干脆程序不正常吧。这些cel可能是很不同的实验做出来的。

g**********y
发帖数: 423
15
几乎所有的microarray data的主要问题是batch effect的问题,不是machine
learning的问题。
1 (共1页)
进入Programming版参与讨论
相关主题
技术问题探讨:数据处理哪位同学推荐本数据库设计方面的好书?? (转载)
C/C++里面求normal distribution的cdf有可直接调用的函数吗?double转换int的问题
老魏的支持者都是卖机器的吧?这该是什么统计术语?
microarray 原始数据分析求助a newbie java question (转载)
军版悬案求助:万能的军版求问个数学问题[合集] inverse function for Normal Distr.
CNN 能对输入的image做patch normalization么?请有图形编程经验的大牛给看看
An algorithm question.Tag的实现
c++里如何产生一个standard normal sample这样的代码有啥意义么
相关话题的讨论汇总
话题: mas5话题: cel话题: rma话题: microarray