r**********e 发帖数: 587 | 1 最近在做一些machine learning/data science的工作。
因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
难,或者基于top candidate来预测疾病几乎不可能。
那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
个SNP和疾病状态的关系呢?
Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
得到good estimate of parameters
但为何看到的文章这么少(或许是我孤陋寡闻)?然后也没有看到有很好的genetics
modeling运用到临床的。是因为这个真正做起来非常复杂?还是有太多arbitrary(比
如使用哪种classifier),所以也是一个坑?
不知道有没有做这个方向的,说说这是不是个坑。 |
s******s 发帖数: 13035 | 2 gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting
你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把
SNP translate到表达,然后用表达看比较容易点
【在 r**********e 的大作中提到】 : 最近在做一些machine learning/data science的工作。 : 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困 : 难,或者基于top candidate来预测疾病几乎不可能。 : 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万 : 个SNP和疾病状态的关系呢? : Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个) : 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解 : 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online : available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分 : 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
|
d********m 发帖数: 3662 | 3 对SNP modeling完全不了解,是logit or probit regression + hierarchical
probabilistic model + MCMC
这个步骤吗? |
s******s 发帖数: 13035 | 4 btw, prediXcan其实就是类似的regression,不过dependent variable是expression而已
【在 s******s 的大作中提到】 : gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting : 你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把 : SNP translate到表达,然后用表达看比较容易点
|
G***G 发帖数: 16778 | 5 what is Y?
categorical variable?
what is the x?
genotype? is it categorical variable?
【在 r**********e 的大作中提到】 : 最近在做一些machine learning/data science的工作。 : 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困 : 难,或者基于top candidate来预测疾病几乎不可能。 : 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万 : 个SNP和疾病状态的关系呢? : Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个) : 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解 : 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online : available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分 : 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
|
r***x 发帖数: 855 | 6 果然隔行如隔山啊,完全无法理解了
【在 r**********e 的大作中提到】 : 最近在做一些machine learning/data science的工作。 : 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困 : 难,或者基于top candidate来预测疾病几乎不可能。 : 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万 : 个SNP和疾病状态的关系呢? : Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个) : 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解 : 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online : available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分 : 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
|
G***G 发帖数: 16778 | 7 the key is to understand what is exactly x and Y.
【在 r***x 的大作中提到】 : 果然隔行如隔山啊,完全无法理解了
|
i*e 发帖数: 352 | 8 GWAS是很多,但是拿到数据,尤其N多个GWAS,也不是很简单
summarized results都不一定好拿
更不要说需要genotypes的情况下
有用GWAS top SNPs做polygenic risk score来预测
AUC对比之前用流行病或者临床指标的模型
结果没有太明显突出增强
也有用全基因组的SNPs做类似的工作
或者增加几个权重,比如SNP annotation或者local ancestray之类的
GWAS已经被统计流行病那拨人玩残了
genotypes是一方面,但是疾病表型是另一方面,而且是最重要的一个
这方面高质量的数据,不一定好拿到
此外像shakuras说的那种进一步结合或者转换到更有生物学意义的数据,可能是一个方法
生物学有时空性
但是目前这种snapshot类型的数据来源
多少能反应生物学,那就另说了
但是能玩
【在 r**********e 的大作中提到】 : 最近在做一些machine learning/data science的工作。 : 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困 : 难,或者基于top candidate来预测疾病几乎不可能。 : 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万 : 个SNP和疾病状态的关系呢? : Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个) : 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解 : 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online : available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分 : 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
|
h********6 发帖数: 135 | 9 Genomic selection 在 cattle 已经做了很多了。prediction accuracy 能在40%左右
就不错了
【在 r**********e 的大作中提到】 : 最近在做一些machine learning/data science的工作。 : 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困 : 难,或者基于top candidate来预测疾病几乎不可能。 : 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万 : 个SNP和疾病状态的关系呢? : Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个) : 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解 : 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online : available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分 : 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
|
G***G 发帖数: 16778 | 10 谁能告诉我们
模型中的x是什么?Y又是什么?
x是genotype,还是expression value?
Y是phenotype吗?是categorial,还是continuous?
【在 h********6 的大作中提到】 : Genomic selection 在 cattle 已经做了很多了。prediction accuracy 能在40%左右 : 就不错了
|
|
|
r**********e 发帖数: 587 | 11 Yes.
Y=control or disease,转化为0或1
X=genotype,比如0,1,2
当然看到有人说直接把AA AC CC化为0,1,2是不是不妥。
我只是对这个问题很有兴趣,但没具体做过。估计很多stat people做过可以来讲讲
: what is Y?
: categorical variable?
: what is the x?
: genotype? is it categorical variable?
【在 G***G 的大作中提到】 : 谁能告诉我们 : 模型中的x是什么?Y又是什么? : x是genotype,还是expression value? : Y是phenotype吗?是categorial,还是continuous?
|
G***G 发帖数: 16778 | 12 感觉不容易。binary variables are not suitable for linear regression.
【在 r**********e 的大作中提到】 : Yes. : Y=control or disease,转化为0或1 : X=genotype,比如0,1,2 : 当然看到有人说直接把AA AC CC化为0,1,2是不是不妥。 : 我只是对这个问题很有兴趣,但没具体做过。估计很多stat people做过可以来讲讲 : : : what is Y? : : categorical variable? : : what is the x? : : genotype? is it categorical variable?
|
d********m 发帖数: 3662 | 13 there are things called generalized linear models
【在 G***G 的大作中提到】 : 感觉不容易。binary variables are not suitable for linear regression.
|
I**********r 发帖数: 72 | |
r**********e 发帖数: 587 | 15 Many thanks!
我没有找到正确的关键词polygenic
一搜polygenic,一大堆文章,果然就是被biostatistics玩残了的。
我在想:
1, input selection (应该选择多少snp,是否根据snp的功能分配weight)
2, machine learning的不同model (svm,random forest,linear mixed
regression, sparse regression..)
3, 有如此多不同的疾病
感觉跟作实验一样,也是很多不同hypothesis:assume不同的input snp,尝试不同的
model;然后如此多不同疾病的大量的gwas数据,说不定就碰运气得到好的performance
,然后用到临床上去的?
比如最近这个:
http://www.nature.com/nature/journal/v542/n7639/full/nature21056.html#ref4
Dermatologist-level classification of skin cancer with deep neural networks
还没仔细读,但能到nature上,不知道是否是很成功的deep learning用到临床
【在 i*e 的大作中提到】 : GWAS是很多,但是拿到数据,尤其N多个GWAS,也不是很简单 : summarized results都不一定好拿 : 更不要说需要genotypes的情况下 : 有用GWAS top SNPs做polygenic risk score来预测 : AUC对比之前用流行病或者临床指标的模型 : 结果没有太明显突出增强 : 也有用全基因组的SNPs做类似的工作 : 或者增加几个权重,比如SNP annotation或者local ancestray之类的 : GWAS已经被统计流行病那拨人玩残了 : genotypes是一方面,但是疾病表型是另一方面,而且是最重要的一个
|
G***G 发帖数: 16778 | 16 are you sure it will work?
in his model, y and x both are binary.
I am not a statistician. Can someone confirm the following statement for us?
Generalized linear model cannot deal well with binary x.
【在 d********m 的大作中提到】 : there are things called generalized linear models
|
G***G 发帖数: 16778 | 17 first time heard of this.
is this powerful?
For the Linear Mixed model, is it good when predictors are all binary?
【在 I**********r 的大作中提到】 : Bayesian sparse LMM
|
d********m 发帖数: 3662 | 18 Let me put it this way. ANOVA is a linear regression model with random error
being normally distributed and predictors being encoded categorically. It'
s called dummy variables.
The same idea can certainly be applied on to generalized linear model with
different form of random errors.
us?
【在 G***G 的大作中提到】 : are you sure it will work? : in his model, y and x both are binary. : I am not a statistician. Can someone confirm the following statement for us? : Generalized linear model cannot deal well with binary x.
|
g**********y 发帖数: 423 | 19 glm的y有个link function,binary 一般是logit。
glm的x可以是binary,这里的binary必须作为categorical。 |