由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 一道药厂computational biology的面试题
相关主题
RNAseq, cDNA normalization的问题GenBank问题
以前的老板经常骚扰我怎么办?sexual harassment is common in scientific fieldwork
two job positions in Beijingco-first 第一位 vs co-first第二位 +co responding
是发nature子刊二作还是发Biochemistry一作? (转载)clinical genomic现在还有什么搞头?
got paid after left求助比基因芯片更准确的高通量方法
on the Future Biomedical Research Workforce如何分析Agilent array CGH raw data
88楼基本上我反对盲目扩大以下基础生物领域
急问搜索 RAR responding site比较权威的database请教native page
相关话题的讨论汇总
话题: gene话题: 病人话题: 药厂话题: expression话题: rnaseq
进入Biology版参与讨论
1 (共1页)
m******c
发帖数: 830
1
最近电面了一个大药厂的职位。这道题不知怎么答好。
有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
可以用于病人对于该治疗的预测?
Two patient cohorts, all treated with the same drug. One cohort are the
responders, who has response to the treatment and the other one are non-
responders who does not respond to the treatment. RNAseq was performed and
we have the normalized gene expression values of the 20,000 genes for each
of the patients. The expression value ranges from 0-100 with total average
of 1.
The question is how to find out a gene set (a small portion of the 20,000
gene) and use their combined (maybe weighted) gene expression value to
predict if a patient is either a responder or non-responder to the drug
treatment. It's a binary prediction.
Hope this clear.
多谢指教。
z*****e
发帖数: 33
2
先问每组多少人;
然后PLS-DA,OPLS-DA或者Random forest应该都可以。
v*******e
发帖数: 11604
3
中值为1还差不,均值为1,一个1000的需要2000个0.5的来平衡?你看他题目是不是写
错了。
m******c
发帖数: 830
4
大牛,能不能稍微详细指点一下?假设每组都有100个病人。

【在 z*****e 的大作中提到】
: 先问每组多少人;
: 然后PLS-DA,OPLS-DA或者Random forest应该都可以。

m******c
发帖数: 830
5
可能。表达值太高也没有太大意义。那就把最大值限制在100吧。

【在 v*******e 的大作中提到】
: 中值为1还差不,均值为1,一个1000的需要2000个0.5的来平衡?你看他题目是不是写
: 错了。

d********m
发帖数: 3662
6
你能不能贴下英文?看得我不太明白
d********m
发帖数: 3662
7
统计上来讲,一切都是density estimation,你自己想想有哪几个variables,弄几个
assumptions,构建joint density,然后再想想哪些方法可以estimate
conditional density,哪些就能做预测了。这个看起来就是个classification的问题
,方法取决于你对于表达量density function assumption。
m******c
发帖数: 830
8
just updated with English description. please check out again.

【在 d********m 的大作中提到】
: 你能不能贴下英文?看得我不太明白
s******s
发帖数: 13035
9
不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
要把predictor normalize吧
没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
找subset要么自动找,要么手动stepwise找。前者可以用用lasso
啥的,后者就是把p-value大的,或者information gain多的predictor
一个一个加回去,直到predictor power(比如AUC)不增加为止。当
然最后要一个binary classifier, 那就在外面wrap一个logistic regression
就行了,比如logistic lasso.
机器学习玩的不多,有了feature selection,后面搞点naive bayes
或者decision tree就好了。random forest, neuron networks啥的不说
不管feature selection, 另外这些花样的结果比较难解释,药厂一般
不会搞这些吧。一般偏clinical side的都要容易解释.

现有
得范
达值

【在 m******c 的大作中提到】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: Two patient cohorts, all treated with the same drug. One cohort are the
: responders, who has response to the treatment and the other one are non-
: responders who does not respond to the treatment. RNAseq was performed and
: we have the normalized gene expression values of the 20,000 genes for each

d********m
发帖数: 3662
10
赞经验。我昨天下午看到这么大个feature space,一直在想怎么做regularization,
想到似乎有个啥方法可以用,就是
一直想不起来。对,就是这个Lasso。

【在 s******s 的大作中提到】
: 不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
: 要把predictor normalize吧
: 没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
: 找subset要么自动找,要么手动stepwise找。前者可以用用lasso
: 啥的,后者就是把p-value大的,或者information gain多的predictor
: 一个一个加回去,直到predictor power(比如AUC)不增加为止。当
: 然最后要一个binary classifier, 那就在外面wrap一个logistic regression
: 就行了,比如logistic lasso.
: 机器学习玩的不多,有了feature selection,后面搞点naive bayes
: 或者decision tree就好了。random forest, neuron networks啥的不说

z****t
发帖数: 5
11
只是个简单的两组分比对。数值0-100是nb 分布,log转换后平均值1就变成0了。一般
这种分布用glm求p值,然后p值rank,设定显著化水平为0.05后,用dh法求差异化表达
基因的个数。
1 (共1页)
进入Biology版参与讨论
相关主题
请教native pagegot paid after left
关于做bioinformaticson the Future Biomedical Research Workforce
miRNA qPCR endougenous reference control88楼
snp calling 出了用MAQ,还有什么别的软件可以用?急问搜索 RAR responding site比较权威的database
RNAseq, cDNA normalization的问题GenBank问题
以前的老板经常骚扰我怎么办?sexual harassment is common in scientific fieldwork
two job positions in Beijingco-first 第一位 vs co-first第二位 +co responding
是发nature子刊二作还是发Biochemistry一作? (转载)clinical genomic现在还有什么搞头?
相关话题的讨论汇总
话题: gene话题: 病人话题: 药厂话题: expression话题: rnaseq