a******e 发帖数: 119 | 1 前段时间受了不少R运算速度太慢的折磨。做了点research 知道了点皮毛,抛砖引玉,
大家讨论一下。
1、Vectorization
for (i in …)
{
for (j in …) { dframe <- func(dframe,i,j)
}
}
这样的结构对R来说是个disaster。可以考虑ecterization
e.g. Instead of explicit element-by-element loop for
(i in 1:N) { A[i] <- B[i] + C[i] }
invoke the implicit elem.-by-elem. Operation: A <- B + C
2、用apply instead of looping
这个似乎有争议,有的说apply不能提高R的速度。不过,至少apply可以让你的code看
上去更简洁
3、Functional programming:
exp1:Filter(f, x) – Returns the elements of x for which f is true
> x
... 阅读全帖 |
|
i**z 发帖数: 194 | 2 参照 R cookbook 里面有不少 tips.
另外, lapply 可能会快点, sapply 和 loop 其实差不多。
前段时间受了不少R运算速度太慢的折磨。做了点research 知道了点皮毛,抛砖引玉,
大家讨论一下。
1、Vectorization
for (i in …)
{
for (j in …) { dframe <- func(dframe,i,j)
}
}
这样的结构对R来说是个disaster。可以考虑ecterization
e.g. Instead of explicit element-by-element loop for
(i in 1:N) { A[i] <- B[i] + C[i] }
invoke the implicit elem.-by-elem. Operation: A <- B + C
2、用apply instead of looping
这个似乎有争议,有的说apply不能提高R的速度。不过,至少apply可以让你的code看
上去更简洁
3、Functional programming:
exp1:Filter(f,... 阅读全帖 |
|
a******e 发帖数: 119 | 3 RT, logit model 是现在用的MCMC model中的一个piece。请问logit model 中的
beta
‘s 一般常用的prior distribution是什么? 多谢! |
|
u******e 发帖数: 60 | 4 I have a score with missing value. The score is on a 0-70 scale and measured
at 4 time points. The missing pattern is not monotonic. The score is not
normally distributed in the sample. it is right skewed with a lot of
subjects having score 0.
Subjects with disease A are likely to have high score. The distribution of
score is close to normal distribution when separating subjects with and
without disease A.
The purpose of the study is to assess relation between disease A and change
of score durin... 阅读全帖 |
|
z*****3 发帖数: 17 | 5 请问应该如何比较两个parameter vector的posterior distribution,parameter之间
可能有correlation
数据来自于两个condition(cancer v.s normal),两个condition是independent的。
我想对两个condition中每一个基因进行比较(每个condition的数据由N行组成,每一
行是一个基因,N行数据,N个基因)。我用MCMC求出了每一个基因(每一行数据)的某
参数的posterior distribution。也就是说,我现在有N个theta_i的posterior。 我打
算从N个theta中挑出m个和另外一个condition中的m个theta比较,这m个theta是有
correlation的。请问我应该怎么判断第一个condition中m个theta的multivariate
distribution 是不是和另一个condition中相对应的m个 theta的multivariate
distribution 有显著差异?
谢谢! |
|
|
|
|
|
d*******1 发帖数: 854 | 10 谢谢, 有没有什么辅助材料可以帮助理解你的第三段呢? 就是关于Metropolis–
Hastings algorithm的? |
|
g*****o 发帖数: 812 | 11 我觉得这个算法, 就是动手推公式, 你推得动那个期望, 你就理解
要是你推不动, 那就直接看怎么实现就好了, 反正理论上最后确实是收敛的 |
|
d*******1 发帖数: 854 | 12 谢了。有没有什么implementation的package 或者tutorial呢? 请原谅这么多问题,
最近有一个project可能需要用到这个, 但是参考文献只是提了一下, 没有很具体的。 |
|
|
|
|
|
g*****o 发帖数: 812 | 17 他们网站上有.
我们老师给了我们三卷例子...
不过还是那句话, 你不懂贝叶斯统计的原理和MCMC方法, 你光看代码估计也看不懂那些
式子是怎么推出来的呃(⊙o⊙)… |
|
M*********3 发帖数: 18 | 18
machine learning, 做biostat 方向的课题。
imaging 可以用 bayesian and mcmc |
|
w*******9 发帖数: 1433 | 19 其实google一下就会有很多信息。我这给一个茶馆闲聊级别的解释。
Bayesian: 在经典的参数估计里,参数(比如A)被当成一个固定的数,一般用极大似然
来估计;Bayesian的起源是想利用已有的信息(prior information)结合观察到的数据
得到"更“准确的信息。比如在你观察数据前就知道A大概位于3-4之间,那么有理由相
信这个prior information会使得你的估计更精确。具体到实现上,就是你得假设A是个
随机变量并且服从某个分布,比如[3,4]上的均匀分布,在结合数据的conditional
likelihood, 可以算出A的posterior分布。从统计上来讲,你知道了A的分布,你就知
道了A的一切信息。比如可以用posterior distribution的mode or mean作为A的点估计
,也可进一步根据quantile得到credible interval。
Non-parametric Bayesian: 我的理解是在A是个函数时(比如A就是个未知的分布函数),
这时我们要指定这个函数是怎么分布的(比如我提出这个随机函数可能取值于某个大... 阅读全帖 |
|
t********y 发帖数: 166 | 20 统计可以很理论,也可以很应用。
写写MCMC算法,做PCA,和做随机过程的inference还是很不一样的。 |
|
e*********g 发帖数: 77 | 21 如果有可能可以非线性地组合成新的维度吗?
就拟合而言,不知哪个基于python的效率高一些,mcmc什么收敛太慢,像是scipy.
optimize.minimize 里的Nelder-Mead选项运行两天结果和初始值没什么变化,压根不
收敛。 |
|
g******2 发帖数: 234 | 22 definitely not MCMC. It should be sequential MC. Markov chain is periodic
and reducible, where in this case it's not. |
|
d******e 发帖数: 7844 | 23 话说你们真的懂MCMC么?
n = 10
m = 100
rep.num = 1e4
z = rep(0,rep.num)
for(j in 1:rep.num){
a = runif(m)
b = runif(m)
len = m;
for(i in 1:n){
idx.rnd = sample(len,len)
idx.rmn = which(a
len = length(idx.rmn)
a = a[idx.rmn]
b = b[idx.rnd[idx.rmn]]
}
z[j] = len
}
..... |
|
|
S******7 发帖数: 561 | 25 统计方面的硕士,在药厂做了5年左右的PROGRAMMER,现在想换成统计师的工作,目前
有2个biostatistician OFFER,想看看大家的意见
1. contract position at pharmaceutical company:
一年合同,工资稍微高一点,距离家比较远,每天单程要1个小时左右,遇到堵车可
能要70-90分钟,允许一个星期有一天在家里工作。会有50%左右时间做PROGRAMMING,
还有50%左右帮忙review tfl,specs等
2. full time position at medical device company:
如果我去了,公司就只有我一个FULL TIME 统计师,还有一个REMOTE CONSULTANT。
以前没有在医疗器械方面做个,也没有做个统计师,刚开始就我一个人,担心压力会比
较大。不知道有没有人在医疗器械公司做个?他们对统计的要求高吗?面试的时候说,
这个职位需要写SAP,用R做MCMC SIMULATION(他们已经有CODE,就是维护),sample
dimensions calculatio... 阅读全帖 |
|
S******7 发帖数: 561 | 26 统计方面的硕士,在药厂做了5年左右的PROGRAMMER,现在想换成统计师的工作,目前
有2个biostatistician OFFER,想看看大家的意见
1. contract position at pharmaceutical company:
一年合同,工资稍微高一点,距离家比较远,每天单程要1个小时左右,遇到堵车可
能要70-90分钟,允许一个星期有一天在家里工作。会有50%左右时间做PROGRAMMING,
还有50%左右帮忙review tfl,specs等
2. full time position at medical device company:
如果我去了,公司就只有我一个FULL TIME 统计师,还有一个REMOTE CONSULTANT。
以前没有在医疗器械方面做个,也没有做个统计师,刚开始就我一个人,担心压力会比
较大。不知道有没有人在医疗器械公司做个?他们对统计的要求高吗?面试的时候说,
这个职位需要写SAP,用R做MCMC SIMULATION(他们已经有CODE,就是维护),sample
dimensions calculatio... 阅读全帖 |
|
g******2 发帖数: 234 | 27 what do you mean by converge? do you mean stationary? Can you show a trace
plot of your samples? |
|
c********g 发帖数: 1106 | 28 Metropolis-Hasting?
Model code有没有错误?
Data足够支持model?
不同链的初始值差太多了?试试相近的初始值?还是不converge简化模型试试。 |
|
发帖数: 1 | 29 模型没法简化的,是个survival model,有四个参数,其中两个跟covariate的
coefficients,
也不是叫metropolis hasting,是metropolis hasting的一种替代的algorithm。
因为是simulation,所以我试了sample size 500和1000,足够大了,应该跟这个也没
关系。初始值设置接近也试了,结果没差。 |
|
|
b*****s 发帖数: 11267 | 31 Gibbs sampling 是MH的一种特殊形式,
sample size你burn啦嘛?
我想你说的convergence是根据generate出来的sample作黎曼积分,也就是Expectation
不converge。 这只能说明:
1 你算的postierior 有错
2 run的次数不够多
3 你没有burn first thousand run
请自我对照查错
[在 CherryG86 () 的大作中提到:]
:模型没法简化的,是个survival model,有四个参数,其中两个跟covariate的
:coefficients,
:也不是叫metropolis hasting,是metropolis hasting的一种替代的algorithm。
:因为是simulation,所以我试了sample size 500和1000,足够大了,应该跟这个也没
:关系。初始值设置接近也试了,结果没差。 |
|
l*******s 发帖数: 1258 | 32 全局迭代很难搞成并行。
可以考虑用sampling代替,比如gibbs和MCMC等。但是貌似也很难。
还有种思路,其实还是迭代,就是linear regression和l-bfgs等,貌似能比简单的全
局迭代快点,但还是很难并行。 |
|
|
|
|
P*****6 发帖数: 273 | 36 说实话,不知道生物统计临床怎么使,除此之外,我觉得就是graphic model用
bayesian最为易于理解,MCMC简直就是天然为此设计的。但是不知道data scientist用
它能解决什么问题 |
|
c****t 发帖数: 19049 | 37 machine learning的毛病就是没有自己原产的cost function。optimization和cost
function没啥关系。cost function实际上成了post monitoring
MCMC就是把它选cost function(MAP)和optimzation打包一起初理 |
|
m******a 发帖数: 77 | 38 先后换过几家公司
总体讲,作过很多东西,如模型,优化,分析
文本数据,NLP,搜索,产品推荐等
最多用的是 SQL, SAS, 也用PERL, C++, UNIX SHELL, 会点JAVA, 但很少用
写过很多 MAPREDUCE JOB, 也写过PIG, 会HIVE (NOTHING, 因为基本同SQL)
自己用C++实现过一些算法,如BOOSTING, DECISION TREE, KNN, MCMC 等等
但都是自己玩,拿KAGGLE上的数据来检验过,PERFORMANCE 还行,甚至好过有些商业软件
你会PYTHON 和 R 应该好过 PERL + SAS
其实还有比SAS 和 R 更高级的东西,
但公司里会SAS 和 R其一足够 |
|
P*****6 发帖数: 273 | 39 这个我也不清楚,bayesian是小众,第一用的人少,第二就是有人用了, 一挑10,胜
算也少。
bayesian加了prior 项后,求解很多时候必须用MCMC等,推导也复杂,运算速度也慢。
我做生物信息中的data mining,那个里面用bayesian的比较多,因为样品少时,一个
基因可以从其它上千个基因中借prior信息,以减少outlier。这个假设成立的时候比较
多。
不知有大牛有更深的理解吗? |
|
l*****9 发帖数: 45 | 40 自己在读统计phd,爱好编程,愿意学。。。
暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
不是每天用的话。
请问作为我这种情况,现阶段到底应该学什么呢?
C++, python, java?
或者有时候真心觉得学统计的不要去和cs拼,感觉没精力去拼。还不如把统计学好了去
药厂。。。目前来说统计在DS圈里面好弱。每个DS职位要求第一个永远是CS...
求有经验的人指点 |
|
P*****6 发帖数: 273 | 41 了解计算机底层,C 就可以了吧, 需要C++吗。 是真的征求意见。不知为什么我不喜
欢C++, 觉得Java好些, C 没有抵触, MCMC c 就够了 |
|
l*****9 发帖数: 45 | 42 自己在读统计phd,爱好编程,愿意学。。。
暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
不是每天用的话。
请问作为我这种情况,现阶段到底应该学什么呢?
C++, python, java?
或者有时候真心觉得学统计的不要去和cs拼,感觉没精力去拼。还不如把统计学好了去
药厂。。。目前来说统计在DS圈里面好弱。每个DS职位要求第一个永远是CS...
求有经验的人指点 |
|
P*****6 发帖数: 273 | 43 了解计算机底层,C 就可以了吧, 需要C++吗。 是真的征求意见。不知为什么我不喜
欢C++, 觉得Java好些, C 没有抵触, MCMC c 就够了 |
|
h*****7 发帖数: 6781 | 44 我出的题
简述 vc dimension 以及和 svm 关系
svm怎么实现?有没有比smo更快的?
各种kernel空间维度,怎么用
简述MAP, fisher information
简述MCMC基本类型,难点
bayesian vs frequentist pros and cons
boostrap好处,性质
手推PCA
向量求导手推
微分方程手推
简述categorical处理
牛顿法,共轭梯度,模拟退火,各类优化求解
各种图搜索
真做过ML的,上面都是小意思
没做过的,基本没可能突击出来 |
|
h*****7 发帖数: 6781 | 45 我出的题
简述 vc dimension 以及和 svm 关系
svm怎么实现?有没有比smo更快的?
各种kernel空间维度,怎么用
简述MAP, fisher information
简述MCMC基本类型,难点
bayesian vs frequentist pros and cons
boostrap好处,性质
手推PCA
向量求导手推
微分方程手推
简述categorical处理
牛顿法,共轭梯度,模拟退火,各类优化求解
各种图搜索
真做过ML的,上面都是小意思
没做过的,基本没可能突击出来 |
|
t******g 发帖数: 2253 | 46 看你贝叶斯大概想了解到什么程度。
偏应用的话,Gelman等人有本Bayesian data analysis,可以看下。
Bayesian nonparametrics比较复杂,这个我觉得你先不用管。这个大体意思是prior在
functional space上。
我对楼主的建议是先看下统计方面的书。比较推荐Berger and Casella那本关于
statistical inference的书。那本也会讲到些关于bayesian方面。接下来可以看
Bayesian Data Analysis by Gelman,大体就是了解下MCMC,Gibbs Sampling。
Bayesian Nonparamreics不用太管,如果真想了解,可以先了解下Dirichlet Process。 |
|
g*****o 发帖数: 812 | 47 扯太远了吧...
mcmc其实主要是个计算复杂积分的方法, 和frequenist vs bayesian的讨论有毛线关系
.
码农又在以己度人了么→_→
lecun
prior, |
|
S*****o 发帖数: 61 | 48 解释得真好,不知道global optimization里面的一些思想是否会对你提到的mcmc上的
问题有所帮助?
比如model-based method,cross-entropy这些,当然本质上起作用的应该还是背后的
laplace method,所以这些方法在高维存在困难,100维以内应该还好,再高大概也只
能Gibbs或着更无奈的Metropolis within Gibbs了
lecun
prior, |
|
t******g 发帖数: 2253 | 49 看你贝叶斯大概想了解到什么程度。
偏应用的话,Gelman等人有本Bayesian data analysis,可以看下。
Bayesian nonparametrics比较复杂,这个我觉得你先不用管。这个大体意思是prior在
functional space上。
我对楼主的建议是先看下统计方面的书。比较推荐Berger and Casella那本关于
statistical inference的书。那本也会讲到些关于bayesian方面。接下来可以看
Bayesian Data Analysis by Gelman,大体就是了解下MCMC,Gibbs Sampling。
Bayesian Nonparamreics不用太管,如果真想了解,可以先了解下Dirichlet Process。 |
|
g*****o 发帖数: 812 | 50 扯太远了吧...
mcmc其实主要是个计算复杂积分的方法, 和frequenist vs bayesian的讨论有毛线关系
.
码农又在以己度人了么→_→
lecun
prior, |
|