E**********e 发帖数: 1736 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标 题: SAS PROC VARCLUS 问题求救
发信站: BBS 未名空间站 (Sat Jul 18 09:29:27 2015, 美东)
假设数据已经是correlation matrix, 有人知道怎么具体算R-squared with Own
Cluser and next closest吗? 就是那个自带的phiscal variable 例子。
从correlation matrix 怎么算 correlation R square啊。 我搜了google, 没有人给
出具体的例子怎么算? 有人可以帮忙吗?
弄明白这个问题是想理解 variable cluster是怎么工作原理,可以用来选有用的
variable, 而且这个跟PCA也有关。 |
|
n**********r 发帖数: 104 | 2 【 以下文字转载自 JobHunting 讨论区 】
发信人: nightdreamer (我白天睡觉), 信区: JobHunting
标 题: 报两个offer-updated-附面试心得
发信站: BBS 未名空间站 (Tue Apr 5 20:57:40 2011, 美东)
个人背景
fresh PhD,经济,非牛校
offer情况
两家都sponsor H1B
offer1:
一家大房贷公司,HR上周口头offer,现在在等我回复。
待遇 85K base, no sign-on bonus
职位 senior
offer2:
保险公司,这家情况有点复杂,我是周一去面试的,面试前告诉HR已有offer了,而且
向他披露了offer的详情,大老板面我的时候也提到了这件事。
今天HR给我打电话说准备要我了,现在他在准备proposal
职位associate(我想都差不多吧这个)
待遇 85Kbase+7500 sign-on bonus
我现在比较困扰的是,offer2里HR只是提出的proposal还要等审批,而offer1明天就要
答复了。明天应该怎么答复offer1呢... 阅读全帖 |
|
s*r 发帖数: 2757 | 3 这篇好像是给PROC VARCLUS做广告嘛
idea不错
有人真的用过吗, |
|
a*****3 发帖数: 601 | 4 varclus挺好用,我就经常用 和proc fortree 连起来用 生成树形图,很直观。
veli veli useful |
|
a*****3 发帖数: 601 | 5 我在cterm底下啊 -机器染木马了浏览器不能开,sas每10保存一次,否则机器freeze写
的代码都没了。
反正这个图,x轴是rsqure, y轴是3,40个变量,在同一个cluster的变量是相邻的,根
据业务需要选取一个。随着rsquare的递减,cluster也递减。varclus还生成很多中间结
果 不过我也看不太懂。汗。 |
|
A*******s 发帖数: 3942 | 6 看我们公司的技术文档,大体procedure差不多
所以我猜是不是所有银行的都大同小异
至于我们公司是不是用varclus就不知道了
我还没接触到这方面的sas code |
|
z**********i 发帖数: 12276 | 7 我就用PROC REG 加个OPTION,可以得到VIF.
VARCLUS是新听说的.又学新知识了.不知这个和proc princomp什么关系. |
|
n*****s 发帖数: 10232 | 8 我用varclus做scorecard,不过过程比这个复杂些。在筛选var的过程中,很多人为因
素要掺杂其中,尤其是var很多的情况下。什么chi-square、correlation、iv都要用到
来尽可能的排除掉redundents。别人我不清楚,我做scorecard的时候,
multicollinearity是大概花精力最大的一部分 |
|
d******o 发帖数: 59 | 9 我的建议
1。 你可以用proc reg,看看
proc reg data=;
*weight ;
model y=x1 x2 x3 / tol vif collin;
run;
quit;
虽然vif=10是cut-off的指标,但是这个指标比较extreme,我觉得大于3就要看
2.再看看correlation coefficients
如果只是有那么两三个factors,highly correlated with each other,可以想想把哪
个drop out
这种问题是context related,要结合实际情况
如果在这种情况下,你仍然要evaluate这几个factor,你可以把它们分别放到model里
run,report写清楚,因为他们correlated,所以不能同时放入model,否则会degrade the
efficiency
3. 如果你有很多factors在model里,其实这样的model也不好看,可以用一些
clustering的方法。varclus,或者前沿一点用用lantent class, structure eq... 阅读全帖 |
|
y*****n 发帖数: 5016 | 10 从纯粹的学术角度上讲,这种情况最好是把x1和x2组合成一个变量,但是在工作中,一
般是删掉其中一个,原因是:1,做组合费很多时间(如果能利用eminer的varclus
node当然就节省点时间但是出来的组合可能结构复杂不好解释而且可能overfit). 2,
即使做了组合,也会面临如何向business teems 和 management 解释这个新变量的直
观定义。3。即使过了前面两关,在implement的时候也不方便,需要提取更多的变量,
进行更多步骤的更复杂的计算,有些production tool可能根本实现不了。 |
|
l***a 发帖数: 12410 | 11 来自主题: Statistics版 - 请教... 这样不是就可以放到大类的category里了吗。
varclus跟这个问题好像没什么关系吧 |
|
S*x 发帖数: 705 | 12 PCA
or
Proc varclus
on the 2nd dateset
Use the selected (new) variables from 2nd dataset, build model on first
dataset |
|
b*****y 发帖数: 350 | 13 这问题没那马复杂,
1. 因为C在model里不显著,保留它着不对model有任何贡献。但是,原则上C和B,应该
通过Varclus分析到底应该去掉哪个。
2. 保留C的后果,在multicollinearity存在于model中,对model精度和变量的显著性
检验都有影响。
?? |
|
|
h***x 发帖数: 586 | 15 Use Varclus (SAS) and PCA to do variable reduction first before running
clustering. When you only have 10-20 variables, you won't JiuJie to ask the
sampling strategies.
I do not like kmeans. Everytime when I reset the seeds, or even reorder the
dataset, and I will have different results, but the pros is I can get the
results I desire after trying and trying... Not sure if it is kind of
cheating...
Non-parameter clustering (modeclus) is a better choice most of the time. It
can handle the situati... 阅读全帖 |
|
s****u 发帖数: 1200 | 16 varclus
★ 发自iPhone App: ChineseWeb 7.8 |
|
y*****z 发帖数: 25 | 17 看到版上很多人的面试经历,一直都很受启发。这里也把自己的一些经历和认识在这里
跟大家说说。有不对之处还请大家自己斟酌。
本人背景是数学出身,来美国读交叉学科的PhD。原来还是一心想做研究的,但是后来
兴趣缺失,感觉除了科研圈子我的研究方向在外面也难找到工作。再加上有孩子也想多
挣点钱所以还是选择走统计的路。总算是PhD也跟统计Master一块读完了。呵呵,认识
我的人一看就知道是我了。
一直想找银行的工作,对risk analytics比较感兴趣。前一两年也跟一些在银行信用卡
公司的师兄和校友聊过打听过什么模型要有些多的了解和掌握。结果都回答是logistic
regression。所以这个课我也修了,也做过一些projects用这个模型。当然了,其实
统计的相关课程都还是重要的,毕竟都是基础性的东西。比如probability and
statistics theory, regression, ANOVA, logistic regression, time series,
experimental design, multivariate analysis,都是有用的,只不过不同... 阅读全帖 |
|
y*****z 发帖数: 25 | 18 可能是误导了
但我查了一下,在文中我并没有提到在面试中被问到proc varclus这类具体的问题,只
是说这些技术的东西有用。我自己比较喜欢看一些SAS的技术文章。如果大家觉得没用
就忽略了吧。
接受批评
proc |
|
l*****t 发帖数: 8319 | 19 就算是只做logistic。。你总要用varclus吧。。。总要做Bayesian impute missing吧
。。 |
|
|
d******9 发帖数: 404 | 21 正解。
Google SAS Proc VarClus. |
|
h*******n 发帖数: 458 | 22 谢谢几位。用VARCLUS能把 n 个variables分成几组,然后该怎么做呢?是每组内再根
据和Y的CORR选出几个variables吗? |
|
o*s 发帖数: 623 | 23 另外如果IV都是continuous的话 还可以考虑用variable clustering (PROC VARCLUS)
来选择变量 但我看有些讨论说dummy IV也可以用这个 |
|
J******m 发帖数: 97 | 24 我的建议也是先proc varclus对变量做Clustering, 然后在每个组里选一个代表出来,
标准就是: 1 business knowledge, 2.1-r2 ratio 值去选。 |
|
E**********e 发帖数: 1736 | 25 假设数据已经是correlation matrix, 有人知道怎么具体算R-squared with Own
Cluser and next closest吗? 就是那个自带的phiscal variable 例子。
从correlation matrix 怎么算 correlation R square啊。 我搜了google, 没有人给
出具体的例子怎么算? 有人可以帮忙吗?
弄明白这个问题是想理解 variable cluster是怎么工作原理,可以用来选有用的
variable, 而且这个跟PCA也有关。 |
|
s********1 发帖数: 16 | 26 sas里面有个proc varclus好像干差不多的事情,不过还没有在实际中用到过 |
|