由买买提看人间百态

topics

全部话题 - 话题: varclus
1 (共1页)
E**********e
发帖数: 1736
1
来自主题: DataSciences版 - SAS PROC VARCLUS 问题求救 (转载)
【 以下文字转载自 Statistics 讨论区 】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标 题: SAS PROC VARCLUS 问题求救
发信站: BBS 未名空间站 (Sat Jul 18 09:29:27 2015, 美东)
假设数据已经是correlation matrix, 有人知道怎么具体算R-squared with Own
Cluser and next closest吗? 就是那个自带的phiscal variable 例子。
从correlation matrix 怎么算 correlation R square啊。 我搜了google, 没有人给
出具体的例子怎么算? 有人可以帮忙吗?
弄明白这个问题是想理解 variable cluster是怎么工作原理,可以用来选有用的
variable, 而且这个跟PCA也有关。
n**********r
发帖数: 104
2
【 以下文字转载自 JobHunting 讨论区 】
发信人: nightdreamer (我白天睡觉), 信区: JobHunting
标 题: 报两个offer-updated-附面试心得
发信站: BBS 未名空间站 (Tue Apr 5 20:57:40 2011, 美东)
个人背景
fresh PhD,经济,非牛校
offer情况
两家都sponsor H1B
offer1:
一家大房贷公司,HR上周口头offer,现在在等我回复。
待遇 85K base, no sign-on bonus
职位 senior
offer2:
保险公司,这家情况有点复杂,我是周一去面试的,面试前告诉HR已有offer了,而且
向他披露了offer的详情,大老板面我的时候也提到了这件事。
今天HR给我打电话说准备要我了,现在他在准备proposal
职位associate(我想都差不多吧这个)
待遇 85Kbase+7500 sign-on bonus
我现在比较困扰的是,offer2里HR只是提出的proposal还要等审批,而offer1明天就要
答复了。明天应该怎么答复offer1呢... 阅读全帖
s*r
发帖数: 2757
3
这篇好像是给PROC VARCLUS做广告嘛
idea不错
有人真的用过吗,
a*****3
发帖数: 601
4
varclus挺好用,我就经常用 和proc fortree 连起来用 生成树形图,很直观。
veli veli useful
a*****3
发帖数: 601
5
我在cterm底下啊 -机器染木马了浏览器不能开,sas每10保存一次,否则机器freeze写
的代码都没了。
反正这个图,x轴是rsqure, y轴是3,40个变量,在同一个cluster的变量是相邻的,根
据业务需要选取一个。随着rsquare的递减,cluster也递减。varclus还生成很多中间结
果 不过我也看不太懂。汗。
A*******s
发帖数: 3942
6
看我们公司的技术文档,大体procedure差不多
所以我猜是不是所有银行的都大同小异
至于我们公司是不是用varclus就不知道了
我还没接触到这方面的sas code
z**********i
发帖数: 12276
7
我就用PROC REG 加个OPTION,可以得到VIF.
VARCLUS是新听说的.又学新知识了.不知这个和proc princomp什么关系.
n*****s
发帖数: 10232
8
我用varclus做scorecard,不过过程比这个复杂些。在筛选var的过程中,很多人为因
素要掺杂其中,尤其是var很多的情况下。什么chi-square、correlation、iv都要用到
来尽可能的排除掉redundents。别人我不清楚,我做scorecard的时候,
multicollinearity是大概花精力最大的一部分
d******o
发帖数: 59
9
我的建议
1。 你可以用proc reg,看看
proc reg data=;
*weight ;
model y=x1 x2 x3 / tol vif collin;
run;
quit;
虽然vif=10是cut-off的指标,但是这个指标比较extreme,我觉得大于3就要看
2.再看看correlation coefficients
如果只是有那么两三个factors,highly correlated with each other,可以想想把哪
个drop out
这种问题是context related,要结合实际情况
如果在这种情况下,你仍然要evaluate这几个factor,你可以把它们分别放到model里
run,report写清楚,因为他们correlated,所以不能同时放入model,否则会degrade the
efficiency
3. 如果你有很多factors在model里,其实这样的model也不好看,可以用一些
clustering的方法。varclus,或者前沿一点用用lantent class, structure eq... 阅读全帖
y*****n
发帖数: 5016
10
来自主题: Statistics版 - 请教:回归方程中自变量的选取。
从纯粹的学术角度上讲,这种情况最好是把x1和x2组合成一个变量,但是在工作中,一
般是删掉其中一个,原因是:1,做组合费很多时间(如果能利用eminer的varclus
node当然就节省点时间但是出来的组合可能结构复杂不好解释而且可能overfit). 2,
即使做了组合,也会面临如何向business teems 和 management 解释这个新变量的直
观定义。3。即使过了前面两关,在implement的时候也不方便,需要提取更多的变量,
进行更多步骤的更复杂的计算,有些production tool可能根本实现不了。
l***a
发帖数: 12410
11
来自主题: Statistics版 - 请教...
这样不是就可以放到大类的category里了吗。
varclus跟这个问题好像没什么关系吧
S*x
发帖数: 705
12
来自主题: Statistics版 - An interview question
PCA
or
Proc varclus
on the 2nd dateset
Use the selected (new) variables from 2nd dataset, build model on first
dataset
b*****y
发帖数: 350
13
来自主题: Statistics版 - 问大牛们一个logistic model的问题哈
这问题没那马复杂,
1. 因为C在model里不显著,保留它着不对model有任何贡献。但是,原则上C和B,应该
通过Varclus分析到底应该去掉哪个。
2. 保留C的后果,在multicollinearity存在于model中,对model精度和变量的显著性
检验都有影响。

??
s***y
发帖数: 47
14
来自主题: Statistics版 - 问大牛们一个logistic model的问题哈
弱弱地问一问,什么是varclus??
h***x
发帖数: 586
15
来自主题: Statistics版 - Sample size for clustering analysis
Use Varclus (SAS) and PCA to do variable reduction first before running
clustering. When you only have 10-20 variables, you won't JiuJie to ask the
sampling strategies.
I do not like kmeans. Everytime when I reset the seeds, or even reorder the
dataset, and I will have different results, but the pros is I can get the
results I desire after trying and trying... Not sure if it is kind of
cheating...
Non-parameter clustering (modeclus) is a better choice most of the time. It
can handle the situati... 阅读全帖
s****u
发帖数: 1200
16
来自主题: Statistics版 - 请问OLS怎样选择feature sets?
varclus

★ 发自iPhone App: ChineseWeb 7.8
y*****z
发帖数: 25
17
来自主题: Statistics版 - 最近一些面试的经历
看到版上很多人的面试经历,一直都很受启发。这里也把自己的一些经历和认识在这里
跟大家说说。有不对之处还请大家自己斟酌。
本人背景是数学出身,来美国读交叉学科的PhD。原来还是一心想做研究的,但是后来
兴趣缺失,感觉除了科研圈子我的研究方向在外面也难找到工作。再加上有孩子也想多
挣点钱所以还是选择走统计的路。总算是PhD也跟统计Master一块读完了。呵呵,认识
我的人一看就知道是我了。
一直想找银行的工作,对risk analytics比较感兴趣。前一两年也跟一些在银行信用卡
公司的师兄和校友聊过打听过什么模型要有些多的了解和掌握。结果都回答是logistic
regression。所以这个课我也修了,也做过一些projects用这个模型。当然了,其实
统计的相关课程都还是重要的,毕竟都是基础性的东西。比如probability and
statistics theory, regression, ANOVA, logistic regression, time series,
experimental design, multivariate analysis,都是有用的,只不过不同... 阅读全帖
y*****z
发帖数: 25
18
来自主题: Statistics版 - 最近一些面试的经历
可能是误导了
但我查了一下,在文中我并没有提到在面试中被问到proc varclus这类具体的问题,只
是说这些技术的东西有用。我自己比较喜欢看一些SAS的技术文章。如果大家觉得没用
就忽略了吧。
接受批评

proc
l*****t
发帖数: 8319
19
来自主题: Statistics版 - model validation 工作前景如何?
就算是只做logistic。。你总要用varclus吧。。。总要做Bayesian impute missing吧
。。
s*******e
发帖数: 1385
20
来自主题: Statistics版 - 请教一个multi colinearity的问题
先做varclus
d******9
发帖数: 404
21
来自主题: Statistics版 - 请教一个multi colinearity的问题
正解。
Google SAS Proc VarClus.
h*******n
发帖数: 458
22
来自主题: Statistics版 - 请教一个multi colinearity的问题
谢谢几位。用VARCLUS能把 n 个variables分成几组,然后该怎么做呢?是每组内再根
据和Y的CORR选出几个variables吗?
o*s
发帖数: 623
23
另外如果IV都是continuous的话 还可以考虑用variable clustering (PROC VARCLUS)
来选择变量 但我看有些讨论说dummy IV也可以用这个
J******m
发帖数: 97
24
我的建议也是先proc varclus对变量做Clustering, 然后在每个组里选一个代表出来,
标准就是: 1 business knowledge, 2.1-r2 ratio 值去选。
E**********e
发帖数: 1736
25
来自主题: Statistics版 - SAS PROC VARCLUS 问题求救
假设数据已经是correlation matrix, 有人知道怎么具体算R-squared with Own
Cluser and next closest吗? 就是那个自带的phiscal variable 例子。
从correlation matrix 怎么算 correlation R square啊。 我搜了google, 没有人给
出具体的例子怎么算? 有人可以帮忙吗?
弄明白这个问题是想理解 variable cluster是怎么工作原理,可以用来选有用的
variable, 而且这个跟PCA也有关。
s********1
发帖数: 16
26
sas里面有个proc varclus好像干差不多的事情,不过还没有在实际中用到过
1 (共1页)