关于varclus的讨论汇总 - 话题女王

全部话题 - 话题: varclus

E**********e
发帖数: 1736

来自主题: DataSciences版 - SAS PROC VARCLUS 问题求救 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标题: SAS PROC VARCLUS 问题求救
发信站: BBS 未名空间站 (Sat Jul 18 09:29:27 2015, 美东)
假设数据已经是correlation matrix，有人知道怎么具体算R-squared with Own
Cluser and next closest吗？就是那个自带的phiscal variable 例子。
从correlation matrix 怎么算 correlation R square啊。我搜了google，没有人给
出具体的例子怎么算？有人可以帮忙吗？
弄明白这个问题是想理解 variable cluster是怎么工作原理，可以用来选有用的
variable，而且这个跟PCA也有关。

n**********r
发帖数: 104

来自主题: Statistics版 - 报两个offer-updated-附面试心得 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: nightdreamer (我白天睡觉), 信区: JobHunting
标题: 报两个offer-updated-附面试心得
发信站: BBS 未名空间站 (Tue Apr 5 20:57:40 2011, 美东)
个人背景
fresh PhD，经济，非牛校
offer情况
两家都sponsor H1B
offer1：
一家大房贷公司，HR上周口头offer，现在在等我回复。
待遇 85K base, no sign-on bonus
职位 senior
offer2：
保险公司，这家情况有点复杂，我是周一去面试的，面试前告诉HR已有offer了，而且
向他披露了offer的详情，大老板面我的时候也提到了这件事。
今天HR给我打电话说准备要我了，现在他在准备proposal
职位associate（我想都差不多吧这个）
待遇 85Kbase+7500 sign-on bonus
我现在比较困扰的是，offer2里HR只是提出的proposal还要等审批，而offer1明天就要
答复了。明天应该怎么答复offer1呢... 阅读全帖

s*r
发帖数: 2757

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

这篇好像是给PROC VARCLUS做广告嘛
idea不错
有人真的用过吗，

a*****3
发帖数: 601

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

varclus挺好用，我就经常用和proc fortree 连起来用生成树形图，很直观。
veli veli useful

a*****3
发帖数: 601

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

我在cterm底下啊 -机器染木马了浏览器不能开，sas每10保存一次，否则机器freeze写
的代码都没了。
反正这个图，x轴是rsqure, y轴是3，40个变量，在同一个cluster的变量是相邻的，根
据业务需要选取一个。随着rsquare的递减，cluster也递减。varclus还生成很多中间结
果不过我也看不太懂。汗。

A*******s
发帖数: 3942

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

看我们公司的技术文档，大体procedure差不多
所以我猜是不是所有银行的都大同小异
至于我们公司是不是用varclus就不知道了
我还没接触到这方面的sas code

z**********i
发帖数: 12276

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

我就用PROC REG 加个OPTION,可以得到VIF.
VARCLUS是新听说的.又学新知识了.不知这个和proc princomp什么关系.

n*****s
发帖数: 10232

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

我用varclus做scorecard，不过过程比这个复杂些。在筛选var的过程中，很多人为因
素要掺杂其中，尤其是var很多的情况下。什么chi-square、correlation、iv都要用到
来尽可能的排除掉redundents。别人我不清楚，我做scorecard的时候，
multicollinearity是大概花精力最大的一部分

d******o
发帖数: 59

来自主题: Statistics版 - 请问multicollinearity的问题在真正的业界是如何来解决的？

我的建议
1。你可以用proc reg,看看
proc reg data=;
*weight ;
model y=x1 x2 x3 / tol vif collin;
run;
quit;
虽然vif=10是cut-off的指标，但是这个指标比较extreme,我觉得大于3就要看
2.再看看correlation coefficients
如果只是有那么两三个factors，highly correlated with each other,可以想想把哪
个drop out
这种问题是context related,要结合实际情况
如果在这种情况下，你仍然要evaluate这几个factor，你可以把它们分别放到model里
run,report写清楚，因为他们correlated,所以不能同时放入model,否则会degrade the
efficiency
3. 如果你有很多factors在model里，其实这样的model也不好看，可以用一些
clustering的方法。varclus,或者前沿一点用用lantent class, structure eq... 阅读全帖

y*****n
发帖数: 5016

来自主题: Statistics版 - 请教：回归方程中自变量的选取。

从纯粹的学术角度上讲，这种情况最好是把x1和x2组合成一个变量，但是在工作中，一
般是删掉其中一个，原因是：1，做组合费很多时间（如果能利用eminer的varclus
node当然就节省点时间但是出来的组合可能结构复杂不好解释而且可能overfit）. 2,
即使做了组合，也会面临如何向business teems 和 management 解释这个新变量的直
观定义。3。即使过了前面两关，在implement的时候也不方便，需要提取更多的变量，
进行更多步骤的更复杂的计算，有些production tool可能根本实现不了。

l***a
发帖数: 12410

来自主题: Statistics版 - 请教...

这样不是就可以放到大类的category里了吗。
varclus跟这个问题好像没什么关系吧

S*x
发帖数: 705

来自主题: Statistics版 - An interview question

PCA
or
Proc varclus
on the 2nd dateset
Use the selected (new) variables from 2nd dataset, build model on first
dataset

b*****y
发帖数: 350

来自主题: Statistics版 - 问大牛们一个logistic model的问题哈

这问题没那马复杂，
1. 因为C在model里不显著，保留它着不对model有任何贡献。但是，原则上C和B，应该
通过Varclus分析到底应该去掉哪个。
2. 保留C的后果，在multicollinearity存在于model中，对model精度和变量的显著性
检验都有影响。

？？

s***y
发帖数: 47

来自主题: Statistics版 - 问大牛们一个logistic model的问题哈

弱弱地问一问，什么是varclus??

h***x
发帖数: 586

来自主题: Statistics版 - Sample size for clustering analysis

Use Varclus (SAS) and PCA to do variable reduction first before running
clustering. When you only have 10-20 variables, you won't JiuJie to ask the
sampling strategies.
I do not like kmeans. Everytime when I reset the seeds, or even reorder the
dataset, and I will have different results, but the pros is I can get the
results I desire after trying and trying... Not sure if it is kind of
cheating...
Non-parameter clustering (modeclus) is a better choice most of the time. It
can handle the situati... 阅读全帖

s****u
发帖数: 1200

来自主题: Statistics版 - 请问OLS怎样选择feature sets？

varclus

★ 发自iPhone App: ChineseWeb 7.8

y*****z
发帖数: 25

来自主题: Statistics版 - 最近一些面试的经历

看到版上很多人的面试经历，一直都很受启发。这里也把自己的一些经历和认识在这里
跟大家说说。有不对之处还请大家自己斟酌。
本人背景是数学出身，来美国读交叉学科的PhD。原来还是一心想做研究的，但是后来
兴趣缺失，感觉除了科研圈子我的研究方向在外面也难找到工作。再加上有孩子也想多
挣点钱所以还是选择走统计的路。总算是PhD也跟统计Master一块读完了。呵呵，认识
我的人一看就知道是我了。
一直想找银行的工作，对risk analytics比较感兴趣。前一两年也跟一些在银行信用卡
公司的师兄和校友聊过打听过什么模型要有些多的了解和掌握。结果都回答是logistic
regression。所以这个课我也修了，也做过一些projects用这个模型。当然了，其实
统计的相关课程都还是重要的，毕竟都是基础性的东西。比如probability and
statistics theory, regression, ANOVA, logistic regression, time series,
experimental design, multivariate analysis，都是有用的，只不过不同... 阅读全帖

y*****z
发帖数: 25

来自主题: Statistics版 - 最近一些面试的经历

可能是误导了
但我查了一下，在文中我并没有提到在面试中被问到proc varclus这类具体的问题，只
是说这些技术的东西有用。我自己比较喜欢看一些SAS的技术文章。如果大家觉得没用
就忽略了吧。
接受批评

proc

l*****t
发帖数: 8319

来自主题: Statistics版 - model validation 工作前景如何？

就算是只做logistic。。你总要用varclus吧。。。总要做Bayesian impute missing吧
。。

s*******e
发帖数: 1385

来自主题: Statistics版 - 请教一个multi colinearity的问题

先做varclus

d******9
发帖数: 404

来自主题: Statistics版 - 请教一个multi colinearity的问题

正解。
Google SAS Proc VarClus.

h*******n
发帖数: 458

来自主题: Statistics版 - 请教一个multi colinearity的问题

谢谢几位。用VARCLUS能把 n 个variables分成几组，然后该怎么做呢？是每组内再根
据和Y的CORR选出几个variables吗？

o*s
发帖数: 623

来自主题: Statistics版 - 有80个候选Predictors,怎么从中选<10个

另外如果IV都是continuous的话还可以考虑用variable clustering (PROC VARCLUS)
来选择变量但我看有些讨论说dummy IV也可以用这个

J******m
发帖数: 97

来自主题: Statistics版 - 有80个候选Predictors,怎么从中选<10个

我的建议也是先proc varclus对变量做Clustering, 然后在每个组里选一个代表出来，
标准就是： 1 business knowledge， 2.1-r2 ratio 值去选。

E**********e
发帖数: 1736

来自主题: Statistics版 - SAS PROC VARCLUS 问题求救

假设数据已经是correlation matrix，有人知道怎么具体算R-squared with Own
Cluser and next closest吗？就是那个自带的phiscal variable 例子。
从correlation matrix 怎么算 correlation R square啊。我搜了google，没有人给
出具体的例子怎么算？有人可以帮忙吗？
弄明白这个问题是想理解 variable cluster是怎么工作原理，可以用来选有用的
variable，而且这个跟PCA也有关。

s********1
发帖数: 16

来自主题: Statistics版 - 如何在应用model前把correlated的predictors去掉？

sas里面有个proc varclus好像干差不多的事情，不过还没有在实际中用到过

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天