R******d 发帖数: 1436 | 1 我有一个很大的数据集,要计算25000个变量和将近3000个变量之间的相关性。
结果出来,发现有很多空行没有相关系数,比如L19, L33这样的。如果把为空的数据点
(L19, L33)单独拿出来,则可以算出结果。请问这是什么问题?
谢谢了。
data mydata;
infile "/dir/file" firstobs=2 lrecl=2000000;
input C1-C25000 L1-L3000;
run;
proc corr data=mydata outp=corr(where=(_NAME_ ne "") drop=_TYPE_) noprint;
var C1-C25000;
with L1-L3000;
run;
proc export data=corr
outfile="/dir/out"
dbms=tab replace;
run; | R******d 发帖数: 1436 | 2 有人遇到同样的问题了吗?
【在 R******d 的大作中提到】 : 我有一个很大的数据集,要计算25000个变量和将近3000个变量之间的相关性。 : 结果出来,发现有很多空行没有相关系数,比如L19, L33这样的。如果把为空的数据点 : (L19, L33)单独拿出来,则可以算出结果。请问这是什么问题? : 谢谢了。 : data mydata; : infile "/dir/file" firstobs=2 lrecl=2000000; : input C1-C25000 L1-L3000; : run; : proc corr data=mydata outp=corr(where=(_NAME_ ne "") drop=_TYPE_) noprint; : var C1-C25000;
| J******m 发帖数: 97 | 3 请问你做corr 的目的是什么? 是Prepare inputs 好为做模型做准备么?
你的问题不知道怎么回答,你看SAS那本书:叫predictive modeling using logistic
regression, 选变量的顺序一般是先做cluster吧, 经过这一步就能去掉很多变量,第
二部才做相关性分析。回答如果不对请见谅!
【在 R******d 的大作中提到】 : 我有一个很大的数据集,要计算25000个变量和将近3000个变量之间的相关性。 : 结果出来,发现有很多空行没有相关系数,比如L19, L33这样的。如果把为空的数据点 : (L19, L33)单独拿出来,则可以算出结果。请问这是什么问题? : 谢谢了。 : data mydata; : infile "/dir/file" firstobs=2 lrecl=2000000; : input C1-C25000 L1-L3000; : run; : proc corr data=mydata outp=corr(where=(_NAME_ ne "") drop=_TYPE_) noprint; : var C1-C25000;
| R******d 发帖数: 1436 | 4 我不是为了筛选变量,是为了找两类数据里面可能存在的相关关系。
所以把所有相关系数都算出来先。
logistic
【在 J******m 的大作中提到】 : 请问你做corr 的目的是什么? 是Prepare inputs 好为做模型做准备么? : 你的问题不知道怎么回答,你看SAS那本书:叫predictive modeling using logistic : regression, 选变量的顺序一般是先做cluster吧, 经过这一步就能去掉很多变量,第 : 二部才做相关性分析。回答如果不对请见谅!
|
|