由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - regression analysis
相关主题
请问regression现在比较流行的算法是什么求教machine learning的基础材料
问两个个KNN的问题Scientists See Promise in Deep-Learning Programs
Valiant 是理论大牛欢迎加入“机器学习竞赛实践”俱乐部 (转载)
计算机vision中最常用的是哪种classifier?Data Science/Machine Learning读统计还是CS?
weka新手使用问题请教machine learning 哪个方向比较有前途?
一个机器学习的问题请问怎么通过一个distance matrix知道一个空间的维度
如何面对conference paper投journal的?求助Kernel PCA的matlab code
text book for "Support Vector Machine" (转载)请教Kernel PCA
相关话题的讨论汇总
话题: regression话题: feature话题: selection话题: lse
进入CS版参与讨论
1 (共1页)
w****n
发帖数: 266
1
现在有组数据, 200多个变量, 想做回归分析, 请教attribute selection 和
regression algorithm,有什么参考书可以看看,google了一阵没有头绪。
d*****u
发帖数: 17243
2
目的是什么呢,数据是binary的还是numerical的
特征选取的方法也很多,一般是看feature之间的correlation和mutual information什
么的

【在 w****n 的大作中提到】
: 现在有组数据, 200多个变量, 想做回归分析, 请教attribute selection 和
: regression algorithm,有什么参考书可以看看,google了一阵没有头绪。

w****n
发帖数: 266
3
数据是混合型的, 给出地区一些基本情况(人口, 面积, 收入, 人员组成情况什么
的),来预测房价,要求预测出具体数值(numeric)。
feature selection 的方法和classification 的不同吧?算法呢?

【在 d*****u 的大作中提到】
: 目的是什么呢,数据是binary的还是numerical的
: 特征选取的方法也很多,一般是看feature之间的correlation和mutual information什
: 么的

D***r
发帖数: 7511
4
如果要做regression,无非那么几种常用的方法
像linear regression, ridge regression,logistic regression
房价这种东西本来就不要求很精确,可能一般的linear regression就够了
用least square error
你的训练数据有多大呢?有多少样本,多大维度?

【在 w****n 的大作中提到】
: 数据是混合型的, 给出地区一些基本情况(人口, 面积, 收入, 人员组成情况什么
: 的),来预测房价,要求预测出具体数值(numeric)。
: feature selection 的方法和classification 的不同吧?算法呢?

w****n
发帖数: 266
5
trainingset 10万sample,200个attribute
regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
forest类的
feature selection呢? 跟classification的一样?

【在 D***r 的大作中提到】
: 如果要做regression,无非那么几种常用的方法
: 像linear regression, ridge regression,logistic regression
: 房价这种东西本来就不要求很精确,可能一般的linear regression就够了
: 用least square error
: 你的训练数据有多大呢?有多少样本,多大维度?

w****n
发帖数: 266
6
现在有组数据, 200多个变量, 想做回归分析, 请教attribute selection 和
regression algorithm,有什么参考书可以看看,google了一阵没有头绪。
d*****u
发帖数: 17243
7
目的是什么呢,数据是binary的还是numerical的
特征选取的方法也很多,一般是看feature之间的correlation和mutual information什
么的

【在 w****n 的大作中提到】
: 现在有组数据, 200多个变量, 想做回归分析, 请教attribute selection 和
: regression algorithm,有什么参考书可以看看,google了一阵没有头绪。

w****n
发帖数: 266
8
数据是混合型的, 给出地区一些基本情况(人口, 面积, 收入, 人员组成情况什么
的),来预测房价,要求预测出具体数值(numeric)。
feature selection 的方法和classification 的不同吧?算法呢?

【在 d*****u 的大作中提到】
: 目的是什么呢,数据是binary的还是numerical的
: 特征选取的方法也很多,一般是看feature之间的correlation和mutual information什
: 么的

D***r
发帖数: 7511
9
如果要做regression,无非那么几种常用的方法
像linear regression, ridge regression,logistic regression
房价这种东西本来就不要求很精确,可能一般的linear regression就够了
用least square error
你的训练数据有多大呢?有多少样本,多大维度?

【在 w****n 的大作中提到】
: 数据是混合型的, 给出地区一些基本情况(人口, 面积, 收入, 人员组成情况什么
: 的),来预测房价,要求预测出具体数值(numeric)。
: feature selection 的方法和classification 的不同吧?算法呢?

w****n
发帖数: 266
10
trainingset 10万sample,200个attribute
regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
forest类的
feature selection呢? 跟classification的一样?

【在 D***r 的大作中提到】
: 如果要做regression,无非那么几种常用的方法
: 像linear regression, ridge regression,logistic regression
: 房价这种东西本来就不要求很精确,可能一般的linear regression就够了
: 用least square error
: 你的训练数据有多大呢?有多少样本,多大维度?

相关主题
一个机器学习的问题求教machine learning的基础材料
如何面对conference paper投journal的?Scientists See Promise in Deep-Learning Programs
text book for "Support Vector Machine" (转载)欢迎加入“机器学习竞赛实践”俱乐部 (转载)
进入CS版参与讨论
d*****u
发帖数: 17243
11
那还好,维度不算特别高
feature selection并没有公认最好的办法
有的就是轮着在training data上试验,看哪个不好就抛弃哪个
为了省时间,也可以用一些greedy的方法
有的则是找feature之间的corrrelation
correaltion大的feature能提供的信息少,可以抛弃
任何regression其实是一个loss function加上一个regularization term
loss function取决于你选定的模型的计算结果跟实际结果的差异
regularization term则是你对模型参数的限制
LSE就是预测结果与实际结果之差的平方和
回归的目的就是要最小化这个LSE的值
这些公式都是现成的,一搜就有

【在 w****n 的大作中提到】
: trainingset 10万sample,200个attribute
: regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
: forest类的
: feature selection呢? 跟classification的一样?

w****n
发帖数: 266
12
请问有没有详细的资料推荐一下, 手头的data mining书主要讲classification和其他
的, regression没提。

【在 d*****u 的大作中提到】
: 那还好,维度不算特别高
: feature selection并没有公认最好的办法
: 有的就是轮着在training data上试验,看哪个不好就抛弃哪个
: 为了省时间,也可以用一些greedy的方法
: 有的则是找feature之间的corrrelation
: correaltion大的feature能提供的信息少,可以抛弃
: 任何regression其实是一个loss function加上一个regularization term
: loss function取决于你选定的模型的计算结果跟实际结果的差异
: regularization term则是你对模型参数的限制
: LSE就是预测结果与实际结果之差的平方和

d*****u
发帖数: 17243
13
统计课本上都有。
如果是简单回归,看维基就行了。
就是几个矩阵乘一下就搞定了。

【在 w****n 的大作中提到】
: 请问有没有详细的资料推荐一下, 手头的data mining书主要讲classification和其他
: 的, regression没提。

w****n
发帖数: 266
14
谢谢, 大牛解答
w****n
发帖数: 266
15
最后决定用PCA 做feature selection, 算法用SVR。 这个组合怎么样?
d*****u
发帖数: 17243
16
PCA严格说不是feature selection,是一种transformation
当然也能起到降维的作用
只是transform以后的特征不好直接解释,看需要了
SVR的特点是只用考虑部分训练数据

【在 w****n 的大作中提到】
: 最后决定用PCA 做feature selection, 算法用SVR。 这个组合怎么样?
d******e
发帖数: 7844
17
只考虑部分训练数据这个说法太含糊了。
SVR的特点是只考虑错误比较大的点,错误足够小的可以忽略。

【在 d*****u 的大作中提到】
: PCA严格说不是feature selection,是一种transformation
: 当然也能起到降维的作用
: 只是transform以后的特征不好直接解释,看需要了
: SVR的特点是只用考虑部分训练数据

d*****u
发帖数: 17243
18
嗯。总之就是“容易”预测的点对最后的参数没影响

【在 d******e 的大作中提到】
: 只考虑部分训练数据这个说法太含糊了。
: SVR的特点是只考虑错误比较大的点,错误足够小的可以忽略。

w****n
发帖数: 266
19
看来我选的方法不太好, 看kaggle上的牛人大多用random forest, 建1000个树,对
于data mining的final project 有点太难了吧, 有木有简单点的方法
d*****u
发帖数: 17243
20
没啥难的,matlab里有现成的函数,一秒钟就出结果

【在 w****n 的大作中提到】
: 看来我选的方法不太好, 看kaggle上的牛人大多用random forest, 建1000个树,对
: 于data mining的final project 有点太难了吧, 有木有简单点的方法

相关主题
Data Science/Machine Learning读统计还是CS?求助Kernel PCA的matlab code
请教machine learning 哪个方向比较有前途?请教Kernel PCA
请问怎么通过一个distance matrix知道一个空间的维度Machine Learning里的一些算法是否有经典库啊?
进入CS版参与讨论
s*w
发帖数: 729
21
you could at least try
maximum relevance, minimum redundancy by Hanchuan Peng

【在 w****n 的大作中提到】
: 最后决定用PCA 做feature selection, 算法用SVR。 这个组合怎么样?
d*****u
发帖数: 17243
22
那还好,维度不算特别高
feature selection并没有公认最好的办法
有的就是轮着在training data上试验,看哪个不好就抛弃哪个
为了省时间,也可以用一些greedy的方法
有的则是找feature之间的corrrelation
correaltion大的feature能提供的信息少,可以抛弃
任何regression其实是一个loss function加上一个regularization term
loss function取决于你选定的模型的计算结果跟实际结果的差异
regularization term则是你对模型参数的限制
LSE就是预测结果与实际结果之差的平方和
回归的目的就是要最小化这个LSE的值
这些公式都是现成的,一搜就有

【在 w****n 的大作中提到】
: trainingset 10万sample,200个attribute
: regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
: forest类的
: feature selection呢? 跟classification的一样?

w****n
发帖数: 266
23
请问有没有详细的资料推荐一下, 手头的data mining书主要讲classification和其他
的, regression没提。

【在 d*****u 的大作中提到】
: 那还好,维度不算特别高
: feature selection并没有公认最好的办法
: 有的就是轮着在training data上试验,看哪个不好就抛弃哪个
: 为了省时间,也可以用一些greedy的方法
: 有的则是找feature之间的corrrelation
: correaltion大的feature能提供的信息少,可以抛弃
: 任何regression其实是一个loss function加上一个regularization term
: loss function取决于你选定的模型的计算结果跟实际结果的差异
: regularization term则是你对模型参数的限制
: LSE就是预测结果与实际结果之差的平方和

d*****u
发帖数: 17243
24
统计课本上都有。
如果是简单回归,看维基就行了。
就是几个矩阵乘一下就搞定了。

【在 w****n 的大作中提到】
: 请问有没有详细的资料推荐一下, 手头的data mining书主要讲classification和其他
: 的, regression没提。

w****n
发帖数: 266
25
谢谢, 大牛解答
w****n
发帖数: 266
26
最后决定用PCA 做feature selection, 算法用SVR。 这个组合怎么样?
d*****u
发帖数: 17243
27
PCA严格说不是feature selection,是一种transformation
当然也能起到降维的作用
只是transform以后的特征不好直接解释,看需要了
SVR的特点是只用考虑部分训练数据

【在 w****n 的大作中提到】
: 最后决定用PCA 做feature selection, 算法用SVR。 这个组合怎么样?
d******e
发帖数: 7844
28
只考虑部分训练数据这个说法太含糊了。
SVR的特点是只考虑错误比较大的点,错误足够小的可以忽略。

【在 d*****u 的大作中提到】
: PCA严格说不是feature selection,是一种transformation
: 当然也能起到降维的作用
: 只是transform以后的特征不好直接解释,看需要了
: SVR的特点是只用考虑部分训练数据

d*****u
发帖数: 17243
29
嗯。总之就是“容易”预测的点对最后的参数没影响

【在 d******e 的大作中提到】
: 只考虑部分训练数据这个说法太含糊了。
: SVR的特点是只考虑错误比较大的点,错误足够小的可以忽略。

w****n
发帖数: 266
30
看来我选的方法不太好, 看kaggle上的牛人大多用random forest, 建1000个树,对
于data mining的final project 有点太难了吧, 有木有简单点的方法
相关主题
有无这种聚类的算法?问两个个KNN的问题
计算机视觉根本就是骗人的,目前已走入歧途Valiant 是理论大牛
请问regression现在比较流行的算法是什么计算机vision中最常用的是哪种classifier?
进入CS版参与讨论
d*****u
发帖数: 17243
31
没啥难的,matlab里有现成的函数,一秒钟就出结果

【在 w****n 的大作中提到】
: 看来我选的方法不太好, 看kaggle上的牛人大多用random forest, 建1000个树,对
: 于data mining的final project 有点太难了吧, 有木有简单点的方法

s*w
发帖数: 729
32
you could at least try
maximum relevance, minimum redundancy by Hanchuan Peng

【在 w****n 的大作中提到】
: 最后决定用PCA 做feature selection, 算法用SVR。 这个组合怎么样?
l*******s
发帖数: 1258
33
试试 SMO regression
然后换不同的kernel function
b******x
发帖数: 826
34
Partial least squares, reduced rank regression, lasso/elastic net
you can find those from Hastie et al's Element of Statistical Learning
nips 2012, Fukumizu has a new paper on kernel dimension reduction and
feature selection

【在 w****n 的大作中提到】
: 现在有组数据, 200多个变量, 想做回归分析, 请教attribute selection 和
: regression algorithm,有什么参考书可以看看,google了一阵没有头绪。

1 (共1页)
进入CS版参与讨论
相关主题
请教Kernel PCAweka新手使用问题
Machine Learning里的一些算法是否有经典库啊?一个机器学习的问题
有无这种聚类的算法?如何面对conference paper投journal的?
计算机视觉根本就是骗人的,目前已走入歧途text book for "Support Vector Machine" (转载)
请问regression现在比较流行的算法是什么求教machine learning的基础材料
问两个个KNN的问题Scientists See Promise in Deep-Learning Programs
Valiant 是理论大牛欢迎加入“机器学习竞赛实践”俱乐部 (转载)
计算机vision中最常用的是哪种classifier?Data Science/Machine Learning读统计还是CS?
相关话题的讨论汇总
话题: regression话题: feature话题: selection话题: lse