s****h 发帖数: 3979 | 1 昨天下午看到,觉得这是个很有趣,也实用的题目.
https://www.kaggle.com/c/restaurant-revenue-prediction
training data size: 137
test data size: 100K
Parameters: date, city name, city group, restaurant type, 37 number columns
for demographic , real estate, and commercial data.
初步设想, 用最基本的logistic regression?
city group 两个值, 那就是0, 1
restaurant type 四个值, 那就是0001, 0010,0100,1000
date可以换算成个数值
主要问题:
1. 参数这么多,training size这么小,一般有啥办法解决overfitting?
R2之类的步骤就没必要了吧.
2. 37个numeric column咋弄比较好? 估计有部分column就是category的标识,数值大小
没意义; 有部分column的数值大 小应该还是有意义的.
3. city name怎么用? training set里有20多个city, test里有50多个.
计划用一个新column来替换掉city name. 如果training set里没有的city, 取值为avg
_rev(all city) or avg_rev(all city with the same city group) ; 如果training
set里有的city, 取值为avg_rev(city only)
有兴趣的一起讨论一下? | E**********e 发帖数: 1736 | 2 我也有兴趣。 正开始做。 有一点想法
1. 是不是不能用logistic regression? response variable 是revenue,其他的都是
predictor variables
2至于cities,是不是可以细分contries, continent或region。 这里assumen 同一地
区或country消费习惯类似。
3. 至于37个numverial variable, 可以code categorical variables, 数量少的合
并在一起。
4. open date 是唯一的continuou variables 。 应该算出从open date 到revenue 采
集的时间段。
columns
【在 s****h 的大作中提到】 : 昨天下午看到,觉得这是个很有趣,也实用的题目. : https://www.kaggle.com/c/restaurant-revenue-prediction : training data size: 137 : test data size: 100K : Parameters: date, city name, city group, restaurant type, 37 number columns : for demographic , real estate, and commercial data. : 初步设想, 用最基本的logistic regression? : city group 两个值, 那就是0, 1 : restaurant type 四个值, 那就是0001, 0010,0100,1000 : date可以换算成个数值
| O*********y 发帖数: 923 | 3
response var是continuous,觉得不合适用logistic regression;
【在 E**********e 的大作中提到】 : 我也有兴趣。 正开始做。 有一点想法 : 1. 是不是不能用logistic regression? response variable 是revenue,其他的都是 : predictor variables : 2至于cities,是不是可以细分contries, continent或region。 这里assumen 同一地 : 区或country消费习惯类似。 : 3. 至于37个numverial variable, 可以code categorical variables, 数量少的合 : 并在一起。 : 4. open date 是唯一的continuou variables 。 应该算出从open date 到revenue 采 : 集的时间段。 :
| s****h 发帖数: 3979 | 4 看了一下论坛
貌似流行的思路就是SVM or Random Forest or combined model
+
feature selecting
在去年的这个比赛中,http://www.kaggle.com/c/mlsp-2014-mri
最后第二名的code和思路都贴出来了,可以参考一下。
可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很
待见,觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。 | E**********e 发帖数: 1736 | 5 那里找到这个思路和code? 我怎么找不到。 另外, 以往的projects 都贴在那里了?
可以下载学习吗? 谢谢。
【在 s****h 的大作中提到】 : 看了一下论坛 : 貌似流行的思路就是SVM or Random Forest or combined model : + : feature selecting : 在去年的这个比赛中,http://www.kaggle.com/c/mlsp-2014-mri : 最后第二名的code和思路都贴出来了,可以参考一下。 : 可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很 : 待见,觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。
| s****h 发帖数: 3979 | 6 http://www.kaggle.com/c/mlsp-2014-mri/details/winners
你到restaurant的论坛里,可以看到有benchmark (beat the benchmark)的code,啥
tuning都没用,直接裸run SVM or RF。
结果也不差了。
做为商业应用来说,我真不觉得1.65M 和1.55M的误差有多大区别。
多拿一些数据,或者多加一些所谓的domain knowledge意义大多了。
【在 E**********e 的大作中提到】 : 那里找到这个思路和code? 我怎么找不到。 另外, 以往的projects 都贴在那里了? : 可以下载学习吗? 谢谢。
| s****h 发帖数: 3979 | 7 以前没怎么太follow过这些,刚看了一下http://www.kaggle.com/c/mlsp-2014-mri
第一名说他根本没有进一步改进model,因为在public LB上他排名很差。
估计第二名的情况也一样。
仔细一看,
最终第一(private LB)的在public LB上才排269
最终第一(private LB)的在public LB上才排282
而且搞笑的是他们的private score比public score高很多。????
无数人overfitting啊。
用这些model裸run实在是有点搞笑啊!纯赌博啊!
更搞笑的是,这个restaurant-revenue-prediction的题目,很多人就猜测数据是怎么
产生的,想back engineer data. | s*********h 发帖数: 6288 | 8 这也太作弊了吧?有意义么……
就为了拿个奖写resume?
【在 s****h 的大作中提到】 : 以前没怎么太follow过这些,刚看了一下http://www.kaggle.com/c/mlsp-2014-mri : 第一名说他根本没有进一步改进model,因为在public LB上他排名很差。 : 估计第二名的情况也一样。 : 仔细一看, : 最终第一(private LB)的在public LB上才排269 : 最终第一(private LB)的在public LB上才排282 : 而且搞笑的是他们的private score比public score高很多。???? : 无数人overfitting啊。 : 用这些model裸run实在是有点搞笑啊!纯赌博啊! : 更搞笑的是,这个restaurant-revenue-prediction的题目,很多人就猜测数据是怎么
| s*********h 发帖数: 6288 | 9 话说这出题者是出于什么想法只给了137个 training data?
里面大多数city都只有一个obs。
test set 这么大…… | O*********y 发帖数: 923 | 10
testdata 被加了一些fake data,据说为了防止guess,我猜,真正的test data少于
100
【在 s*********h 的大作中提到】 : 话说这出题者是出于什么想法只给了137个 training data? : 里面大多数city都只有一个obs。 : test set 这么大……
| h*********d 发帖数: 109 | 11
columns
【在 s****h 的大作中提到】 : 昨天下午看到,觉得这是个很有趣,也实用的题目. : https://www.kaggle.com/c/restaurant-revenue-prediction : training data size: 137 : test data size: 100K : Parameters: date, city name, city group, restaurant type, 37 number columns : for demographic , real estate, and commercial data. : 初步设想, 用最基本的logistic regression? : city group 两个值, 那就是0, 1 : restaurant type 四个值, 那就是0001, 0010,0100,1000 : date可以换算成个数值
|
|