由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
相关主题
报面筋求实习合租 (转载)kaggle上面的竞赛对找data scientist的工作帮助大吗?
Colah 关于 neural network 的一篇博客为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
恭喜开版,发个刚看到的好玩的machine learning的图请问哪些算法是可以用python写的,然后输入PMML
我觉得neural network应用范围不大啊一个面试题(predictive model) (转载)
Kaggle 泰坦尼克80%几的准确率再上不去了,怎么办 (转载)model selection problem
lending club的notes 数据please explain the difference between Logistic Regression and Linear Kernel SVMs
[Kaggle Contest] Predict the 2014 NCAA Basketball Tournamentmachine learning 课程项目的presentation: 大疑问-???
问问面试如何出题究竟stacking是怎么做的
相关话题的讨论汇总
话题: city话题: restaurant话题: training话题: revenue话题: column
进入DataSciences版参与讨论
1 (共1页)
s****h
发帖数: 3979
1
昨天下午看到,觉得这是个很有趣,也实用的题目.
https://www.kaggle.com/c/restaurant-revenue-prediction
training data size: 137
test data size: 100K
Parameters: date, city name, city group, restaurant type, 37 number columns
for demographic , real estate, and commercial data.
初步设想, 用最基本的logistic regression?
city group 两个值, 那就是0, 1
restaurant type 四个值, 那就是0001, 0010,0100,1000
date可以换算成个数值
主要问题:
1. 参数这么多,training size这么小,一般有啥办法解决overfitting?
R2之类的步骤就没必要了吧.
2. 37个numeric column咋弄比较好? 估计有部分column就是category的标识,数值大小
没意义; 有部分column的数值大 小应该还是有意义的.
3. city name怎么用? training set里有20多个city, test里有50多个.
计划用一个新column来替换掉city name. 如果training set里没有的city, 取值为avg
_rev(all city) or avg_rev(all city with the same city group) ; 如果training
set里有的city, 取值为avg_rev(city only)
有兴趣的一起讨论一下?
E**********e
发帖数: 1736
2
我也有兴趣。 正开始做。 有一点想法
1. 是不是不能用logistic regression? response variable 是revenue,其他的都是
predictor variables
2至于cities,是不是可以细分contries, continent或region。 这里assumen 同一地
区或country消费习惯类似。
3. 至于37个numverial variable, 可以code categorical variables, 数量少的合
并在一起。
4. open date 是唯一的continuou variables 。 应该算出从open date 到revenue 采
集的时间段。

columns

【在 s****h 的大作中提到】
: 昨天下午看到,觉得这是个很有趣,也实用的题目.
: https://www.kaggle.com/c/restaurant-revenue-prediction
: training data size: 137
: test data size: 100K
: Parameters: date, city name, city group, restaurant type, 37 number columns
: for demographic , real estate, and commercial data.
: 初步设想, 用最基本的logistic regression?
: city group 两个值, 那就是0, 1
: restaurant type 四个值, 那就是0001, 0010,0100,1000
: date可以换算成个数值

O*********y
发帖数: 923
3

response var是continuous,觉得不合适用logistic regression;

【在 E**********e 的大作中提到】
: 我也有兴趣。 正开始做。 有一点想法
: 1. 是不是不能用logistic regression? response variable 是revenue,其他的都是
: predictor variables
: 2至于cities,是不是可以细分contries, continent或region。 这里assumen 同一地
: 区或country消费习惯类似。
: 3. 至于37个numverial variable, 可以code categorical variables, 数量少的合
: 并在一起。
: 4. open date 是唯一的continuou variables 。 应该算出从open date 到revenue 采
: 集的时间段。
:

s****h
发帖数: 3979
4
看了一下论坛
貌似流行的思路就是SVM or Random Forest or combined model
+
feature selecting
在去年的这个比赛中,http://www.kaggle.com/c/mlsp-2014-mri
最后第二名的code和思路都贴出来了,可以参考一下。
可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很
待见,觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。
E**********e
发帖数: 1736
5
那里找到这个思路和code? 我怎么找不到。 另外, 以往的projects 都贴在那里了?
可以下载学习吗? 谢谢。

【在 s****h 的大作中提到】
: 看了一下论坛
: 貌似流行的思路就是SVM or Random Forest or combined model
: +
: feature selecting
: 在去年的这个比赛中,http://www.kaggle.com/c/mlsp-2014-mri
: 最后第二名的code和思路都贴出来了,可以参考一下。
: 可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很
: 待见,觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。

s****h
发帖数: 3979
6
http://www.kaggle.com/c/mlsp-2014-mri/details/winners
你到restaurant的论坛里,可以看到有benchmark (beat the benchmark)的code,啥
tuning都没用,直接裸run SVM or RF。
结果也不差了。
做为商业应用来说,我真不觉得1.65M 和1.55M的误差有多大区别。
多拿一些数据,或者多加一些所谓的domain knowledge意义大多了。

【在 E**********e 的大作中提到】
: 那里找到这个思路和code? 我怎么找不到。 另外, 以往的projects 都贴在那里了?
: 可以下载学习吗? 谢谢。

s****h
发帖数: 3979
7
以前没怎么太follow过这些,刚看了一下http://www.kaggle.com/c/mlsp-2014-mri
第一名说他根本没有进一步改进model,因为在public LB上他排名很差。
估计第二名的情况也一样。
仔细一看,
最终第一(private LB)的在public LB上才排269
最终第一(private LB)的在public LB上才排282
而且搞笑的是他们的private score比public score高很多。????
无数人overfitting啊。
用这些model裸run实在是有点搞笑啊!纯赌博啊!
更搞笑的是,这个restaurant-revenue-prediction的题目,很多人就猜测数据是怎么
产生的,想back engineer data.
s*********h
发帖数: 6288
8
这也太作弊了吧?有意义么……
就为了拿个奖写resume?

【在 s****h 的大作中提到】
: 以前没怎么太follow过这些,刚看了一下http://www.kaggle.com/c/mlsp-2014-mri
: 第一名说他根本没有进一步改进model,因为在public LB上他排名很差。
: 估计第二名的情况也一样。
: 仔细一看,
: 最终第一(private LB)的在public LB上才排269
: 最终第一(private LB)的在public LB上才排282
: 而且搞笑的是他们的private score比public score高很多。????
: 无数人overfitting啊。
: 用这些model裸run实在是有点搞笑啊!纯赌博啊!
: 更搞笑的是,这个restaurant-revenue-prediction的题目,很多人就猜测数据是怎么

s*********h
发帖数: 6288
9
话说这出题者是出于什么想法只给了137个 training data?
里面大多数city都只有一个obs。
test set 这么大……
O*********y
发帖数: 923
10

testdata 被加了一些fake data,据说为了防止guess,我猜,真正的test data少于
100

【在 s*********h 的大作中提到】
: 话说这出题者是出于什么想法只给了137个 training data?
: 里面大多数city都只有一个obs。
: test set 这么大……

h*********d
发帖数: 109
11

columns

【在 s****h 的大作中提到】
: 昨天下午看到,觉得这是个很有趣,也实用的题目.
: https://www.kaggle.com/c/restaurant-revenue-prediction
: training data size: 137
: test data size: 100K
: Parameters: date, city name, city group, restaurant type, 37 number columns
: for demographic , real estate, and commercial data.
: 初步设想, 用最基本的logistic regression?
: city group 两个值, 那就是0, 1
: restaurant type 四个值, 那就是0001, 0010,0100,1000
: date可以换算成个数值

1 (共1页)
进入DataSciences版参与讨论
相关主题
究竟stacking是怎么做的Kaggle 泰坦尼克80%几的准确率再上不去了,怎么办 (转载)
Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)lending club的notes 数据
什么叫做大数据?[Kaggle Contest] Predict the 2014 NCAA Basketball Tournament
[Data Science Project Case] Topic Learning问问面试如何出题
报面筋求实习合租 (转载)kaggle上面的竞赛对找data scientist的工作帮助大吗?
Colah 关于 neural network 的一篇博客为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
恭喜开版,发个刚看到的好玩的machine learning的图请问哪些算法是可以用python写的,然后输入PMML
我觉得neural network应用范围不大啊一个面试题(predictive model) (转载)
相关话题的讨论汇总
话题: city话题: restaurant话题: training话题: revenue话题: column