kaggle上这个restaurant-revenue-prediction的题目有人考虑过么? - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?

相关主题
● 报面筋求实习合租 (转载)	● kaggle上面的竞赛对找data scientist的工作帮助大吗？
● Colah 关于 neural network 的一篇博客	● 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
● 恭喜开版，发个刚看到的好玩的machine learning的图	● 请问哪些算法是可以用python写的，然后输入PMML
● 我觉得neural network应用范围不大啊	● 一个面试题（predictive model） (转载)
● Kaggle 泰坦尼克80%几的准确率再上不去了，怎么办 (转载)	● model selection problem
● lending club的notes 数据	● please explain the difference between Logistic Regression and Linear Kernel SVMs
● [Kaggle Contest] Predict the 2014 NCAA Basketball Tournament	● machine learning 课程项目的presentation：大疑问-？？？
● 问问面试如何出题	● 究竟stacking是怎么做的

相关话题的讨论汇总
话题: city话题: restaurant话题: training话题: revenue话题: column

进入DataSciences版参与讨论

1

(共1页)

s****h 发帖数: 3979	1 昨天下午看到,觉得这是个很有趣,也实用的题目. https://www.kaggle.com/c/restaurant-revenue-prediction training data size: 137 test data size: 100K Parameters: date, city name, city group, restaurant type, 37 number columns for demographic , real estate, and commercial data. 初步设想, 用最基本的logistic regression? city group 两个值, 那就是0, 1 restaurant type 四个值, 那就是0001, 0010,0100,1000 date可以换算成个数值主要问题: 1. 参数这么多,training size这么小,一般有啥办法解决overfitting? R2之类的步骤就没必要了吧. 2. 37个numeric column咋弄比较好? 估计有部分column就是category的标识,数值大小没意义; 有部分column的数值大小应该还是有意义的. 3. city name怎么用? training set里有20多个city, test里有50多个. 计划用一个新column来替换掉city name. 如果training set里没有的city, 取值为avg _rev(all city) or avg_rev(all city with the same city group) ; 如果training set里有的city, 取值为avg_rev(city only) 有兴趣的一起讨论一下？
E**********e 发帖数: 1736	2 我也有兴趣。正开始做。有一点想法 1. 是不是不能用logistic regression? response variable 是revenue，其他的都是 predictor variables 2至于cities，是不是可以细分contries， continent或region。这里assumen 同一地区或country消费习惯类似。 3. 至于37个numverial variable，可以code categorical variables，数量少的合并在一起。 4. open date 是唯一的continuou variables 。应该算出从open date 到revenue 采集的时间段。 columns 【在 s****h 的大作中提到】 : 昨天下午看到,觉得这是个很有趣,也实用的题目. : https://www.kaggle.com/c/restaurant-revenue-prediction : training data size: 137 : test data size: 100K : Parameters: date, city name, city group, restaurant type, 37 number columns : for demographic , real estate, and commercial data. : 初步设想, 用最基本的logistic regression? : city group 两个值, 那就是0, 1 : restaurant type 四个值, 那就是0001, 0010,0100,1000 : date可以换算成个数值
O*********y 发帖数: 923	3 response var是continuous，觉得不合适用logistic regression；【在 E**********e 的大作中提到】 : 我也有兴趣。正开始做。有一点想法 : 1. 是不是不能用logistic regression? response variable 是revenue，其他的都是 : predictor variables : 2至于cities，是不是可以细分contries， continent或region。这里assumen 同一地 : 区或country消费习惯类似。 : 3. 至于37个numverial variable，可以code categorical variables，数量少的合 : 并在一起。 : 4. open date 是唯一的continuou variables 。应该算出从open date 到revenue 采 : 集的时间段。 :
s****h 发帖数: 3979	4 看了一下论坛貌似流行的思路就是SVM or Random Forest or combined model + feature selecting 在去年的这个比赛中，http://www.kaggle.com/c/mlsp-2014-mri 最后第二名的code和思路都贴出来了，可以参考一下。可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很待见，觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。
E**********e 发帖数: 1736	5 那里找到这个思路和code？我怎么找不到。另外，以往的projects 都贴在那里了？可以下载学习吗？谢谢。【在 s****h 的大作中提到】 : 看了一下论坛 : 貌似流行的思路就是SVM or Random Forest or combined model : + : feature selecting : 在去年的这个比赛中，http://www.kaggle.com/c/mlsp-2014-mri : 最后第二名的code和思路都贴出来了，可以参考一下。 : 可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很 : 待见，觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。
s****h 发帖数: 3979	6 http://www.kaggle.com/c/mlsp-2014-mri/details/winners 你到restaurant的论坛里，可以看到有benchmark （beat the benchmark）的code，啥 tuning都没用，直接裸run SVM or RF。结果也不差了。做为商业应用来说，我真不觉得1.65M 和1.55M的误差有多大区别。多拿一些数据，或者多加一些所谓的domain knowledge意义大多了。【在 E**********e 的大作中提到】 : 那里找到这个思路和code？我怎么找不到。另外，以往的projects 都贴在那里了？ : 可以下载学习吗？谢谢。
s****h 发帖数: 3979	7 以前没怎么太follow过这些，刚看了一下http://www.kaggle.com/c/mlsp-2014-mri 第一名说他根本没有进一步改进model，因为在public LB上他排名很差。估计第二名的情况也一样。仔细一看，最终第一（private LB)的在public LB上才排269 最终第一（private LB)的在public LB上才排282 而且搞笑的是他们的private score比public score高很多。？？？？无数人overfitting啊。用这些model裸run实在是有点搞笑啊！纯赌博啊！更搞笑的是，这个restaurant-revenue-prediction的题目，很多人就猜测数据是怎么产生的，想back engineer data.
s*********h 发帖数: 6288	8 这也太作弊了吧？有意义么…… 就为了拿个奖写resume？【在 s****h 的大作中提到】 : 以前没怎么太follow过这些，刚看了一下http://www.kaggle.com/c/mlsp-2014-mri : 第一名说他根本没有进一步改进model，因为在public LB上他排名很差。 : 估计第二名的情况也一样。 : 仔细一看， : 最终第一（private LB)的在public LB上才排269 : 最终第一（private LB)的在public LB上才排282 : 而且搞笑的是他们的private score比public score高很多。？？？？ : 无数人overfitting啊。 : 用这些model裸run实在是有点搞笑啊！纯赌博啊！ : 更搞笑的是，这个restaurant-revenue-prediction的题目，很多人就猜测数据是怎么
s*********h 发帖数: 6288	9 话说这出题者是出于什么想法只给了137个 training data？里面大多数city都只有一个obs。 test set 这么大……
O*********y 发帖数: 923	10 testdata 被加了一些fake data，据说为了防止guess，我猜，真正的test data少于 100 【在 s*********h 的大作中提到】 : 话说这出题者是出于什么想法只给了137个 training data？ : 里面大多数city都只有一个obs。 : test set 这么大……
h*********d 发帖数: 109	11 columns 【在 s****h 的大作中提到】 : 昨天下午看到,觉得这是个很有趣,也实用的题目. : https://www.kaggle.com/c/restaurant-revenue-prediction : training data size: 137 : test data size: 100K : Parameters: date, city name, city group, restaurant type, 37 number columns : for demographic , real estate, and commercial data. : 初步设想, 用最基本的logistic regression? : city group 两个值, 那就是0, 1 : restaurant type 四个值, 那就是0001, 0010,0100,1000 : date可以换算成个数值

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 究竟stacking是怎么做的	● Kaggle 泰坦尼克80%几的准确率再上不去了，怎么办 (转载)
● Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)	● lending club的notes 数据
● 什么叫做大数据？	● [Kaggle Contest] Predict the 2014 NCAA Basketball Tournament
● [Data Science Project Case] Topic Learning	● 问问面试如何出题
● 报面筋求实习合租 (转载)	● kaggle上面的竞赛对找data scientist的工作帮助大吗？
● Colah 关于 neural network 的一篇博客	● 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
● 恭喜开版，发个刚看到的好玩的machine learning的图	● 请问哪些算法是可以用python写的，然后输入PMML
● 我觉得neural network应用范围不大啊	● 一个面试题（predictive model） (转载)

相关话题的讨论汇总
话题: city话题: restaurant话题: training话题: revenue话题: column

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)