T*******x 发帖数: 8565 | 1 快要到截止日期了。
数据量不大,跟图像没关系。
分两轮比赛,现在是第一轮。目前有3000多个队参赛。
第一轮前100名才有资格进入下一轮比赛。
所以第二轮就清爽了。
我第一次玩kaggle。还没有门路。
zillow这个问题还是挺有意思的。 | T*******x 发帖数: 8565 | 2 我介绍一下zillow第一轮的问题吧:
zillow是一个房地产服务公司,它的核心服务就是给房屋估价。估价越准它的服务就越
可靠它的公司也就越火。估价准确度的检验方法就是看估价和最后成交价之差。
zillow有一个房屋估价的算法叫zestimate。这次比赛的目的就是最终要改进它的这个
算法。这是第二轮的事情。第一轮的目的可以说是模拟它的算法,或者说猜测它的算法
。猜的越准排名越高。第一轮也可以说是为第二轮做准备的:因为你对它的算法猜测越
准确,你也就更能把握它的算法的可能的弱点,从而改进它的算法。
第一轮怎么玩呢?zillow给出了9万套房屋的信息,和它的算法的估价的误差(ln (
zestimate/saleprice))。房屋信息主要包括assessor估价,builtyear,几房几卫,房
屋面积,空调,garage,等情况。
zillow另外给出了三百万套房屋的信息。但是没有给出它的估价的误差。而让你去估计
这三百万套房屋zillow估价的误差。
【在 T*******x 的大作中提到】 : 快要到截止日期了。 : 数据量不大,跟图像没关系。 : 分两轮比赛,现在是第一轮。目前有3000多个队参赛。 : 第一轮前100名才有资格进入下一轮比赛。 : 所以第二轮就清爽了。 : 我第一次玩kaggle。还没有门路。 : zillow这个问题还是挺有意思的。
| m******r 发帖数: 1033 | 3 你进前100啦?
买房子最重要的是学区,地理位置,周围邻居房子最近卖了多少钱,你列出的几个变量
, 最多浮动个几万块钱。 不是关键的因素。
如果我设计zestimate, 我就会和提供data vendor合作, 看谁能提供小区程度上各种参
数,比如median_income, median_house_value,学区等信息。
至于有无空调根本没关系。 mitsubishi在homedepot卖不了几个钱。 | T*******x 发帖数: 8565 | 4 我现在第两千多名。:)
【在 m******r 的大作中提到】 : 你进前100啦? : 买房子最重要的是学区,地理位置,周围邻居房子最近卖了多少钱,你列出的几个变量 : , 最多浮动个几万块钱。 不是关键的因素。 : 如果我设计zestimate, 我就会和提供data vendor合作, 看谁能提供小区程度上各种参 : 数,比如median_income, median_house_value,学区等信息。 : 至于有无空调根本没关系。 mitsubishi在homedepot卖不了几个钱。
| m******r 发帖数: 1033 | 5 那也很好啦。
反正这个题目我看过,觉得题目本身违反常理。 在实际生活中很容易得出的变量,同
一个街区房子售价多少, 不给参赛者,不太合理。
另外,我知道美国的data vendor能做到‘街区’级别的demogeographics data, 也就
是能估算出该小区人的年龄,收入,房屋价值,等等信息.
传统的zip_9 已经不算什么了。
【在 T*******x 的大作中提到】 : 我现在第两千多名。:)
|
|