m*******4 发帖数: 34 | 1 本人CS硕, 最近在面开发的职位。前几天电面一家公司, 本来面后端开发的, 但是
聊的实验室项目, 他们挺感兴趣。
我们实验室是做识别的, 所以会用到很多classifier. 就聊聊ML的东西。 结果给我
发了个 data science challenge.
预测房价, 给了几万条training数据,有房价, feature 比如房屋类型, 地理位
置, 距离城里多远,有数字类型的, 也有categorical 的。
然后又有几万条数据同样类型的feature, 没房价,让建模型 预测。
要求一周内做出来,
提交代码。描述模型, 选的什么软件, 什么包
何种算法, 怎样选feature, 为什么
怎样分析模型的 accuracy , 用什么方法,为什么选这个方法
那个feature 影响高, 那个影响低, 用什么方法找的。
数据有错误, 要求清洗, 哪些清洗时必要的
---------------------------------
我们实验室就是用用 naive bayes, SVM 啥的。 没人真懂。
我觉得这是回归不是分类。 我上统计课的时候知道些线性回归的皮毛。
觉得此题对版上的人来说是小菜一碟, 特来讨教 | Y****a 发帖数: 243 | 2 听起来这个数据已经相对clean了,如果要的结果是房价区间,可以做分类,如果要具
体数值,就regression。最简单的就是把数据扔各种tree model里,用cross
validation找个好的。randomforest可以给你variable importance。
话说回来,这个面试题不会,真工作了,怎么做啊? 你还是强调一下你感兴趣的是sde
吧。 |
|