m******r 发帖数: 1033 | 1 其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些
迷惑(尤其最近学R),所以上来问问。
比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量
? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起
。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过
这种方法完全依靠经验,不科学。
one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot
_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还
是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:
54个州选一个州
54个州选两个州
...
54个州选27个州
这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。
当然, 这是个天文数字。
一个折中方法,就是凭经验,把54个州合并成10个大州, 然后遍历所有组合:
10选1
10选2
...
10选5
这样一共要算10+45+120+210+252 = 637 种组合。 我研究了一下R里面的流行软件,
rpart, rf, 包括xgb, 似乎都不支持我说的功能,采用的都是用10选1的方法。
反正我觉得不够科学,不知大家平时怎么处理的。 |
g****t 发帖数: 31659 | 2 你的问题没说清楚。多年前在GM我写过一个软件整理汽车
反馈回来的轮胎气压情况。用的是邮政编码。 |
m******r 发帖数: 1033 | 3 你也在gm干过 ?我做过他们不少打酱油项目。
我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。
其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:
销售金额
邮编,
客户ID,
性别,
年龄,
职业,
收入,
爱好,
婚否,
有没有孩子,
买房租房,
车型(客车货车经济车豪华车),
车品牌,
几驱
几缸
手动自动
等等
建个销量预测的模型。 我的问题是如何处理邮编这个变量。
1.老方法, 根据经验合并。东部可以合并成一个大区。 因为通用在东部烧了不少钱,
和dealer关系很好 广告方面更是舍得花钱, 你如果开日本车,过来试新车,就白给你
钱。 西部销量也不少 主要是皮卡,又便宜又皮实。
2.如果每个邮编设个哑变量,显然不现实。
问: 应该怎么办?
【在 g****t 的大作中提到】 : 你的问题没说清楚。多年前在GM我写过一个软件整理汽车 : 反馈回来的轮胎气压情况。用的是邮政编码。
|
w***g 发帖数: 5958 | 4 哈哈, 我现在就在GM做零时工。
我觉得楼主已经想得很明白了,应该没啥更好的办法了。
这个比赛里有state column,或许对你有启发
https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081
【在 m******r 的大作中提到】 : 你也在gm干过 ?我做过他们不少打酱油项目。 : 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。 : 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下: : 销售金额 : 邮编, : 客户ID, : 性别, : 年龄, : 职业, : 收入,
|
m******r 发帖数: 1033 | 5 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
方实在太偏,我肯定投奔去了。
anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
。 |
g****t 发帖数: 31659 | 6 我说的是超过十年以前的事情。怎么成了和你一个单位了。
“多年前”三个字没看到吗
: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便
说。
: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果
不是地
: 方实在太偏,我肯定投奔去了。
: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'
的问题
: 。
【在 m******r 的大作中提到】 : 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。 : 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地 : 方实在太偏,我肯定投奔去了。 : anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题 : 。
|
g****t 发帖数: 31659 | 7 按东西南北分还是按温度地带分
拿少量数据学习出来看看哪个分类好
: 你也在gm干过 ?我做过他们不少打酱油项目。
: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原
贴。
: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:
: 销售金额
: 邮编,
: 客户ID,
: 性别,
: 年龄,
: 职业,
: 收入,
【在 m******r 的大作中提到】 : 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。 : 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地 : 方实在太偏,我肯定投奔去了。 : anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题 : 。
|
g****t 发帖数: 31659 | 8 你不会是在RMB building 吧!
: 哈哈, 我现在就在GM做零时工。
: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。
: 这个比赛里有state column,或许对你有启发
: https://www.kaggle.com/c/springleaf-marketing-response/discussion/
17081
【在 w***g 的大作中提到】 : 哈哈, 我现在就在GM做零时工。 : 我觉得楼主已经想得很明白了,应该没啥更好的办法了。 : 这个比赛里有state column,或许对你有启发 : https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081
|
m******r 发帖数: 1033 | 9 我没去过他们总部的大楼。 我当时再个小公司,后来被收购,和通用算是长期合作伙
伴吧,接手了不少他们junk project.
通用不错的公司, 福利高待遇好 人人不干活。
【在 g****t 的大作中提到】 : 你不会是在RMB building 吧! : : : 哈哈, 我现在就在GM做零时工。 : : 我觉得楼主已经想得很明白了,应该没啥更好的办法了。 : : 这个比赛里有state column,或许对你有启发 : : https://www.kaggle.com/c/springleaf-marketing-response/discussion/ : 17081 :
|