由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 老生常谈,民科问应该如何处理分类(categorical)变量?
相关主题
encode high cardinality categorical features老生常谈,请教一个转行问题
想请教大牛们一个处理categorical variable in Machine Learning 的问题a question about CGI
神经网络识别多个目标How to encode YYYY-MM-DD?
怎么把 integer 转为 multi-byte integer format?请教:JavaScript怎么复制一个node(含子节点)? (转载)
大家来看看这个纯Javascript实现的QR二维码生成器how to login mitbbs with java code (转载)
求教, python 对于很奇怪的字符的encoding 怎么处理?请教:如何用Java get URL content是.swe并且是utf-16 encoding的文件
用react的试过中文么?编码问题
这里有没有码农架空PM等管理层的?顺便问一个CreateFile问题 (转载)
相关话题的讨论汇总
话题: 个州话题: 变量话题: br话题: 54
进入Programming版参与讨论
1 (共1页)
m******r
发帖数: 1033
1
其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些
迷惑(尤其最近学R),所以上来问问。
比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量
? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起
。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过
这种方法完全依靠经验,不科学。
one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot
_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还
是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:
54个州选一个州
54个州选两个州
...
54个州选27个州
这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。
当然, 这是个天文数字。
一个折中方法,就是凭经验,把54个州合并成10个大州, 然后遍历所有组合:
10选1
10选2
...
10选5
这样一共要算10+45+120+210+252 = 637 种组合。 我研究了一下R里面的流行软件,
rpart, rf, 包括xgb, 似乎都不支持我说的功能,采用的都是用10选1的方法。
反正我觉得不够科学,不知大家平时怎么处理的。
g****t
发帖数: 31659
2
你的问题没说清楚。多年前在GM我写过一个软件整理汽车
反馈回来的轮胎气压情况。用的是邮政编码。
m******r
发帖数: 1033
3
你也在gm干过 ?我做过他们不少打酱油项目。
我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。
其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:
销售金额
邮编,
客户ID,
性别,
年龄,
职业,
收入,
爱好,
婚否,
有没有孩子,
买房租房,
车型(客车货车经济车豪华车),
车品牌,
几驱
几缸
手动自动
等等
建个销量预测的模型。 我的问题是如何处理邮编这个变量。
1.老方法, 根据经验合并。东部可以合并成一个大区。 因为通用在东部烧了不少钱,
和dealer关系很好 广告方面更是舍得花钱, 你如果开日本车,过来试新车,就白给你
钱。 西部销量也不少 主要是皮卡,又便宜又皮实。
2.如果每个邮编设个哑变量,显然不现实。
问: 应该怎么办?

【在 g****t 的大作中提到】
: 你的问题没说清楚。多年前在GM我写过一个软件整理汽车
: 反馈回来的轮胎气压情况。用的是邮政编码。

w***g
发帖数: 5958
4
哈哈, 我现在就在GM做零时工。
我觉得楼主已经想得很明白了,应该没啥更好的办法了。
这个比赛里有state column,或许对你有启发
https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081

【在 m******r 的大作中提到】
: 你也在gm干过 ?我做过他们不少打酱油项目。
: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。
: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:
: 销售金额
: 邮编,
: 客户ID,
: 性别,
: 年龄,
: 职业,
: 收入,

m******r
发帖数: 1033
5
那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
方实在太偏,我肯定投奔去了。
anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
g****t
发帖数: 31659
6
我说的是超过十年以前的事情。怎么成了和你一个单位了。
“多年前”三个字没看到吗


: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便
说。

: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果
不是地

: 方实在太偏,我肯定投奔去了。

: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'
的问题

: 。



【在 m******r 的大作中提到】
: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
: 方实在太偏,我肯定投奔去了。
: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
: 。

g****t
发帖数: 31659
7
按东西南北分还是按温度地带分
拿少量数据学习出来看看哪个分类好


: 你也在gm干过 ?我做过他们不少打酱油项目。

: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原
贴。

: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:

: 销售金额

: 邮编,

: 客户ID,

: 性别,

: 年龄,

: 职业,

: 收入,



【在 m******r 的大作中提到】
: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
: 方实在太偏,我肯定投奔去了。
: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
: 。

g****t
发帖数: 31659
8
你不会是在RMB building 吧!


: 哈哈, 我现在就在GM做零时工。

: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。

: 这个比赛里有state column,或许对你有启发

: https://www.kaggle.com/c/springleaf-marketing-response/discussion/
17081



【在 w***g 的大作中提到】
: 哈哈, 我现在就在GM做零时工。
: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。
: 这个比赛里有state column,或许对你有启发
: https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081

m******r
发帖数: 1033
9
我没去过他们总部的大楼。 我当时再个小公司,后来被收购,和通用算是长期合作伙
伴吧,接手了不少他们junk project.
通用不错的公司, 福利高待遇好 人人不干活。

【在 g****t 的大作中提到】
: 你不会是在RMB building 吧!
:
:
: 哈哈, 我现在就在GM做零时工。
:
: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。
:
: 这个比赛里有state column,或许对你有启发
:
: https://www.kaggle.com/c/springleaf-marketing-response/discussion/
: 17081
:

1 (共1页)
进入Programming版参与讨论
相关主题
顺便问一个CreateFile问题 (转载)大家来看看这个纯Javascript实现的QR二维码生成器
Google Chrome 里还是夹带了私货求教, python 对于很奇怪的字符的encoding 怎么处理?
sucks (转载)用react的试过中文么?
[合集] how to know the encoding of a file这里有没有码农架空PM等管理层的?
encode high cardinality categorical features老生常谈,请教一个转行问题
想请教大牛们一个处理categorical variable in Machine Learning 的问题a question about CGI
神经网络识别多个目标How to encode YYYY-MM-DD?
怎么把 integer 转为 multi-byte integer format?请教:JavaScript怎么复制一个node(含子节点)? (转载)
相关话题的讨论汇总
话题: 个州话题: 变量话题: br话题: 54