由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 弱问, 有category的features怎么转化成数字的?
相关主题
求教, python 对于很奇怪的字符的encoding 怎么处理?deep learning做embeded system,业界动态或者公司
原来设计是个人都能做的破系统很丢人encode high cardinality categorical features
What's the problem with 'ascii' codec? (转载)新码工请教如何处理修bug和开发features (转载)
auto encoder 出来之后是不是没人再用PCA了xgboost 训练小感
TeacherWei给说说c++的前景吧Python:请问如何把list变成structured array。
怎么把 integer 转为 multi-byte integer format?reverse bits 的题目
大家来看看这个纯Javascript实现的QR二维码生成器请问如何将一个matlab写的function文件转化成一个.dll文件
用react的试过中文么?怎么用matlab把binary文件转化成ascii文件?
相关话题的讨论汇总
话题: 数字话题: 转化成话题: category话题: features话题: hot
进入Programming版参与讨论
1 (共1页)
g*******u
发帖数: 3948
1
以前看过 没进去看 真要用了 又不确定哪个是常规的
比如 有其他的数字的 特征。 还有 比如 男女的
简单的 吧男的 转成0 女的转成1 还有更通用的常规的办法吗?
thx
w***g
发帖数: 5958
2
one hot encoding。

【在 g*******u 的大作中提到】
: 以前看过 没进去看 真要用了 又不确定哪个是常规的
: 比如 有其他的数字的 特征。 还有 比如 男女的
: 简单的 吧男的 转成0 女的转成1 还有更通用的常规的办法吗?
: thx

g*******u
发帖数: 3948
3
这个one hot 我知道啊
就转成 01 序列了呗 然后和其他的 数字特征连起来就完事了?

【在 w***g 的大作中提到】
: one hot encoding。
w***g
发帖数: 5958
4
完事了。

【在 g*******u 的大作中提到】
: 这个one hot 我知道啊
: 就转成 01 序列了呗 然后和其他的 数字特征连起来就完事了?

g*******u
发帖数: 3948
5
....
好吧
我还以为有其他奇技淫巧呢
多谢大牛

【在 w***g 的大作中提到】
: 完事了。
M********0
发帖数: 1230
6
同时也看你用什么库
xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal
encoding
nn的话也只能one-hot
w***g
发帖数: 5958
7
想起来还有一个word2vec, 用来做category很多的情况。

:同时也看你用什么库
:xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal
g*******u
发帖数: 3948
8
我就 些 比如 男女啊 年龄啊, state 信息
所以 估计直接 one-hot 先试试吧

【在 M********0 的大作中提到】
: 同时也看你用什么库
: xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal
: encoding
: nn的话也只能one-hot

L****8
发帖数: 3938
9
这个比较nb的办法

ordinal

【在 w***g 的大作中提到】
: 想起来还有一个word2vec, 用来做category很多的情况。
:
: :同时也看你用什么库
: :xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal

s********k
发帖数: 6180
10
最好还是自己train embedding

【在 w***g 的大作中提到】
: one hot encoding。
1 (共1页)
进入Programming版参与讨论
相关主题
怎么用matlab把binary文件转化成ascii文件?TeacherWei给说说c++的前景吧
如何把'101111' 转化成二进制数101111怎么把 integer 转为 multi-byte integer format?
C++ Primer 和 C++ Primer Plus有什么区别大家来看看这个纯Javascript实现的QR二维码生成器
看C码工写Python真是捉急用react的试过中文么?
求教, python 对于很奇怪的字符的encoding 怎么处理?deep learning做embeded system,业界动态或者公司
原来设计是个人都能做的破系统很丢人encode high cardinality categorical features
What's the problem with 'ascii' codec? (转载)新码工请教如何处理修bug和开发features (转载)
auto encoder 出来之后是不是没人再用PCA了xgboost 训练小感
相关话题的讨论汇总
话题: 数字话题: 转化成话题: category话题: features话题: hot