紧急求救： SMOTE-NC 处理categorical data for unbalanced class！！！ - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 紧急求救： SMOTE-NC 处理categorical data for unbalanced class！！！

相关主题
● 怎么处理categorical variable有很多个level的	● [挖个坑]数据分析都有哪些开源工具呀？
● Project :advertersiment click prediction	● 请推荐生物界认可的Clustering Analysis的免费软件
● data science 面试求教	● 求职求内推
● 我现在有一个15个variable的回归模型。有什么系统性的方法去	● weka有支持regression tree的random forest吗 (转载)
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● 大家觉得Weka和Python比较如何?
● 有没有大牛来classifiy一下 PCA用法吗？	● 大家知道这个公司吗？RANG TECHNOLOGIES in NEW Jersey
● 请教大家一个做feature的问题	● 请问关于小的dataset evaluation的问题
● 请教一道面试题	● 请问有关t-test（包子酬谢！） (转载)

相关话题的讨论汇总
话题: smote话题: dummy话题: class话题: variable

进入DataSciences版参与讨论

(共1页)

f*******6
发帖数: 56

SMOTE只能处理continuous data, 对于categorical data 要用SMOTE-NC，google了很
多就是没有找到相关可行的code。希望好心人能share 一下。
谢谢！！

E**********e
发帖数: 1736

这个我做过。你需要知道怎么计算category 变量的距离。好像有篇文章，就是原作者
的一篇介绍SMOTE文章谈到这个怎么处理categorical变量。
但是这个SMOTE对于实际问题也许效果不好。学校里做作也许能灌两篇文章。

：SMOTE只能处理continuous data, 对于categorical data 要用SMOTE-NC，google了很
：多就是没有找到相关可行的code。希望好心人能share 一下。

f*******6
发帖数: 56

是machine learning的课程项目。
我们的数据是unbalanced,大部分是continuous, 只有少数几列是categorical的，因为
我们要用到logistic regression, svm, 所以把categorical都转化为dummy variable,
结果在用SMOTE的时候这些dummy cariable都变成0到1之间的数据。
现在两个问题：
1）原本的class组成是10700 class-1, 1450 class-0;用完SMOTE, 数据变成 5500
class-1, 4100 calss-0; 这些categorical的数据不能单独拿出来呀？本身SMOTE用的
就是点到点之间的距离来cluster这些点的；
2）现在想死马当活马来用，想把《0.5 的归于0；》=0.5的归为1。

了很

【在 E**********e 的大作中提到】

: 这个我做过。你需要知道怎么计算category 变量的距离。好像有篇文章，就是原作者
: 的一篇介绍SMOTE文章谈到这个怎么处理categorical变量。
: 但是这个SMOTE对于实际问题也许效果不好。学校里做作也许能灌两篇文章。
:
: ：SMOTE只能处理continuous data, 对于categorical data 要用SMOTE-NC，google了很
: ：多就是没有找到相关可行的code。希望好心人能share 一下。

x***t
发帖数: 263

原paper里讲了一种实现：
Populate the synthetic sample: The continuous features of the new synthetic
minority
class sample are created using the same approach of SMOTE as described
earlier. The
nominal feature is given the value occurring in the majority of the k-
nearest neighbors
如果已经做了dummy variable，SMOTE之后出来0 到 1之间的值，那就应该把最大的变1
，其他全部归零。

variable,

【在 f*******6 的大作中提到】

: 是machine learning的课程项目。
: 我们的数据是unbalanced,大部分是continuous, 只有少数几列是categorical的，因为
: 我们要用到logistic regression, svm, 所以把categorical都转化为dummy variable,
: 结果在用SMOTE的时候这些dummy cariable都变成0到1之间的数据。
: 现在两个问题：
: 1）原本的class组成是10700 class-1, 1450 class-0;用完SMOTE, 数据变成 5500
: class-1, 4100 calss-0; 这些categorical的数据不能单独拿出来呀？本身SMOTE用的
: 就是点到点之间的距离来cluster这些点的；
: 2）现在想死马当活马来用，想把《0.5 的归于0；》=0.5的归为1。
:

m******r
发帖数: 1033

hi, 有答案了吗？我以前碰到过一样的问题，一直没有合适的方法。具体说，就是美
国50个州，怎么把州变成数字，让机器算?
想不到smote这么牛b的算法，也束手无策 . 我以为这种问题早就解决了。

【在 f*******6 的大作中提到】

: SMOTE只能处理continuous data, 对于categorical data 要用SMOTE-NC，google了很
: 多就是没有找到相关可行的code。希望好心人能share 一下。
: 谢谢！！

f*******6
发帖数: 56

在没有把categorical data 变成 dummy variable的时候，用WEKA 能够生成出具体的
哪一个州。但是WEKA，R studio 产生的结果不同。weka只是double minority class,
保持majority class. 但是R studio 能够产生基本45%，55%的两个classes. 不知道哪
个是对的。

【在 m******r 的大作中提到】

: hi, 有答案了吗？我以前碰到过一样的问题，一直没有合适的方法。具体说，就是美
: 国50个州，怎么把州变成数字，让机器算?
: 想不到smote这么牛b的算法，也束手无策 . 我以为这种问题早就解决了。

E**********e
发帖数: 1736

SMOTE 不复杂啊。你读原作者的文章，你可以CODE 出来的啊。当然原作者的终极版有
优化。
我同时用R 和 PYTHON code 了。但是最终实际效果在risk model 上表现不好。实际上
我也不看好这个方法。
至于CATEGORICAL 变量，可以算距离的，不需要处理成DUMMY 变量。然后用最近铃算法
，取majority vote.

：在没有把categorical data 变成 dummy variable的时候，用WEKA 能够生成出具体的
：哪一个州。但是WEKA，R studio 产生的结果不同。weka只是double minority class
, 保持majority class. 但是R studio 能够产生基本45%，55%的两个classes. 不知道
哪个是对的。

m******r
发帖数: 1033

思路有些乱，说写具体的吧，比如你的数据集有地区这个变量，该变量有四个level,
分别是东南西北。你要建模型，甭管什么模型，能说说smote能把东南西北变成数字
吗??

,

【在 f*******6 的大作中提到】

: 在没有把categorical data 变成 dummy variable的时候，用WEKA 能够生成出具体的
: 哪一个州。但是WEKA，R studio 产生的结果不同。weka只是double minority class,
: 保持majority class. 但是R studio 能够产生基本45%，55%的两个classes. 不知道哪
: 个是对的。

m******r
发帖数: 1033

hi, 请问有现成的什么包什么函数干这个吗？谢谢。
民科，看不懂文章。
还是我上面那个具体例子，四个地区，东南西北中，请问如何转化成数字呢？就算按
你说的算距离，比如把东南应该结合在一起，西北应该结合在一起，那也没法变成数字
啊。当然这是你可以上dummy, 我觉得这只是个权宜之计。不是通用方法。

体的
class

【在 E**********e 的大作中提到】

: SMOTE 不复杂啊。你读原作者的文章，你可以CODE 出来的啊。当然原作者的终极版有
: 优化。
: 我同时用R 和 PYTHON code 了。但是最终实际效果在risk model 上表现不好。实际上
: 我也不看好这个方法。
: 至于CATEGORICAL 变量，可以算距离的，不需要处理成DUMMY 变量。然后用最近铃算法
: ，取majority vote.
:
: ：在没有把categorical data 变成 dummy variable的时候，用WEKA 能够生成出具体的
: ：哪一个州。但是WEKA，R studio 产生的结果不同。weka只是double minority class
: , 保持majority class. 但是R studio 能够产生基本45%，55%的两个classes. 不知道

f*******6
发帖数: 56

我有一个州的变量，总共10个不同的州。
我后面有个回复，没有变成DUMMY VARIABLE的时候，SMOTE是变成具体的州了，这个是
我后面又尝试的方法。
一开始的问题是：变成DUMMY VARIABLE后用SMOTE，州出来的不是0，1而是0-1之间的数
据。

level,

【在 m******r 的大作中提到】

: 思路有些乱，说写具体的吧，比如你的数据集有地区这个变量，该变量有四个level,
: 分别是东南西北。你要建模型，甭管什么模型，能说说smote能把东南西北变成数字
: 吗??
:
: ,

相关主题
● 有没有大牛来classifiy一下 PCA用法吗？	● [挖个坑]数据分析都有哪些开源工具呀？
● 请教大家一个做feature的问题	● 请推荐生物界认可的Clustering Analysis的免费软件
● 请教一道面试题	● 求职求内推
进入DataSciences版参与讨论

f*******6
发帖数: 56

“ 至于CATEGORICAL 变量，可以算距离的，不需要处理成DUMMY 变量。然后用最近铃
算法
categorical变量应该不允许单独领出来按照这种最近令算法来吧？整个dataset是有
continouous 和 categorical。
打算用logistic regression， SVM来train model. 想问一下：你在处理mix dataset
的时候，都不需要把categorical变量变成dummy variable吗？
体的
class

E**********e
发帖数: 1736

你要了解smote，你必须去看原作者的文章。原作者用 value distance metric 来算
noncontinuous variable的距离，然后跟continuouvariable 以起算距离。这个距离
是用来选出对应某个样品的最近的几个邻居，然后算出fake的那个样品，么就是每个
变量都有一个新的值，然后在用majority vote 来制定这个faked的样品是1还是0.
不需要非得把categorical variable 处理成 dummy varaible。比如50个州，你用49
个dummy variable？不麻烦。你可以group 一些。然后用log of odds order them
，如果可以的话。要是不能order ，但是还是要放进去，那这能dummy了。但是如
果不能order 新的group，那么这个variable 也就不重要，或者没有预测力。
里边谈到怎么算categorical 变量的距离，酵素

dataset

【在 f*******6 的大作中提到】

: “ 至于CATEGORICAL 变量，可以算距离的，不需要处理成DUMMY 变量。然后用最近铃
: 算法
: categorical变量应该不允许单独领出来按照这种最近令算法来吧？整个dataset是有
: continouous 和 categorical。
: 打算用logistic regression， SVM来train model. 想问一下：你在处理mix dataset
: 的时候，都不需要把categorical变量变成dummy variable吗？
: 体的
: class

f*******6
发帖数: 56

我又仔细看了那个文章，我眼拙，没有找到categorical 通过 VDM 计算出距离后再与
continuous一起来计算，能帮我找找吗？我想看看如何相加的。谢谢！

49
them

【在 E**********e 的大作中提到】

: 你要了解smote，你必须去看原作者的文章。原作者用 value distance metric 来算
: noncontinuous variable的距离，然后跟continuouvariable 以起算距离。这个距离
: 是用来选出对应某个样品的最近的几个邻居，然后算出fake的那个样品，么就是每个
: 变量都有一个新的值，然后在用majority vote 来制定这个faked的样品是1还是0.
: 不需要非得把categorical variable 处理成 dummy varaible。比如50个州，你用49
: 个dummy variable？不麻烦。你可以group 一些。然后用log of odds order them
: ，如果可以的话。要是不能order ，但是还是要放进去，那这能dummy了。但是如
: 果不能order 新的group，那么这个variable 也就不重要，或者没有预测力。
: 里边谈到怎么算categorical 变量的距离，酵素
:

E**********e
发帖数: 1736

pm你的信箱，我明天在公司里给你发几个paper。

【在 f*******6 的大作中提到】

: 我又仔细看了那个文章，我眼拙，没有找到categorical 通过 VDM 计算出距离后再与
: continuous一起来计算，能帮我找找吗？我想看看如何相加的。谢谢！
:
: 49
: them

E**********e
发帖数: 1736

他的文章没有谈到具体怎么用 VDM，他说的是改版的VDM。你可以搜索这个吗。有
一个ppt，里边有pseudo code。连续变量，就是欧拉距离，非连续变量，就是 VDM
。欧拉距离要scale一下，然后treat equally。
总的来说，你需要通读几篇相关的文章，自己写code。据我所知，没有现成的code
可以用。

【在 f*******6 的大作中提到】

f*******6
发帖数: 56

[email protected]/* */
谢谢！！

【在 E**********e 的大作中提到】

: pm你的信箱，我明天在公司里给你发几个paper。

f*******6
发帖数: 56

这次好像其他项目组的人用经纬度一类的可以数字化的东西来划分州。。

【在 m******r 的大作中提到】

(共1页)

进入DataSciences版参与讨论

相关主题
● 请问有关t-test（包子酬谢！） (转载)	● PCA 可以用在mixture of continuous 和categorical variables (转载)
● training dataset和unbalanced dataset的设计	● 有没有大牛来classifiy一下 PCA用法吗？
● 恭喜开版，发个刚看到的好玩的machine learning的图	● 请教大家一个做feature的问题
● [经验帖] 我是如何当上DS的	● 请教一道面试题
● 怎么处理categorical variable有很多个level的	● [挖个坑]数据分析都有哪些开源工具呀？
● Project :advertersiment click prediction	● 请推荐生物界认可的Clustering Analysis的免费软件
● data science 面试求教	● 求职求内推
● 我现在有一个15个variable的回归模型。有什么系统性的方法去	● weka有支持regression tree的random forest吗 (转载)

相关话题的讨论汇总
话题: smote话题: dummy话题: class话题: variable

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天