由买买提看人间百态

topics

全部话题 - 话题: unbalanced
首页 上页 1 2 3 4 5 6 7 8 9 (共9页)
f**********0
发帖数: 142
1
unbalanced response 是?
w******e
发帖数: 142
2
找任何一个好一点的大学的regression+data mining的课件好好学习一下就可以准备好
技术东西了。商业银行的无外乎就是各种regression(尤以logistic regression的东
西最重要)+classification(就是 tree啊那些的变种,SVM等).搞清楚了基本的原理
和实际应用(比如经常考的multi-collinearity,unbalanced response之类)应该技术
基础部分就差不多了。剩下的东西就看前人的面试贴来作为实战模拟。
金融的知识倒真心感觉考得不多,除非是去做投资和股票相关的。
f**********0
发帖数: 142
3
unbalanced response 是?
c***z
发帖数: 6348
4
来自主题: Statistics版 - conditional tree questions??
how did you process categorical data?
this data is highly unbalanced, I am not too surprised to see the result, if
the spliting criteria is Gini impurity
c***z
发帖数: 6348
5
来自主题: Statistics版 - 问个问题关于LOGSITC REGRESSION,急切
For logistic regression models unbalanced training data affects only the
estimate of the model intercept (although this of course skews all the
predicted probabilities, which in turn compromises your predictions).
Fortunately the intercept correction is straightforward: Provided you know,
or can guess, the true proportion of 0s and 1s and know the proportions in
the training set you can apply a rare events correction to the intercept.
Details are in King and Zheng (2001).
http://stats.stackexcha... 阅读全帖
I*****a
发帖数: 5425
6
我们在说同一个问题吗。。?
就prediction 而言,不管你是否subsample,正确的结果都应该是unbalanced 吧,因
为data 的population 本来就那样。难道你1:1 subsample 了training data,去
predict test data 就能 balanced 了?
一个class label dominates 另外一个,不是我想,而是data 就这样,而结果也应该
是这样。
我的问题是,用各种分类的方法去model 这种data,有没有什么问题?比如bias,
standard error, etc. 比如,本来应该是19:1 的,得到了49:1 甚至 50:0, 或者 4
:1。或者misclassification 很多,等等
d******e
发帖数: 7844
7
你要先弄明白什么情况下会得到unbalanced data和这类data的普遍问题。除非已知正
负样本的prior,否则unblanaced data的prediction目标大多是rare event detection。
比如信用卡欺诈检测,流水线异常的检测。本身存在的比例就极小,1%, 0.1%,甚至更
小。
这时笼统的minimize classification error变得没有意义,因为即使永远判定为不存
在欺诈,不存在异常,我仍然可以到到99%,99.9%甚至更高的正确率。
对数据做subsample或者weighted training。而是为了能保证rare event能被检测到。
换个说法就是rare event虽然小概率,但是cost极高,所以要在训练时增加rare event
的“比例”。

4
I*****a
发帖数: 5425
8
多谢,这个code 很有帮助。
我的simulation 条件用的是linear 关系 ,不知道是不是因为这样,所以两种方法最
后并没体现出差别。
你的simulation条件更好,Xbeta 那个 rep(1,n) 应该在最前面,不过结论不变。
不知道是不是直接unbalanced 的data 比较不robust
y**3
发帖数: 267
9
来自主题: Statistics版 - What if binary variable is very unbalanced
If dependent variable, may do subsampling
g******2
发帖数: 234
10
来自主题: Statistics版 - 求教一个模型/预测问题
what metric did you use to evaluate performance? AUC or Mismatch%?
Are your data highly unbalanced, i.e. most customer renewed? Did the renew
proportion change a lot in the recent 2 months?
d***e
发帖数: 193
11
好多统计相关的题目,看来咱们统计找data scientist的职位还是很有优势的,大家讨
论讨论?
【 以下文字转载自 JobHunting 讨论区 】
发信人: ISphoenix (beta3), 信区: JobHunting
标 题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist,machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist,machine learning engineer面试
题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什
么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
同学们。
题目写的简略,请大家见谅
======... 阅读全帖
t*****a
发帖数: 459
12
只有一个人的组,你为啥想和其他组做比较呢?这15个组其中有没有什么几个组可以归
结为一类的情况?
u*h
发帖数: 397
13
假设:
outcome value = overall_mean + group_variation + error_term
如果一个组只有一个人, 那么这个组的 group_variation and error_term
confounding.
不过, 还是可以检验 (group_variation + error_term)的和,是否有显著差异。
d****y
发帖数: 398
14

这15个组的得到 是通过两组 growth mixture modeling得到的 3*5 不太能合并 不
用two way anova是因为想要用person based 而不是 variable based的approach去看
问题
d****y
发帖数: 398
15

我能直接把人少于10的category不要了 分析剩下的组吗?谢谢 不是统计专业正统出
身的 没读过相关的paper
d****y
发帖数: 398
16
我能直接把人少于10的category不要了 分析剩下的组吗?谢谢
u*h
发帖数: 397
17
直接丢弃数据可能会有bias
我印象中, 直接做mixed model也可以。 显然你的数据中,有很多组里有不只一个人
, 应该可以分析了。
对了,你的各个组之间的差异,是fixed model,还是random model?
如果是random,就用mixed model.
如果是fixed, 那么一个人的组的数据就没法分析了。
PS, 谢谢你的包子。
h******3
发帖数: 190
18
不好意思 我发现gee是可以用在unbalanced cluster的。之前用geeglm碰到的error
message是因为covariate里有missing data。
w*****1
发帖数: 473
19
来自主题: Statistics版 - 请问有关t-test(包子酬谢!)
请问大家我需要比较两组数据:要先找到一个score 的cut-off (0.6-1), 比如说0.7,
然后把数据分成两组,一组score>0.7,一组小于0.7,然后对这两组的df_rho进行t-test
.现在不知道这个cutoff是多少,必须用for loop来search,step=0.1,来算出所有的p-
value相应于不同cutoff,然后看哪个p-value significant从而决定cutoff是多少,请
问这个问题用r-code 怎么写?大部分的score都是0.9以上,这样用0.8作为cut-off就
会出现一组有三万个sample,而另外一组却只有2千个sample,这样unbalanced数据
sample size相差这么远会有问题吗?总共有3万多行(每行一个sample).用sas也可以
,谢谢!
Score df_rho
0.999999984 0.439771127
0.999999399 0.419969991
0.99999998 0.417761585
0.999999052 0.33852... 阅读全帖
L****n
发帖数: 12932
20
来自主题: Medicalpractice版 - Lexian, 预测一下obama后四年股市走势
Everything has its value. The key is know the market value, and get in
below market value. Couple years ago when everyone scare of their job and
trying to dump their houses, i have been buying the deeply discounted
properties. those 小洋楼 you are talking about, yes, i have MANY. i bot when
no one is interested so i paid 50-60k each. and renting 1400-1500/month. I
have been telling people to do that in the Living board. They are now all
asking for 90-100k because more people buying. is still buy-a... 阅读全帖
i*********5
发帖数: 19210
21
在过去两年的自由泳学习过程中,我听到的建议都是头要低,收下巴,眼睛看正下方,
“swim downhill”,头低了,腿就浮起来了,减少阻力。
直到上周跟高阳游泳时,他给我指出我的头太低了,造成头一上(换气)一下,反而增
大了阻力。建议我头可以高一些,水面刚好高过眉毛就行了,这样游开水时也更容易换
气。我说那腿会不会沉得更厉害?他说等你打水练出来了下身自然就浮起来了。
于是我试了试把头抬高些,看pool的斜前方,好像的确游得更流畅些。
回来上网搜索相关资料,找到这篇Swim Smooth的文章是支持他的观点的。
Choosing The Right Head Position For You
http://www.feelforthewater.com/2012/04/choosing-right-head-posi
Many swimmers (and some coaches) believe that every swimmer should look
straight down at the bottom of the pool when they swim, so as to... 阅读全帖
o**********e
发帖数: 18403
22
来自主题: CivilSociety版 - 政治力量的第一是传媒
Good suggestion. When Al jeezera bought currentTV (from Al Gore), I didn't
pay attention. When Amazon CEO bought washington post, I didn't pay
attention. Now I'm seeing the way media operates in this incident and how
"fair and unbalanced" media is a fading myth or even a myth to start with.
In the long term, we need to recruit a core group of social network savvy
folks who could be our voice and be ready to assert the Chinese American
point of view, and to advocate our interests, and to nur... 阅读全帖
d***e
发帖数: 193
23
【 以下文字转载自 JobHunting 讨论区 】
发信人: ISphoenix (beta3), 信区: JobHunting
标 题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist,machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist,machine learning engineer面试
题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什
么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
同学们。
题目写的简略,请大家见谅
====================
1. Given a coin you don’t know it’s ... 阅读全帖
d***e
发帖数: 193
24
【 以下文字转载自 JobHunting 讨论区 】
发信人: ISphoenix (beta3), 信区: JobHunting
标 题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist,machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist,machine learning engineer面试
题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什
么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
同学们。
题目写的简略,请大家见谅
====================
1. Given a coin you don’t know it’s ... 阅读全帖
t********6
发帖数: 43
25
来自主题: DataSciences版 - 40道经典DS/ML面试题解答,求指导
我也搭车问40题中的一个rare event的题:
26.If I want to build a classifier, but the data is very unbalanced. I have
a few positive samples but a lot of negative samples. What should I do?
貌似这道题说的就是click through rate/credit fraudulent这种极小概率事件的
training方法。我的思路如下,求大牛指正:
1. Resampling 降噪,但resampling不会降低bias
2. 临床试验里的case control matching 缺点:慢,control subject的选择很
arbitrary
3. Empirical Bayes,prior是empirical_rate.这是目前想到的最靠铺的了,但是没用
过,不知道R和Python有什么好的package没,做过的说说?
t********6
发帖数: 43
26
来自主题: DataSciences版 - 40道经典DS/ML面试题解答,求指导
我也搭车问40题中的一个rare event的题:
26.If I want to build a classifier, but the data is very unbalanced. I have
a few positive samples but a lot of negative samples. What should I do?
貌似这道题说的就是click through rate/credit fraudulent这种极小概率事件的
training方法。我的思路如下,求大牛指正:
1. Resampling 降噪,但resampling不会降低bias
2. 临床试验里的case control matching 缺点:慢,control subject的选择很
arbitrary
3. Empirical Bayes,prior是empirical_rate.这是目前想到的最靠铺的了,但是没用
过,不知道R和Python有什么好的package没,做过的说说?
c***z
发帖数: 6348
27
【 以下文字转载自 JobHunting 讨论区 】
发信人: ISphoenix (beta3), 信区: JobHunting
标 题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist,machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist,machine learning engineer面试
题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什
么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
同学们。
题目写的简略,请大家见谅
====================
1. Given a coin you don’t know it’s ... 阅读全帖
n********e
发帖数: 1630
28
来自主题: DataSciences版 - 请问关于小的dataset evaluation的问题
我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification
(0 or 1),python,sklearn
由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV
training, 找到最优的estimator (scoring = f1)
之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时
候,应该用什么样的strategy?
1. 我用了整个dataset,只用一次,求prediction,然后比较得出accuracy,
precision,recall。这样score很高,高达0.9 以上
2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train,然
后test, 把accuracy,precision,recall 结果average。这样的话结果很低,只有0.
3-0.6
哪个可以作为evlauate的sc... 阅读全帖

发帖数: 1
29
SMOTE只能处理continuous data, 对于categorical data 要用SMOTE-NC,google了很
多就是没有找到相关可行的code。希望好心人能share 一下。
谢谢!!
E**********e
发帖数: 1736
30
这个我做过。你需要知道怎么计算category 变量的距离。好像有篇文章,就是原作者
的一篇介绍SMOTE文章谈到这个怎么处理categorical变量。
但是这个SMOTE对于实际问题也许效果不好。学校里做作也许能灌两篇文章。

:SMOTE只能处理continuous data, 对于categorical data 要用SMOTE-NC,google了很
:多就是没有找到相关可行的code。希望好心人能share 一下。
x***t
发帖数: 263
31
原paper里讲了一种实现:
Populate the synthetic sample: The continuous features of the new synthetic
minority
class sample are created using the same approach of SMOTE as described
earlier. The
nominal feature is given the value occurring in the majority of the k-
nearest neighbors
如果已经做了dummy variable,SMOTE之后出来0 到 1之间的值,那就应该把最大的变1
,其他全部归零。

variable,
m******r
发帖数: 1033
32
hi, 有答案了吗 ? 我以前碰到过一样的问题,一直没有合适的方法。具体说,就是美
国50个州,怎么把州变成数字,让机器算?
想不到smote这么牛b的算法,也束手无策 . 我以为这种问题早就解决了。

发帖数: 1
33
在没有把categorical data 变成 dummy variable的时候,用WEKA 能够生成出具体的
哪一个州。但是WEKA,R studio 产生的结果不同。weka只是double minority class,
保持majority class. 但是R studio 能够产生基本45%,55%的两个classes. 不知道哪
个是对的。
E**********e
发帖数: 1736
34
SMOTE 不复杂啊。你读原作者的文章,你可以CODE 出来的啊。当然原作者的终极版有
优化。
我同时用R 和 PYTHON code 了。但是最终实际效果在risk model 上表现不好。实际上
我也不看好这个方法。
至于CATEGORICAL 变量,可以算距离的,不需要处理成DUMMY 变量。然后用最近铃算法
,取majority vote.

:在没有把categorical data 变成 dummy variable的时候,用WEKA 能够生成出具体的
:哪一个州。但是WEKA,R studio 产生的结果不同。weka只是double minority class
, 保持majority class. 但是R studio 能够产生基本45%,55%的两个classes. 不知道
哪个是对的。
m******r
发帖数: 1033
35
思路有些乱, 说写具体的吧, 比如你的数据集有地区这个变量,该变量有四个level,
分别是东南西北。 你要建模型,甭管什么模型,能说说smote能把东南西北变成数字
吗??

,
m******r
发帖数: 1033
36
hi, 请问有现成的什么包 什么函数干这个吗? 谢谢。
民科,看不懂文章。
还是我上面那个具体例子,四个地区,东南西北中,请问如何转化成数字呢? 就算按
你说的算距离,比如把东南应该结合在一起,西北应该结合在一起,那也没法变成数字
啊。 当然这是你可以上dummy, 我觉得这只是个权宜之计。 不是通用方法。

体的
class

发帖数: 1
37
我有一个州的变量,总共10个不同的州。
我后面有个回复,没有变成DUMMY VARIABLE的时候,SMOTE是变成具体的州了,这个是
我后面又尝试的方法。
一开始的问题是:变成DUMMY VARIABLE后用SMOTE,州出来的不是0,1而是0-1之间的数
据。

level,

发帖数: 1
38
“ 至于CATEGORICAL 变量,可以算距离的,不需要处理成DUMMY 变量。然后用最近铃
算法
categorical变量应该不允许单独领出来按照这种最近令算法来吧?整个dataset是有
continouous 和 categorical。
打算用logistic regression, SVM来train model. 想问一下:你在处理mix dataset
的时候,都不需要把categorical变量变成dummy variable吗?
体的
class
E**********e
发帖数: 1736
39
你要了解smote,你必须去看原作者的文章。 原作者用 value distance metric 来算
noncontinuous variable的距离, 然后跟continuouvariable 以起算距离。 这个距离
是用来选出对应某个样品的最近的几个邻居, 然后算出fake的那个样品,么就是每个
变量都有一个新的值, 然后在用majority vote 来制定这个faked的样品是1还是0.
不需要非得把categorical variable 处理成 dummy varaible。 比如50个州, 你用49
个dummy variable? 不麻烦。 你可以group 一些。 然后用log of odds order them
, 如果可以的话。 要是不能order ,但是还是要放进去, 那这能dummy了。 但是如
果不能order 新的group, 那么这个variable 也就不重要, 或者没有预测力。
里边谈到怎么算categorical 变量的距离, 酵素

dataset

发帖数: 1
40
我又仔细看了那个文章,我眼拙,没有找到categorical 通过 VDM 计算出距离后再与
continuous一起来计算,能帮我找找吗?我想看看如何相加的。谢谢!

49
them
E**********e
发帖数: 1736
41
pm你的信箱, 我明天在公司里给你发几个paper。
E**********e
发帖数: 1736
42
他的文章没有谈到具体怎么用 VDM, 他说的是 改版的VDM。 你可以搜索这个吗。 有
一个ppt, 里边有pseudo code。 连续变量,就是欧拉距离, 非连续变量,就是 VDM
。 欧拉距离要scale一下, 然后treat equally。
总的来说,你需要通读几篇相关的文章, 自己写code。 据我所知, 没有现成的code
可以用。

发帖数: 1
43
[email protected]/* */
谢谢!!

发帖数: 1
44
这次好像其他项目组的人用经纬度一类的可以数字化的东西来划分州。。
w*****1
发帖数: 473
45
来自主题: DataSciences版 - 请问有关t-test(包子酬谢!) (转载)
【 以下文字转载自 Statistics 讨论区 】
发信人: wz99331 (dotti), 信区: Statistics
标 题: 请问有关t-test(包子酬谢!)
发信站: BBS 未名空间站 (Tue Nov 7 00:09:22 2017, 美东)
请问大家我需要比较两组数据:要先找到一个score 的cut-off (0.6-1), 比如说0.7,
然后把数据分成两组,一组score>0.7,一组小于0.7,然后对这两组的df_rho进行t-test
.现在不知道这个cutoff是多少,必须用for loop来search,step=0.1,来算出所有的p-
value相应于不同cutoff,然后看哪个p-value significant从而决定cutoff是多少,请
问这个问题用r-code 怎么写?大部分的score都是0.9以上,这样用0.8作为cut-off就
会出现一组有三万个sample,而另外一组却只有2千个sample,这样unbalanced数据
sample size相差这么远会有问题吗?总共有3万多行(每行一个sample).用sas也可以
... 阅读全帖
C******g
发帖数: 2930
46
The online world of Uncharted 2 is getting one of its biggest updates ever
this week. Title Update 1.07 went live yesterday, fixing a few glitches and
exploits, while addressing unbalanced spawn points. Later today, the Siege
Expansion Pack will be available for purchase, adding "two new maps, six new
multiplayer skins, one new co-op game type and 11 new online-only Trophies.
" You'll be able to buy it on the PlayStation Store for $5.99.
Naughty Dog isn't quite done with the multiplayer festivit
e**n
发帖数: 1326
47
agreed...i think lease car & demo car are all better than loaner car.
Almost all the loaner cars I got have bent/out of round rims, unbalanced
tire, brake vibration, loose/dirty interior.... and i drove them pretty hard
too. :P
w*******y
发帖数: 60932
48
Link:
http://www.musiciansfriend.com/stupid/?CJAID=10684459&CJPID=532
quote
# Frequency response: 56Hz-22kHz
# Crossover frequency: 3kHz
# Low-frequency amplifier power: 40 watts
# High-frequency amplifier power: 30 watts
# Signal-to-noise: >100dB (typical A-weighted)
# Polarity: positive signal at + input produces outward LF cone displacement
# Input impedance: 20k Ohms balanced, 10k ohms unbalanced
# Input sensitivity: 85 mV pink noise input produces 90dBA output SPL at one
meter with volume c... 阅读全帖
w*******y
发帖数: 60932
49
Crown XL 5000 rackmount stereo amplifier for $534 shipped!
This is a barn burner price. I see this amp most places for $1k. Crown is
a well recognized and high quality manufactorer. 3 year full warranty.
This amp actually sells on ebay used for more than this new price in in all
of the most recent sales. I don't know that's it's worth flipping because
it weighs 73 pounds and by the time you pay shipping and fees you wouldn't
turn a profit - but it's nice to know you can buy something new for... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 (共9页)