由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 问一个有关marketing的统计问题
相关主题
请教一下SAS里面的paired t-test表格怎么读[新手求救]怎样输出logistic regression的结果?
请大家帮帮忙,有三个百分数和五个百分数,怎么比较他们的不同?[合集] 医疗保险公司的STATISTICIAN职位,电面有可能问什么呢?
问一个貌似不能再简单的实验设计问题谁能用通俗易懂的话解释下CHAID
rw一个关于保存simple logistic分析结果的问题WHAT IS CART?
问个logistic regression的问题。Questions about CHAID (Chi-square automatic interaction detector)
I have a question about logistic regression modelDecision Tree in Python or C++
大包子,求教一道sas的p value.....着急啊 。。。。。。。Job Opening: Sr/Jr Statistical Analyst in Dallas area
Help: SAS proc mixed to get between/within subgroup variance请教...
相关话题的讨论汇总
话题: catelog话题: catalog话题: 用户话题: logistic话题: 增长
进入Statistics版参与讨论
1 (共1页)
j*******2
发帖数: 309
1
有10万用户,随机分成两组,每组5万人。在半年内,给第一组的用户每月发送某品牌
的catalog,第
二组不发送。半年之后,第一组用户的用户增长是5%,第二组是4.5%。用户增长的意思
是用户原来不购
买该品牌,半年之后有购买。
问题是,我们如何识别通过寄送catalog而增长的用户?因为在第二组中即使不寄送,
也有4.5%的用户
增长。
面试中被问到的,自己答得不好。想听听大家的意见。
b*****o
发帖数: 482
2
建一个logistic regression, response variable是是否买产品(yes vs no).
predictor variable是用户属性(age, income, sex等等); 是否寄送catalog(yes vs
no)也是predictor variable之一. 你要挑出什么样的人会受"是否寄送catalog"的影响
, 就要看interaction terms, 如catelog*age, catelog*income, catelog*sex这些是不
是significant的. 如果是, 那么就可以挑出受catelog影响的用户群.
如果没有一个interaction是significant的, 但是catelog本身是significant的, 那就说明
受影响的不是一个特定用户群, 你就只有继续发catelog给所有人才能带来额外0.5%的增长. 如果
catelog本身都不significant, 那么0.5%的增长只是随机噪音, 以后就不用再发了.
d*******o
发帖数: 493
3
I agree with 2nd floor. Logistical regression is very popular in direct
marketing.
However, your question is identify '通过寄送catalog而增长的用户', not
whether this direct marketing method is effective or not. Now your target
variable has four levels: solicit and response; solicit and no-response;
ignore and response; ignore and no-response. Each has its expected profit(
revenue - campaign cost), negative or positive. Decision tree, such as CHAID
, may be a good choice to build rules.
Once you train and
j*******2
发帖数: 309
4
非常感谢,这是很好的方法。还有个小问题,建立logistic regression model是基于
所有的10万
顾客吗?
有些顾客是不管寄不寄catalog都会购买的(可以把这种用户叫11顾客,同时我们还有
01顾客(之前不
购买之后有购买)00,10四种顾客)。如果response variable是之后是否买产品(yes
or no)
的话,似乎没有区分11和01这两种顾客?
我想,也许可以基于这5万*5%+5万*4.5%=4725个顾客之前之后的response建模,相当于
9450个
observation。你觉得这样可以吗?


就说

的增长. 如果

【在 b*****o 的大作中提到】
: 建一个logistic regression, response variable是是否买产品(yes vs no).
: predictor variable是用户属性(age, income, sex等等); 是否寄送catalog(yes vs
: no)也是predictor variable之一. 你要挑出什么样的人会受"是否寄送catalog"的影响
: , 就要看interaction terms, 如catelog*age, catelog*income, catelog*sex这些是不
: 是significant的. 如果是, 那么就可以挑出受catelog影响的用户群.
: 如果没有一个interaction是significant的, 但是catelog本身是significant的, 那就说明
: 受影响的不是一个特定用户群, 你就只有继续发catelog给所有人才能带来额外0.5%的增长. 如果
: catelog本身都不significant, 那么0.5%的增长只是随机噪音, 以后就不用再发了.

b*****o
发帖数: 482
5
对10万建也可以得出你说的4个分组.
建好模以后, 你先让catelog=0 for everyone. 然后带到模型里面去,可以得到所有人
在没发广告之前的购买意愿(predicted). 一部分人买(1),一部分人不买(0).当然你需要设一个
买的threshold: 当P大于多少的时候就算要买, 否则算不买.
然后再让catelog=1 for everyone.再run一遍. 得到所有人在发广告之后的购买意愿.
同样一部分人买(1),一部分人不买(0).
那么2次的结果就是你把人分成了四组11, 10, 01, 00.
不过这个是根据模型得出的predicted的分组. 很有可能有些A组的人根本就没买结果在01组
里面, 这个是e.
你如果想看A组里面买了的那5%的人有哪些是不发广告就不买的, 那就是这5000人里面在
catelog=0的时候run model得到的predicted购买意愿是0的那些人.

yes

【在 j*******2 的大作中提到】
: 非常感谢,这是很好的方法。还有个小问题,建立logistic regression model是基于
: 所有的10万
: 顾客吗?
: 有些顾客是不管寄不寄catalog都会购买的(可以把这种用户叫11顾客,同时我们还有
: 01顾客(之前不
: 购买之后有购买)00,10四种顾客)。如果response variable是之后是否买产品(yes
: or no)
: 的话,似乎没有区分11和01这两种顾客?
: 我想,也许可以基于这5万*5%+5万*4.5%=4725个顾客之前之后的response建模,相当于
: 9450个

j*******2
发帖数: 309
6
我有点糊涂了。刚开始logistic模型应该建立在怎么样的contigency table上呢?

需要设一个
.
在01组
面在

【在 b*****o 的大作中提到】
: 对10万建也可以得出你说的4个分组.
: 建好模以后, 你先让catelog=0 for everyone. 然后带到模型里面去,可以得到所有人
: 在没发广告之前的购买意愿(predicted). 一部分人买(1),一部分人不买(0).当然你需要设一个
: 买的threshold: 当P大于多少的时候就算要买, 否则算不买.
: 然后再让catelog=1 for everyone.再run一遍. 得到所有人在发广告之后的购买意愿.
: 同样一部分人买(1),一部分人不买(0).
: 那么2次的结果就是你把人分成了四组11, 10, 01, 00.
: 不过这个是根据模型得出的predicted的分组. 很有可能有些A组的人根本就没买结果在01组
: 里面, 这个是e.
: 你如果想看A组里面买了的那5%的人有哪些是不发广告就不买的, 那就是这5000人里面在

b*****o
发帖数: 482
7
和contigency table没关系啊
你建立的还是普通的logistic regression, 比如最简单的一个模型:
ln(p/1-p)=beta0+beta1*catalog+beta2*age
p就是购买意向(几率). 你可以设一个theshold, 比如p>0.5就是最后要买的.
在这个model下面, 购买意向只决定于一个人的年龄和广告yesno.
你要看A组里面一个买了货的人她在没发广告的时候的购买意愿, 那么就是这个人在
catelog=0的时候predicted的p值. 如果得到的p>0.5那么就是她在没发广告的时候也会买, 也就
是说他是11, 如果p<0.5就是他没发广告就不买, 也就是说他是01.
你对所有人都看catalog=0的时候的p值和catalog=1的时候的p值, 就可以把所有人分成4组了.
最后分完组以后contigency table就出来了.

【在 j*******2 的大作中提到】
: 我有点糊涂了。刚开始logistic模型应该建立在怎么样的contigency table上呢?
:
: 需要设一个
: .
: 在01组
: 面在

j*******2
发帖数: 309
8
谢谢你的回答!

会买, 也

成4组了.

【在 b*****o 的大作中提到】
: 和contigency table没关系啊
: 你建立的还是普通的logistic regression, 比如最简单的一个模型:
: ln(p/1-p)=beta0+beta1*catalog+beta2*age
: p就是购买意向(几率). 你可以设一个theshold, 比如p>0.5就是最后要买的.
: 在这个model下面, 购买意向只决定于一个人的年龄和广告yesno.
: 你要看A组里面一个买了货的人她在没发广告的时候的购买意愿, 那么就是这个人在
: catelog=0的时候predicted的p值. 如果得到的p>0.5那么就是她在没发广告的时候也会买, 也就
: 是说他是11, 如果p<0.5就是他没发广告就不买, 也就是说他是01.
: 你对所有人都看catalog=0的时候的p值和catalog=1的时候的p值, 就可以把所有人分成4组了.
: 最后分完组以后contigency table就出来了.

f***a
发帖数: 329
9
I think it is a typical question about "Pearson's_chi-square_test" to test
independence.
Details can be found at any "categorical data analysis" book or
http://en.wikipedia.org/wiki/Pearson's_chi-square_test
BTW, betatwo's idea about using logistic model is more applicable and
useful for real cases though.
b*******r
发帖数: 152
10
the fact that two groups with Large sample size are RANDOMLY drawn already
actually warrants a quick-but-decent estimate on the independent-or-not
check by the X^2 test.
相关主题
I have a question about logistic regression model[新手求救]怎样输出logistic regression的结果?
大包子,求教一道sas的p value.....着急啊 。。。。。。。[合集] 医疗保险公司的STATISTICIAN职位,电面有可能问什么呢?
Help: SAS proc mixed to get between/within subgroup variance谁能用通俗易懂的话解释下CHAID
进入Statistics版参与讨论
p***r
发帖数: 920
11
just curious, what if age*catelog and income*catelog are both significant,
what could we explain on that ?

是不
就说明
的增长. 如果

【在 b*****o 的大作中提到】
: 建一个logistic regression, response variable是是否买产品(yes vs no).
: predictor variable是用户属性(age, income, sex等等); 是否寄送catalog(yes vs
: no)也是predictor variable之一. 你要挑出什么样的人会受"是否寄送catalog"的影响
: , 就要看interaction terms, 如catelog*age, catelog*income, catelog*sex这些是不
: 是significant的. 如果是, 那么就可以挑出受catelog影响的用户群.
: 如果没有一个interaction是significant的, 但是catelog本身是significant的, 那就说明
: 受影响的不是一个特定用户群, 你就只有继续发catelog给所有人才能带来额外0.5%的增长. 如果
: catelog本身都不significant, 那么0.5%的增长只是随机噪音, 以后就不用再发了.

d******u
发帖数: 412
12
agree

already

【在 b*******r 的大作中提到】
: the fact that two groups with Large sample size are RANDOMLY drawn already
: actually warrants a quick-but-decent estimate on the independent-or-not
: check by the X^2 test.

g**********l
发帖数: 214
13
请教, 如果 chisq test said it is not independent, that "kinda" proves
catalog has an effect. 但是要这个结论的话,直接 用 t-test 去比较两个
conversion rate 不是更快吗?
我不太明白这个 contingency table 做 chisq test 有什么有处。
谢谢
b*****o
发帖数: 482
14
categorical数据不是normal分布的啊

【在 g**********l 的大作中提到】
: 请教, 如果 chisq test said it is not independent, that "kinda" proves
: catalog has an effect. 但是要这个结论的话,直接 用 t-test 去比较两个
: conversion rate 不是更快吗?
: 我不太明白这个 contingency table 做 chisq test 有什么有处。
: 谢谢

d******3
发帖数: 93
15
二楼还比较靠谱,后面都跑题了,主要是没有回答“哪些人”通过寄送catalog而增长
的用户
D******n
发帖数: 2836
16
嗯,我也觉。

【在 d******3 的大作中提到】
: 二楼还比较靠谱,后面都跑题了,主要是没有回答“哪些人”通过寄送catalog而增长
: 的用户

s*r
发帖数: 2757
17
need see the data to decide

【在 p***r 的大作中提到】
: just curious, what if age*catelog and income*catelog are both significant,
: what could we explain on that ?
:
: 是不
: 就说明
: 的增长. 如果

s********p
发帖数: 637
18
这个问题比较简单,我试着回答下,也可能自己想简单了
这是个数据处理方面的问题,跟预测模型没有关系,是从现有的数据中挑出增长的用户
,而非预测那些用户会通过寄送catelog而增长
就问题本身而言,有点疑问:
问我们如何识别通过寄送catalog而增长的用户?用户增长的意思是用户原来不购买该
品牌,半年之后有购买。
这个在business上很不make sense,因为我们寄送catalog用户一般会短期做出反应,买
还是不买,比方你收到macys的catelog广告,你看了后一般会短期
,几天,或几周决定买,很难的有半年后才买的情况,所以我猜想应该是只是半年内购
买。
不过就问题来讲也没关系,就半年后买吧,
这个和第二组没有关系,因为是问寄送catalog而增长的用户,第二组没有寄送
在第一组,每个月一个dataset,有一个indicator,buy_ind, stand for 当前月有没有
该品牌的产品,这可以通过购买信息trace 到
假定连发3个月catelog,月份M1-M3,每个月有一个dataset,定义为D1-D3
半年后,对应于M7-M10,dataset为D7-D
s*r
发帖数: 2757
19
another thought is to separate feature select from prediction.
the interaction tests are only used to select important features
and then, based on the selection, you run knn or svm or cart

【在 s*r 的大作中提到】
: need see the data to decide
d*******o
发帖数: 493
20
(1)Logistic regression: I bet the dataset is heterogeneous(categorical +
numerous) and many values are missing. Have to do a lot of variable
aggregation, transformation and imputation. Amazingly still many ppl in
direct marketing are using it. Simply don't know why.
(2)Decision tree: CART/CHAID/C5.0/boosting and bagging
(3)SVM: way too slow. To run 50k+50K would kill most machines.
(4)Neural network: hard to explain.
Conclusion: the final predicative model would be an assemble of multiple
decis
相关主题
WHAT IS CART?Job Opening: Sr/Jr Statistical Analyst in Dallas area
Questions about CHAID (Chi-square automatic interaction detector)请教...
Decision Tree in Python or C++Statistical Analyst - Beijing
进入Statistics版参与讨论
D******n
发帖数: 2836
21
哇哇,这不会又被写进wiki了吧。
g**********l
发帖数: 214
22
logistic reg has its place because it is easy to explain and very
stable. it is especially critical if it is related to regulation for
example (barsel ii).
ensemble methods are somewhat as difficult to explain as Neural Net.
you need to have something discrete to, for example, explain why
reject a credit app.

heterogeneous(categorical +
in
multiple

【在 d*******o 的大作中提到】
: (1)Logistic regression: I bet the dataset is heterogeneous(categorical +
: numerous) and many values are missing. Have to do a lot of variable
: aggregation, transformation and imputation. Amazingly still many ppl in
: direct marketing are using it. Simply don't know why.
: (2)Decision tree: CART/CHAID/C5.0/boosting and bagging
: (3)SVM: way too slow. To run 50k+50K would kill most machines.
: (4)Neural network: hard to explain.
: Conclusion: the final predicative model would be an assemble of multiple
: decis

h***i
发帖数: 634
23
mark 一下
s**********l
发帖数: 395
24
受益匪浅。
l**********9
发帖数: 148
25

I like this logistic regression, as well as I like you avatar =w=

【在 d*******o 的大作中提到】
: (1)Logistic regression: I bet the dataset is heterogeneous(categorical +
: numerous) and many values are missing. Have to do a lot of variable
: aggregation, transformation and imputation. Amazingly still many ppl in
: direct marketing are using it. Simply don't know why.
: (2)Decision tree: CART/CHAID/C5.0/boosting and bagging
: (3)SVM: way too slow. To run 50k+50K would kill most machines.
: (4)Neural network: hard to explain.
: Conclusion: the final predicative model would be an assemble of multiple
: decis

1 (共1页)
进入Statistics版参与讨论
相关主题
请教...问个logistic regression的问题。
Statistical Analyst - BeijingI have a question about logistic regression model
弱问个categorical variable有关的问题大包子,求教一道sas的p value.....着急啊 。。。。。。。
还是个MODEL问题Help: SAS proc mixed to get between/within subgroup variance
请教一下SAS里面的paired t-test表格怎么读[新手求救]怎样输出logistic regression的结果?
请大家帮帮忙,有三个百分数和五个百分数,怎么比较他们的不同?[合集] 医疗保险公司的STATISTICIAN职位,电面有可能问什么呢?
问一个貌似不能再简单的实验设计问题谁能用通俗易懂的话解释下CHAID
rw一个关于保存simple logistic分析结果的问题WHAT IS CART?
相关话题的讨论汇总
话题: catelog话题: catalog话题: 用户话题: logistic话题: 增长