由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 问一下关于split test设计的问题
相关主题
问一个subscription based 信用卡 recurring billing 的optimi请教有关用R做t-test (转载)
how to split samples/data for A/B test求推荐实用一点的讲hypothesis testing的书 (转载)
技术电面感受&请教predict的时候对于test data,要不要standardized?
有系统一点的A/B testing方法的教程吗?关于Capital One的online test (转载)
请问谁有关于AB test的一些教程。。。Cleveland Clinic Job Opening - Data Scientist II
A/B testing用generic algorithm优化可行吗?请问大家有关mixed model (转载)
A/B testing 和 design of experiments应该属于什么学科里的请问有关t-test(包子酬谢!) (转载)
SQL PASS Chinese Community Plan for 2015看看Con Edison如何上门追讨餐馆欠费
相关话题的讨论汇总
话题: 欠费话题: 贷款话题: 电话话题: 时间话题: 发信
进入DataSciences版参与讨论
1 (共1页)
p****e
发帖数: 607
1
可能更接近Marketing方面的,无奈找不到合适的版面,发在这里,请教各位大牛们吧。
我们公司的communication stragety有时候会做一些split test,有的比较简单,就是
email template A VS B那种,
有的复杂一些,比如我们给贷款欠费的人打电话,欠费30天的只发mail,90天的打
一个电话,发一封信,120天的打三个电话,发一封信,需要用split test来测试,
比如测试欠费90天的人,发不发那封信其实差别是一样的,到欠费120天,是否发
mail有区别,之类的,当然实际情况更复杂一些。我想找一些关于设计这样的test的
training,或者书,coursea上我也搜了,可能关键词用的不对,也找不到,麻烦各位
大牛们给推荐下把,多谢!
g*****o
发帖数: 812
2
最好的办法不是控制变量分组实验么..
比如一部分90天的发信, 一部分不发.
这挺像临床统计统计的, 你试试找下这方面的东西

吧。

【在 p****e 的大作中提到】
: 可能更接近Marketing方面的,无奈找不到合适的版面,发在这里,请教各位大牛们吧。
: 我们公司的communication stragety有时候会做一些split test,有的比较简单,就是
: email template A VS B那种,
: 有的复杂一些,比如我们给贷款欠费的人打电话,欠费30天的只发mail,90天的打
: 一个电话,发一封信,120天的打三个电话,发一封信,需要用split test来测试,
: 比如测试欠费90天的人,发不发那封信其实差别是一样的,到欠费120天,是否发
: mail有区别,之类的,当然实际情况更复杂一些。我想找一些关于设计这样的test的
: training,或者书,coursea上我也搜了,可能关键词用的不对,也找不到,麻烦各位
: 大牛们给推荐下把,多谢!

p****e
发帖数: 607
3
实际情况更复杂一些,比如欠费时间是连续的,我们人为把它划了几个区间,比如1-
30天,30-60天,60-90天,等等,。而我们的测试往往是过几个月之后,
看不同的communication对他们回到还款状态有没有影响。
比如一个人欠费95天的时候被选入communication,进入的是发print组,我们的政策
是只要处于欠费状态,每30天会被选入communication一次,那这个人第二次被选中
的时候是125天欠费,应该仍然放在发print组吗?四个月之后,这个人回到还款状
态了,我怎么判断是哪次的print产生的效果呢?
还有那个临床测试,我对这方面不很了解,能不能多给我一些细节?谢谢

【在 g*****o 的大作中提到】
: 最好的办法不是控制变量分组实验么..
: 比如一部分90天的发信, 一部分不发.
: 这挺像临床统计统计的, 你试试找下这方面的东西
:
: 吧。

g*****o
发帖数: 812
4
当然是按最近一次communication算, 不然这事就根本没法统计了.
但是, 最重要的应该是你们应该在每一次进行communication的时候, 把一部分应该
communication的客户抽出来不进行communication. 这样才能对比啊.
临床实验最重要的就是要合理分组进行对照实验, 分组要合理, 才能在统计学上保证总
体期望没有差异. 你要想通过平时的数据就确切知道每个客户是因为哪次催款而还款的
, 还不如直接采访客户= =

【在 p****e 的大作中提到】
: 实际情况更复杂一些,比如欠费时间是连续的,我们人为把它划了几个区间,比如1-
: 30天,30-60天,60-90天,等等,。而我们的测试往往是过几个月之后,
: 看不同的communication对他们回到还款状态有没有影响。
: 比如一个人欠费95天的时候被选入communication,进入的是发print组,我们的政策
: 是只要处于欠费状态,每30天会被选入communication一次,那这个人第二次被选中
: 的时候是125天欠费,应该仍然放在发print组吗?四个月之后,这个人回到还款状
: 态了,我怎么判断是哪次的print产生的效果呢?
: 还有那个临床测试,我对这方面不很了解,能不能多给我一些细节?谢谢

W**********E
发帖数: 242
5
很有意思哈,你到ds版多发发这类问题
首先做testing,你需要定义要解决的问题,例如
1)是否打电话是个影响客户回归贷款因素?可以是打不打电话(yes,no),可以是不打
电话,打一个电话,打两个电话(0,1,2)等等
2)是否发信是个影响客户回归贷款因素?可以是发信不发信(yes,no),可以是不发信
,发一封信,发两封信(0,1,2) 等等
3)欠费时间长短。 (0-30,30-60,60-90,90-120)等等
下一步你需要做的是设计实验方案+randomization,从你描述的来看,你们没做实验设
计和randomization,所以只是观察现有的政策,要想分析个各因素的影响基本上一团乱
麻,可能有些time varying causal inference methods能用上但难度不少。
我可以提个方案,可能不符合你的实际情况哈,只当抛针引玉。假定我们想研究上面3
个因素对回归贷款的影响:
1) 打电话 (yes, no)
2) 发信 (yes, no)
3) 时间(0-30,30-60,大于60天)。
每个人贷款违约时间不是一个可控制可随机分配的因素,我们可以在3个违约时间段随
机选n个人,然后随机把这n个人分配到2×2=4个组里(电话(yes,no),发信(yes,no)),n
最好是4的倍数。也就是把时间当成一个blocking factor. 设定研究截至时间(如30天
内),结果变量可以是在某通信方式30天内有无作用。
或者人开始违约0天起,随机分入上述4组,然后第一天或第一周内开始接受处理(单打
电话,通信,电话+通信,什么都不做(control)),然后观察结果。记录回归贷款时间
,设定研究截止时间。 研究通信方式对归还贷款的时间的影响
还可以这么做,没动静的话,每30天重复一次处理,就是time varying treatment,记
录重回贷款时间。
我觉得要很清楚解决什么问题,回答什么问题,合理定义treatment,然后设计方案。

【在 p****e 的大作中提到】
: 实际情况更复杂一些,比如欠费时间是连续的,我们人为把它划了几个区间,比如1-
: 30天,30-60天,60-90天,等等,。而我们的测试往往是过几个月之后,
: 看不同的communication对他们回到还款状态有没有影响。
: 比如一个人欠费95天的时候被选入communication,进入的是发print组,我们的政策
: 是只要处于欠费状态,每30天会被选入communication一次,那这个人第二次被选中
: 的时候是125天欠费,应该仍然放在发print组吗?四个月之后,这个人回到还款状
: 态了,我怎么判断是哪次的print产生的效果呢?
: 还有那个临床测试,我对这方面不很了解,能不能多给我一些细节?谢谢

W**********E
发帖数: 242
6
很有意思哈,你到ds版多发发这类问题
首先做testing,你需要定义要解决的问题,例如
1)是否打电话是个影响客户回归贷款因素?可以是打不打电话(yes,no),可以是不打
电话,打一个电话,打两个电话(0,1,2)等等
2)是否发信是个影响客户回归贷款因素?可以是发信不发信(yes,no),可以是不发信
,发一封信,发两封信(0,1,2) 等等
3)欠费时间长短。 (0-30,30-60,60-90,90-120)等等
下一步你需要做的是设计实验方案+randomization,从你描述的来看,你们没做实验设
计和randomization,所以只是观察现有的政策,要想分析个各因素的影响基本上一团乱
麻,可能有些time varying causal inference methods能用上但难度不少。
我可以提个方案,可能不符合你的实际情况哈,只当抛针引玉。假定我们想研究上面3
个因素对回归贷款的影响:
1) 打电话 (yes, no)
2) 发信 (yes, no)
3) 时间(0-30,30-60,大于60天)。
每个人贷款违约时间不是一个可控制可随机分配的因素,我们可以在3个违约时间段随
机选n个人,然后随机把这n个人分配到2×2=4个组里(电话(yes,no),发信(yes,no)),n
最好是4的倍数。也就是把时间当成一个blocking factor. 设定研究截至时间(如30天
内),结果变量可以是在某通信方式30天内有无作用(归还贷款与否)。
或者人开始违约0天起,随机分入上述4组,然后第一天或第一周内开始接受处理(单打
电话,通信,电话+通信,什么都不做(control)),然后观察结果。记录回归贷款时间
,设定研究截止时间(如30天,2个月,3个月等等)。 研究通信方式对归还贷款的时间
的影响
还可以这么做,没动静的话,每30天重复一次处理,就是time varying treatment,记
录重回贷款时间。
我觉得要很清楚回答什么问题,合理定义treatment,然后设计方案。

【在 p****e 的大作中提到】
: 实际情况更复杂一些,比如欠费时间是连续的,我们人为把它划了几个区间,比如1-
: 30天,30-60天,60-90天,等等,。而我们的测试往往是过几个月之后,
: 看不同的communication对他们回到还款状态有没有影响。
: 比如一个人欠费95天的时候被选入communication,进入的是发print组,我们的政策
: 是只要处于欠费状态,每30天会被选入communication一次,那这个人第二次被选中
: 的时候是125天欠费,应该仍然放在发print组吗?四个月之后,这个人回到还款状
: 态了,我怎么判断是哪次的print产生的效果呢?
: 还有那个临床测试,我对这方面不很了解,能不能多给我一些细节?谢谢

1 (共1页)
进入DataSciences版参与讨论
相关主题
看看Con Edison如何上门追讨餐馆欠费请问谁有关于AB test的一些教程。。。
无意中信用卡欠账欠了六个月,求帮助A/B testing用generic algorithm优化可行吗?
求助:欠债:保险——医院——收账公司,该怎么处理?A/B testing 和 design of experiments应该属于什么学科里的
同一单分三次刷卡 只收到一封信SQL PASS Chinese Community Plan for 2015
问一个subscription based 信用卡 recurring billing 的optimi请教有关用R做t-test (转载)
how to split samples/data for A/B test求推荐实用一点的讲hypothesis testing的书 (转载)
技术电面感受&请教predict的时候对于test data,要不要standardized?
有系统一点的A/B testing方法的教程吗?关于Capital One的online test (转载)
相关话题的讨论汇总
话题: 欠费话题: 贷款话题: 电话话题: 时间话题: 发信