s*y 发帖数: 37 | 1 用regression建model的时候, 如果没有dependant variable的数据,如何着手?
举个例, 最开始的credit score是如何建立的? 就是现在你有一堆用户的income,
education, working experience, payment delay等等信息,没有任何历史数据来暗
示什么样的顾客有什么样的风险, 让你从无到有的去建立一个模型来估算信用风险,
该是什么一个步骤?
最核心的问题, 用这个model算出来的score, 如何去设置threshold来划分顾客的风
险等级? 是凭相关专业人士的经验来划分, 还是有严格统计意义上的方法, 比如5th
percentile以上为优良等等?
希望有经验的朋友解答一下, 谢谢。 |
l***a 发帖数: 12410 | 2 if you want your you need to set a target first. if you just want to segment
, you can do cluster analysis
,
5th
【在 s*y 的大作中提到】 : 用regression建model的时候, 如果没有dependant variable的数据,如何着手? : 举个例, 最开始的credit score是如何建立的? 就是现在你有一堆用户的income, : education, working experience, payment delay等等信息,没有任何历史数据来暗 : 示什么样的顾客有什么样的风险, 让你从无到有的去建立一个模型来估算信用风险, : 该是什么一个步骤? : 最核心的问题, 用这个model算出来的score, 如何去设置threshold来划分顾客的风 : 险等级? 是凭相关专业人士的经验来划分, 还是有严格统计意义上的方法, 比如5th : percentile以上为优良等等? : 希望有经验的朋友解答一下, 谢谢。
|
s*y 发帖数: 37 | 3 target 就是从一堆信息中算出一个credit score啊, 在没有历史数据的情况下, 如
何保证你的score有意义。
cluster analysis我一直觉得不靠谱, 每一个variable的weight稍微变化一下, 得出
的cluster完全不同,决定性的步骤还是在prepare data阶段, 就是你怎么weigh你的
inputs。
好吧, 把问题简化一下:
假设现在没有一个现存的credit score系统, 但是你有customer的各种个人信息, 收
入, 教育, 年纪, 性别等等, 你如何构造出一个合理的model来评估用户的信用等
级?
segment
【在 l***a 的大作中提到】 : if you want your you need to set a target first. if you just want to segment : , you can do cluster analysis : : , : 5th
|
j*******g 发帖数: 33 | 4 同问,
set a target variable,是不是需要先设一个binary target,比如信用卡的申请结果
,yes or no,然后根据已有客户信息以及这个target数据来建模,最后将建好的模型
用于新申请用户申请结果的预测?
有一篇这方面的文章还没有看完,初步想法如此,请大牛帮忙校正。谢谢! |
D******n 发帖数: 2836 | 5 hmm. Didn't you know you need a dependent variable to fit a regression?
【在 s*y 的大作中提到】 : target 就是从一堆信息中算出一个credit score啊, 在没有历史数据的情况下, 如 : 何保证你的score有意义。 : cluster analysis我一直觉得不靠谱, 每一个variable的weight稍微变化一下, 得出 : 的cluster完全不同,决定性的步骤还是在prepare data阶段, 就是你怎么weigh你的 : inputs。 : 好吧, 把问题简化一下: : 假设现在没有一个现存的credit score系统, 但是你有customer的各种个人信息, 收 : 入, 教育, 年纪, 性别等等, 你如何构造出一个合理的model来评估用户的信用等 : 级? :
|
s*y 发帖数: 37 | 6 那我提问方式错了
我想问的是, 从无到有的如何去建立一个risk assessment模型? regression只是其
中的一步。
如果已经有了dependent variable的data, 基本每个人都能去run regression, 区别
就是
model本身的好坏而已。
个人感觉, 在建model的最开始阶段, 对于预期结果方面expert opinion必不可少,
拿信用分数
这个例子来讲, 谁都可以用收入, 教育背景等等来算一个分数, 问题是如何去
evaluate这个分数的
正确性, 有没有统计上的方法? 我能想到的还就是请一些相关信用卡专家review每个
customer的
profile, 然后大致定出一个segmentation, 比如说收入少于$10,000的分数不能太
高等等.
这只是我的个人猜测。 觉得应该有更系统的方法。
【在 D******n 的大作中提到】 : hmm. Didn't you know you need a dependent variable to fit a regression?
|
l*********s 发帖数: 5409 | 7 prior knowledge is always good to have. You can't lose by having too much
information.
"基本每个人都能去run regression, 区别就是model本身的好坏而已。"
Isn't this difference big enough? Knowing which models to choose, and how to validate and present the results takes years of training. Running regression is not even scratching the surface.
,
【在 s*y 的大作中提到】 : 那我提问方式错了 : 我想问的是, 从无到有的如何去建立一个risk assessment模型? regression只是其 : 中的一步。 : 如果已经有了dependent variable的data, 基本每个人都能去run regression, 区别 : 就是 : model本身的好坏而已。 : 个人感觉, 在建model的最开始阶段, 对于预期结果方面expert opinion必不可少, : 拿信用分数 : 这个例子来讲, 谁都可以用收入, 教育背景等等来算一个分数, 问题是如何去 : evaluate这个分数的
|
s*********e 发帖数: 1051 | 8 you are wrong from the beginning.
,
【在 s*y 的大作中提到】 : 那我提问方式错了 : 我想问的是, 从无到有的如何去建立一个risk assessment模型? regression只是其 : 中的一步。 : 如果已经有了dependent variable的data, 基本每个人都能去run regression, 区别 : 就是 : model本身的好坏而已。 : 个人感觉, 在建model的最开始阶段, 对于预期结果方面expert opinion必不可少, : 拿信用分数 : 这个例子来讲, 谁都可以用收入, 教育背景等等来算一个分数, 问题是如何去 : evaluate这个分数的
|
A*******s 发帖数: 3942 | 9 there was no scoring model at the beginning. banks used underwriters.
,
【在 s*y 的大作中提到】 : 那我提问方式错了 : 我想问的是, 从无到有的如何去建立一个risk assessment模型? regression只是其 : 中的一步。 : 如果已经有了dependent variable的data, 基本每个人都能去run regression, 区别 : 就是 : model本身的好坏而已。 : 个人感觉, 在建model的最开始阶段, 对于预期结果方面expert opinion必不可少, : 拿信用分数 : 这个例子来讲, 谁都可以用收入, 教育背景等等来算一个分数, 问题是如何去 : evaluate这个分数的
|
D******n 发帖数: 2836 | 10 还是不能理解你的问题,但是我大概能明白你的困惑。
那个分数不是用来评测谁的教育水平高低的。它的本质很多时候就是probability of
default.
,
【在 s*y 的大作中提到】 : 那我提问方式错了 : 我想问的是, 从无到有的如何去建立一个risk assessment模型? regression只是其 : 中的一步。 : 如果已经有了dependent variable的data, 基本每个人都能去run regression, 区别 : 就是 : model本身的好坏而已。 : 个人感觉, 在建model的最开始阶段, 对于预期结果方面expert opinion必不可少, : 拿信用分数 : 这个例子来讲, 谁都可以用收入, 教育背景等等来算一个分数, 问题是如何去 : evaluate这个分数的
|
|
|
s*y 发帖数: 37 | 11 请具体解释一下
【在 s*********e 的大作中提到】 : you are wrong from the beginning. : : ,
|
s*y 发帖数: 37 | 12 我现在关心怎么得到dependent variable的data
关于model本身, 以后再找机会请教
much
how to validate and present the results takes years of training. Running
regression is not even scratching the surface.
【在 l*********s 的大作中提到】 : prior knowledge is always good to have. You can't lose by having too much : information. : "基本每个人都能去run regression, 区别就是model本身的好坏而已。" : Isn't this difference big enough? Knowing which models to choose, and how to validate and present the results takes years of training. Running regression is not even scratching the surface. : : ,
|
s*y 发帖数: 37 | 13 我就是问第一个scoring model怎么建立的
【在 A*******s 的大作中提到】 : there was no scoring model at the beginning. banks used underwriters. : : ,
|
s*y 发帖数: 37 | 14 谢谢
所以最初还是用历史数据中用户default的信息来建model的?
相当于对应每个用户的信息, 都有一个相应的default与否的结果, 也就是都有
dependent
variable的data?
这样说回来, 必须有dependent variable的历史数据才能做这个model?
【在 D******n 的大作中提到】 : 还是不能理解你的问题,但是我大概能明白你的困惑。 : 那个分数不是用来评测谁的教育水平高低的。它的本质很多时候就是probability of : default. : : ,
|
s*y 发帖数: 37 | 15 我提这个问题,
实际上是几个月前面试的一个问题,
一家finance贷款公式,
说要建立一个model来评估顾客信用风险
没有历史数据来直接regression
给你一堆customer的profile
问该怎么建立model
我当时没有答出来 |
A*******s 发帖数: 3942 | 16 ok... banks used underwriters for a long time until computers became popular
. at that point of time, they had already accumulated more than enough data
to build the 1st generation regression model.
【在 s*y 的大作中提到】 : 我就是问第一个scoring model怎么建立的
|
s*y 发帖数: 37 | 17 谢谢
看来收集完整数据这一步是不能绕过去的
popular
data
【在 A*******s 的大作中提到】 : ok... banks used underwriters for a long time until computers became popular : . at that point of time, they had already accumulated more than enough data : to build the 1st generation regression model.
|
D******n 发帖数: 2836 | 18 of course....
【在 s*y 的大作中提到】 : 谢谢 : 看来收集完整数据这一步是不能绕过去的 : : popular : data
|
s*y 发帖数: 37 | 19 那当初那个面试我的是想调戏我? nnd
我当时说要用historical data来regression,
他一直强调没有default方面的historical data
只有顾客的基本profile
这么说来
我应该回答说没default data就收集data直到够用为止?
【在 D******n 的大作中提到】 : of course....
|
l*********s 发帖数: 5409 | 20 either you did not hear the question correctly or it is a behavioral
question.
【在 s*y 的大作中提到】 : 我提这个问题, : 实际上是几个月前面试的一个问题, : 一家finance贷款公式, : 说要建立一个model来评估顾客信用风险 : 没有历史数据来直接regression : 给你一堆customer的profile : 问该怎么建立model : 我当时没有答出来
|
|
|
s*y 发帖数: 37 | 21 听清楚了
是有统计背景的hiring manager提的问题
争论了半天
我然后问他
那你说怎么办?
他似乎冷笑了一下,没有回答
然后第二天就把我据了
【在 l*********s 的大作中提到】 : either you did not hear the question correctly or it is a behavioral : question.
|
l****u 发帖数: 529 | 22 I feel that the model is already there. The HR wanted you to estimate the
probability of each customer's risk depending on his profiles.
Or you can find a target variable in the profile. |
D******n 发帖数: 2836 | 23 ya, maybe
1) design an experiment, loan to the selected customers and get default
information.
2) use a credit score as depvar or find a surrogate one.
just my imagination, not from industrial experience.
【在 s*y 的大作中提到】 : 那当初那个面试我的是想调戏我? nnd : 我当时说要用historical data来regression, : 他一直强调没有default方面的historical data : 只有顾客的基本profile : 这么说来 : 我应该回答说没default data就收集data直到够用为止?
|
s*********e 发帖数: 1051 | 24 google "reject inference" |
P****D 发帖数: 11146 | 25 你的意思是不是说,在underwriter的时代,他们就看看客户资料,凭感觉决定给不给
人信用卡,但没有数量化的方法?
那先别管regression了,谁给说说人类历史上第一个计算credit score的方法是怎么来的?人类
历史上第一个credit score是怎么算出来的?
popular
data
【在 A*******s 的大作中提到】 : ok... banks used underwriters for a long time until computers became popular : . at that point of time, they had already accumulated more than enough data : to build the 1st generation regression model.
|
A*******s 发帖数: 3942 | 26 用的是打分表吧,凭经验和拍脑袋得来的。
来的?人类
【在 P****D 的大作中提到】 : 你的意思是不是说,在underwriter的时代,他们就看看客户资料,凭感觉决定给不给 : 人信用卡,但没有数量化的方法? : 那先别管regression了,谁给说说人类历史上第一个计算credit score的方法是怎么来的?人类 : 历史上第一个credit score是怎么算出来的? : : popular : data
|
s*********e 发帖数: 1051 | 27 各位的观点娱乐感挺强的。
有这功夫灌水,为什么不去翻翻书呢? |
s*********e 发帖数: 1051 | 28 这个HM是个懂业务的人,看起来业务还不错。
【在 s*y 的大作中提到】 : 听清楚了 : 是有统计背景的hiring manager提的问题 : 争论了半天 : 我然后问他 : 那你说怎么办? : 他似乎冷笑了一下,没有回答 : 然后第二天就把我据了
|
A*******s 发帖数: 3942 | 29 我倒是想请教一下
这个HM问的问题和reject inference有啥关系
一个是no sample,一个是biased sample
【在 s*********e 的大作中提到】 : 各位的观点娱乐感挺强的。 : 有这功夫灌水,为什么不去翻翻书呢?
|
l*********s 发帖数: 5409 | 30 coask
【在 A*******s 的大作中提到】 : 我倒是想请教一下 : 这个HM问的问题和reject inference有啥关系 : 一个是no sample,一个是biased sample
|
|
|
s*********e 发帖数: 1051 | 31 Hey birdie, it is a good question and quite common in the real world, say
expanding into a new footprint and / or launching a new product.
Let's get bac |
l*********s 发帖数: 5409 | 32 I see, they are similar in the sense both're trying to get something out of
NA, right?
【在 s*********e 的大作中提到】 : Hey birdie, it is a good question and quite common in the real world, say : expanding into a new footprint and / or launching a new product. : Let's get bac
|
T***y 发帖数: 43 | 33 how about find a proxy of the score? |
l***a 发帖数: 12410 | 34 good to know.
seems reject inference playing an important role in application scoring
model
might
【在 s*********e 的大作中提到】 : Hey birdie, it is a good question and quite common in the real world, say : expanding into a new footprint and / or launching a new product. : Let's get bac
|
D******n 发帖数: 2836 | 35 haha, similar to my answers.
say
define
get
might
【在 s*********e 的大作中提到】 : Hey birdie, it is a good question and quite common in the real world, say : expanding into a new footprint and / or launching a new product. : Let's get bac
|
x*z 发帖数: 67 | 36 In my experience, you may gave rank, eg 1 to 5, to each independent
variables based on your pre defined range or expert opnion's range, then sum
all to a score
【在 s*y 的大作中提到】 : 那当初那个面试我的是想调戏我? nnd : 我当时说要用historical data来regression, : 他一直强调没有default方面的historical data : 只有顾客的基本profile : 这么说来 : 我应该回答说没default data就收集data直到够用为止?
|
a********s 发帖数: 188 | 37 Good for those new to "risky" industry. Thanks.
might
【在 s*********e 的大作中提到】 : Hey birdie, it is a good question and quite common in the real world, say : expanding into a new footprint and / or launching a new product. : Let's get bac
|
b*******r 发帖数: 152 | 38 very informative post..just one quick question..
is it legally OK to check/acquire prospects cb data without their consent or
their application in the first place?
say,bank xxx can check littlebirdie's bureau data even he/she never applied
the bank's any product?
thanks for any input.
might
【在 s*********e 的大作中提到】 : Hey birdie, it is a good question and quite common in the real world, say : expanding into a new footprint and / or launching a new product. : Let's get bac
|
l*********s 发帖数: 5409 | 39 But that would not make economic sense.
or
applied
【在 b*******r 的大作中提到】 : very informative post..just one quick question.. : is it legally OK to check/acquire prospects cb data without their consent or : their application in the first place? : say,bank xxx can check littlebirdie's bureau data even he/she never applied : the bank's any product? : thanks for any input. : : might
|
w*********r 发帖数: 488 | 40 我以前看过一篇论文,实际上是某个教材附的案例。说的就是信用卡公司给如何评估申
请人的default risk。因为还没给发卡,不知道这个申请人未来会不会default。文中
写到,最开始underwriter人工审阅资料,但是这样的时代已经一去不复返,当然大企
业贷款的underwriter还是这样的了。信用卡早就不这样了。信用卡公司需要批阅大量
申请,必须数量化程式化。于是就引进了统计回归模型。他们把已经发卡的持有人信息
做成一个模型。这样你就知道大概这么个收入,这么个年龄等一系列条件的人default
的概率有多大。然后面对申请人的profile,带入公式右边,就算出左边dependent
variable的值。
这样的一个值是不完全准确的,因为你所面对的是censored data。你只知道给发了卡
又default 的概率,好多人连卡都没拿到,他们的信息你就没有掌握,所以实际上的
default rate要比你估计的高。到底高多少,有专门的方法correct censored data,
比如用weight。统计书里都讲的,翻翻就知道了。
,
5th
【在 s*y 的大作中提到】 : 用regression建model的时候, 如果没有dependant variable的数据,如何着手? : 举个例, 最开始的credit score是如何建立的? 就是现在你有一堆用户的income, : education, working experience, payment delay等等信息,没有任何历史数据来暗 : 示什么样的顾客有什么样的风险, 让你从无到有的去建立一个模型来估算信用风险, : 该是什么一个步骤? : 最核心的问题, 用这个model算出来的score, 如何去设置threshold来划分顾客的风 : 险等级? 是凭相关专业人士的经验来划分, 还是有严格统计意义上的方法, 比如5th : percentile以上为优良等等? : 希望有经验的朋友解答一下, 谢谢。
|
|
|
j*******y 发帖数: 58 | 41 应该没有严格划分吧?举个例子如果只有一群人的收入,别的什么都没有,那么划分的
时候自然就是收入高的比如5%以上的分数5,其他依次划分。具体怎么样还是要看你想给
多少人发卡。
如果有payment delay,可以当成一个response来试试。
,
5th
【在 s*y 的大作中提到】 : 用regression建model的时候, 如果没有dependant variable的数据,如何着手? : 举个例, 最开始的credit score是如何建立的? 就是现在你有一堆用户的income, : education, working experience, payment delay等等信息,没有任何历史数据来暗 : 示什么样的顾客有什么样的风险, 让你从无到有的去建立一个模型来估算信用风险, : 该是什么一个步骤? : 最核心的问题, 用这个model算出来的score, 如何去设置threshold来划分顾客的风 : 险等级? 是凭相关专业人士的经验来划分, 还是有严格统计意义上的方法, 比如5th : percentile以上为优良等等? : 希望有经验的朋友解答一下, 谢谢。
|