R********y 发帖数: 4018 | 1 无以为报,只有包子酬谢。
问题如下:
我有一组data, 每个entry 有 年龄, activity, body type, etc, etc.
我现在需要decide two tier activity profile, 比如ten years and newer's
activity will be: x hrs/yr, ten years or older's will be: y hrs/yr,
my question is: how do i decide the cut point age?
==================
sample data set:
entry body type activity (hrs/yr) age
1 x 50 40
2 y 40 36
3 z 100 30
.
.
.
n th |
T*R 发帖数: 25894 | |
R********y 发帖数: 4018 | 3 这个是scattered chart.
【在 R********y 的大作中提到】 : 无以为报,只有包子酬谢。 : 问题如下: : 我有一组data, 每个entry 有 年龄, activity, body type, etc, etc. : 我现在需要decide two tier activity profile, 比如ten years and newer's : activity will be: x hrs/yr, ten years or older's will be: y hrs/yr, : my question is: how do i decide the cut point age? : ================== : sample data set: : entry body type activity (hrs/yr) age : 1 x 50 40
|
s****r 发帖数: 2386 | 4 I am not a stat guy, but on first look, if you want to have your hours per
day depends on some transformation of the state variables, you need to do
some transform first and then do regression?
I think gdd should be able to help you here. |
R********y 发帖数: 4018 | 5 oh, you mean the linear line?
the graph was generated at the very early stage of the project.
then i had the geometric mean calculation. logged and then de-log back to
see the distribution, all the zero activity data points had to throw out.
STDEV and 95% confidence interval all didn't came out well enough to use.
that's why came out with this two tier approach, but boss ask me why i pick
10 years instead of say 8.
i don't know how to weight each usable data points, because activity is
another variable in this case.
ugh.... headache.
【在 s****r 的大作中提到】 : I am not a stat guy, but on first look, if you want to have your hours per : day depends on some transformation of the state variables, you need to do : some transform first and then do regression? : I think gdd should be able to help you here.
|
s****r 发帖数: 2386 | 6 You could have a predictor variable of (age-8)and/or( age -10 ) and look at
their statistical significance, for example of you use age -10 rather than
age -8 you would got better explain, something like this? |
g*d 发帖数: 6969 | 7 啥子是你的Dependent variable? 啥子是你的independent variables?
你是不是想做activity和其他variables的关系?
然后因为很难找到一个linear的relationship,所以考虑2 tiers?
最naive的cut point办法是用median split。你把所有的排序,然后选median 作为
cutoff 点
高档点的办法就是用logit mixture model
就是说你现在假设有s个segments,但是这个s是几暂时不晓得,让model自己estimate。
然后每个人属于其中一个segment的概率是p,而这个p是depend on一些variable的,比
如age。
然后你estimate这个model,model告诉你有几个segment,哪个人属于哪个segment,
activity和age的关系是啥。
http://forum.johnson.cornell.edu/faculty/gupta/On_Using_Demogra
这个paper的model就是我说的那个,你可以照到写一个,你的应该比他的简单的多。
不过我估计你没看惯我们的paper,才看有点打脑壳。
另外你有没有试过random effects model,就是说你认为activity=beta×age,但是你
多加个random variable,这样就容许 vary across different people,这样你可能就
不一定需要那个cut point也能把activity和age的relationship找出来。
唉,就这么说还真的是不好描述,估计你看我写的越看越晕
【在 R********y 的大作中提到】 : 无以为报,只有包子酬谢。 : 问题如下: : 我有一组data, 每个entry 有 年龄, activity, body type, etc, etc. : 我现在需要decide two tier activity profile, 比如ten years and newer's : activity will be: x hrs/yr, ten years or older's will be: y hrs/yr, : my question is: how do i decide the cut point age? : ================== : sample data set: : entry body type activity (hrs/yr) age : 1 x 50 40
|
c***u 发帖数: 3888 | |
m**i 发帖数: 8296 | 9 狸猫猫好专业啊。。。//拜起~```
estimate。
【在 g*d 的大作中提到】 : 啥子是你的Dependent variable? 啥子是你的independent variables? : 你是不是想做activity和其他variables的关系? : 然后因为很难找到一个linear的relationship,所以考虑2 tiers? : 最naive的cut point办法是用median split。你把所有的排序,然后选median 作为 : cutoff 点 : 高档点的办法就是用logit mixture model : 就是说你现在假设有s个segments,但是这个s是几暂时不晓得,让model自己estimate。 : 然后每个人属于其中一个segment的概率是p,而这个p是depend on一些variable的,比 : 如age。 : 然后你estimate这个model,model告诉你有几个segment,哪个人属于哪个segment,
|
y*h 发帖数: 2794 | 10 。。。太难了。。。不碰数学已经很多年了
【在 R********y 的大作中提到】 : 无以为报,只有包子酬谢。 : 问题如下: : 我有一组data, 每个entry 有 年龄, activity, body type, etc, etc. : 我现在需要decide two tier activity profile, 比如ten years and newer's : activity will be: x hrs/yr, ten years or older's will be: y hrs/yr, : my question is: how do i decide the cut point age? : ================== : sample data set: : entry body type activity (hrs/yr) age : 1 x 50 40
|
|
|
y*h 发帖数: 2794 | 11 ...太强了
estimate。
【在 g*d 的大作中提到】 : 啥子是你的Dependent variable? 啥子是你的independent variables? : 你是不是想做activity和其他variables的关系? : 然后因为很难找到一个linear的relationship,所以考虑2 tiers? : 最naive的cut point办法是用median split。你把所有的排序,然后选median 作为 : cutoff 点 : 高档点的办法就是用logit mixture model : 就是说你现在假设有s个segments,但是这个s是几暂时不晓得,让model自己estimate。 : 然后每个人属于其中一个segment的概率是p,而这个p是depend on一些variable的,比 : 如age。 : 然后你estimate这个model,model告诉你有几个segment,哪个人属于哪个segment,
|
R********y 发帖数: 4018 | 12 oh, 这个10 or 8 all just a random age picked during calculation, the reason
boss say this is before i present my model at pubic workshop, have to think
the worst possible question could face, like what if say why don't you pick
15 instead of 8, so i have a very fancy mathematical way to bs people why i
did things the way i did, so for the open question window period they don't
have enough time to think through and thus can't question me, while other
people get the work done and no one can say sh*t anymore. hoho, that's the
trick.
at
【在 s****r 的大作中提到】 : You could have a predictor variable of (age-8)and/or( age -10 ) and look at : their statistical significance, for example of you use age -10 rather than : age -8 you would got better explain, something like this?
|
R********y 发帖数: 4018 | 13 first and the most, 拜一哈,这么专业, 早知道见面时八哈学术问题instead of 8g
. 这个就是我所谓的工作不容易钱不好赚啊。 errr....
======================
hmmm, 这几年做模型都没人问过我这个问题, 我还真不知道那个是dependent 那个是
independent.好像我的model 就是many variables 每个都相互影响,我要证明我的
hypothesis 的最终结果,比如我说的这个result X 是depend on population,
activity, age, geometrical location (这个都还没开始做,也是很头痛, 要用GIS
做, multiple layers, arh...),machine types, seasonality, 还有其他几个啥。
详细私下谈, 已经太多detail 了, 呵呵。用diff. equation 搞不出来,就只有用
stat. 做。
嗯,现在就是要证明activity decreases with age.
嗯,刚去的时候,他们一直就采用很streight forward 的 activity is average of
all samples, 一直被complain 很多,说你们的模型很naive。我也确实觉得很不和常
理,然后改成activity is depend on age, 一般看sample distribution, whatever
trendline can give the best fit curve, i choose that line. 不过反正人总是要
抱怨你的产品不好嘛, 所以现在要用更fancy的算法。
cutoff 点
mean, median 已经算过了, linear way and compared with log transformed way,
结果还是差一些, 不过还没比较这两个结果的stdev,还有啥可以比较,我的初级stat
.知识完全不够用了。 |
d**********g 发帖数: 5335 | 14 不懂
【在 c***u 的大作中提到】 : 我考, 学术贴, 搞不懂
|
R********y 发帖数: 4018 | 15 电脑copy paste 建出问题,怕买买提车拐, 打了一堆在word 上,结果paste 不过来
, 疯掉了。
logit mixture model 感觉跟我的整个模型框架很像, 有空可以搞一个出来来解决
whole model. 不过下星期二开会,为了这个中间一个环节去建另外一个模型,好像工
资还不值得我周末都忘我加班, 又没有任何加班费, 我又不想当官。
random effect model 好像比较直接有效,而且好像比较简单, 又没有paper or
sample calculation i can take a look?
然后就是太感谢了, 要怎么报答啊。 |
d**********g 发帖数: 5335 | 16
【在 R********y 的大作中提到】 : 电脑copy paste 建出问题,怕买买提车拐, 打了一堆在word 上,结果paste 不过来 : , 疯掉了。 : logit mixture model 感觉跟我的整个模型框架很像, 有空可以搞一个出来来解决 : whole model. 不过下星期二开会,为了这个中间一个环节去建另外一个模型,好像工 : 资还不值得我周末都忘我加班, 又没有任何加班费, 我又不想当官。 : random effect model 好像比较直接有效,而且好像比较简单, 又没有paper or : sample calculation i can take a look? : 然后就是太感谢了, 要怎么报答啊。
|
g*d 发帖数: 6969 | 17 我觉得那个X是你的Dependent variable, 其他population, activity, age,
geometrical location应该是independent variables.
但是你的independent ariables要是都highly correlated的话,做类似regression的
model会很麻烦。不晓得你做two stage least square 或者加instrument variables会
适合你的case不。
我说那个median split是说,你把age 排序,然后选那个median做你的cut point,然
后《median的有一个activity和age的关系,》median的有一个activity和age的关系,
estimate 2models,然后有人问你问题,为啥选这个age作为cut点,你就有个说法打发
他们了。
8g
GIS
。
【在 R********y 的大作中提到】 : first and the most, 拜一哈,这么专业, 早知道见面时八哈学术问题instead of 8g : . 这个就是我所谓的工作不容易钱不好赚啊。 errr.... : ====================== : hmmm, 这几年做模型都没人问过我这个问题, 我还真不知道那个是dependent 那个是 : independent.好像我的model 就是many variables 每个都相互影响,我要证明我的 : hypothesis 的最终结果,比如我说的这个result X 是depend on population, : activity, age, geometrical location (这个都还没开始做,也是很头痛, 要用GIS : 做, multiple layers, arh...),machine types, seasonality, 还有其他几个啥。 : 详细私下谈, 已经太多detail 了, 呵呵。用diff. equation 搞不出来,就只有用 : stat. 做。
|
g*d 发帖数: 6969 | 18 你看看这些应该比较了解random effect model了,这个比较基本,好多统计软件可以
直接算出结果
http://weber.ucsd.edu/~tkousser/December%202%20Fixed%20and%20Ra
http://www-stat.stanford.edu/~jtaylo/courses/stats203/notes/fix
http://faculty.ucr.edu/~hanneman/linear_models/c4.html#4.4%20%2
你google一下,有一堆,不晓得你用啥子软件,应该你google 软件名字和random
effect model,就可以找到code了
【在 R********y 的大作中提到】 : 电脑copy paste 建出问题,怕买买提车拐, 打了一堆在word 上,结果paste 不过来 : , 疯掉了。 : logit mixture model 感觉跟我的整个模型框架很像, 有空可以搞一个出来来解决 : whole model. 不过下星期二开会,为了这个中间一个环节去建另外一个模型,好像工 : 资还不值得我周末都忘我加班, 又没有任何加班费, 我又不想当官。 : random effect model 好像比较直接有效,而且好像比较简单, 又没有paper or : sample calculation i can take a look? : 然后就是太感谢了, 要怎么报答啊。
|
R********y 发帖数: 4018 | 19 教主真人都见过了, 有啥好笨的, 。再说, 教主面前哪个有脸奔,不是自己给自己
丢脸啊, 教主身材相貌学问哪样不是top1%?
教主, 我马屁功夫如何?
【在 d**********g 的大作中提到】
|
R********y 发帖数: 4018 | 20 真的? X是dependent variable? 我一直都是认为所有那些 population, acitivity
啥的 dependent variables, because they all in the end affect the result X,
and they also depend and affect each other. X 是我把这些都揉在一起的最后bs
别人的结果。 看来数学没学好,要回炉了。
least two stage square 又是啥东东, 好像也很有用, 我也去狗狗。
这个median split 好像就是我已经做过的, 不就是水边找的理由没打发掉经理马,还
发帖问这种无聊话题, 灌纯净水多不伤脑壳的。
【在 g*d 的大作中提到】 : 我觉得那个X是你的Dependent variable, 其他population, activity, age, : geometrical location应该是independent variables. : 但是你的independent ariables要是都highly correlated的话,做类似regression的 : model会很麻烦。不晓得你做two stage least square 或者加instrument variables会 : 适合你的case不。 : 我说那个median split是说,你把age 排序,然后选那个median做你的cut point,然 : 后《median的有一个activity和age的关系,》median的有一个activity和age的关系, : estimate 2models,然后有人问你问题,为啥选这个age作为cut点,你就有个说法打发 : 他们了。 :
|
|
|
R********y 发帖数: 4018 | |
b*****a 发帖数: 1732 | |
b*****a 发帖数: 1732 | 23 看你如何看,
你如果把他们看成fixed,那就是parameter,
如果看成变化,那就是input。
【在 R********y 的大作中提到】 : 真的? X是dependent variable? 我一直都是认为所有那些 population, acitivity : 啥的 dependent variables, because they all in the end affect the result X, : and they also depend and affect each other. X 是我把这些都揉在一起的最后bs : 别人的结果。 看来数学没学好,要回炉了。 : least two stage square 又是啥东东, 好像也很有用, 我也去狗狗。 : 这个median split 好像就是我已经做过的, 不就是水边找的理由没打发掉经理马,还 : 发帖问这种无聊话题, 灌纯净水多不伤脑壳的。
|
b*****a 发帖数: 1732 | 24 我也是鼠哥这个看法。
如果不想麻烦去搞其他model,
就可以多try几个cut,比如median cut, quantile cut,或者1/3 cut等等
哪个hypothesis test 出来好就用哪个。然后把结果都拿给经理看。我觉得还多复合逻
辑的呢。
at
【在 s****r 的大作中提到】 : You could have a predictor variable of (age-8)and/or( age -10 ) and look at : their statistical significance, for example of you use age -10 rather than : age -8 you would got better explain, something like this?
|
g*d 发帖数: 6969 | 25 大王,你太往我脸上贴金了
大王又端庄漂亮又能干,不奔一个,丁总要郁闷
【在 R********y 的大作中提到】 : 教主真人都见过了, 有啥好笨的, 。再说, 教主面前哪个有脸奔,不是自己给自己 : 丢脸啊, 教主身材相貌学问哪样不是top1%? : 教主, 我马屁功夫如何?
|
g*d 发帖数: 6969 | 26 看来你们经理不好打发啊
我还琢磨就这样打发哈就可以了呢
我不清楚你们具体的data啥的,根据你描述的,我觉得X是你的DV,有可能是错的哈。
【在 R********y 的大作中提到】 : 真的? X是dependent variable? 我一直都是认为所有那些 population, acitivity : 啥的 dependent variables, because they all in the end affect the result X, : and they also depend and affect each other. X 是我把这些都揉在一起的最后bs : 别人的结果。 看来数学没学好,要回炉了。 : least two stage square 又是啥东东, 好像也很有用, 我也去狗狗。 : 这个median split 好像就是我已经做过的, 不就是水边找的理由没打发掉经理马,还 : 发帖问这种无聊话题, 灌纯净水多不伤脑壳的。
|
g*d 发帖数: 6969 | 27 丫丫,这个,你应该比我厉害哦
【在 b*****a 的大作中提到】 : 统计方面model真是多啊 : : http://weber.ucsd.edu/~tkousser/December%202%20Fixed%20and%20Ra : cts.doc : way%20mixed%20model
|
R********y 发帖数: 4018 | 28 哎呀,完全昏头了, 这几个应该都是input parameter, 也是variables.
【在 b*****a 的大作中提到】 : 看你如何看, : 你如果把他们看成fixed,那就是parameter, : 如果看成变化,那就是input。
|
R********y 发帖数: 4018 | 29 这个办法好, 狗的锦里就是爱吧简单问题复杂化, 我就给他简单化回来。 给他一堆
选择, 看他自己喜欢那个。
【在 b*****a 的大作中提到】 : 我也是鼠哥这个看法。 : 如果不想麻烦去搞其他model, : 就可以多try几个cut,比如median cut, quantile cut,或者1/3 cut等等 : 哪个hypothesis test 出来好就用哪个。然后把结果都拿给经理看。我觉得还多复合逻 : 辑的呢。 : : at
|
n*******3 发帖数: 313 | 30 我觉得怎么选择cut off还是看你的research question啊。
选择不同的cut off point,对DV的作用或许是有改变的
可以结合这个问题的实际情况来分segment
怎么感觉我说了跟没说一样。。。 |
|
|
c***u 发帖数: 3888 | |
b*****a 发帖数: 1732 | 32 没有没有,你统计model比我熟。
【在 g*d 的大作中提到】 : 丫丫,这个,你应该比我厉害哦
|
b*****a 发帖数: 1732 | 33 我想铆钉那个model更严格,也更有趣。
但是你在周末如果又要读懂paper,又要coding,还要分析data,可能来不及了。
就用这个法子应付一下了。
【在 R********y 的大作中提到】 : 这个办法好, 狗的锦里就是爱吧简单问题复杂化, 我就给他简单化回来。 给他一堆 : 选择, 看他自己喜欢那个。
|