由买买提看人间百态

topics

全部话题 - 话题: 估计值
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)

发帖数: 1
1
来自主题: Programming版 - 我出的面试题是不是太难了
估计出题人想要的答案是 N = 100*sqrt(10/2)
但是这个题还是出的有问题。
(1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
个sample x(i)是 random variable.
(2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i)
-u)^2/N) ] = C
(3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue)
= 0; var(ue) = var(x)/N;
a******h
发帖数: 908
2
新手啊,请指教,第二个方法不对,会overstate07年的exp $3000.
有些公司这样做:月末accrual一个估计值,下月初reverse掉,等受到账单时再计
expense:
12/31/07
Utili Exp 3000
A/P 3000
1/1/08
A/P 3000
Utili Exp 3000
1/15/08
Utili Exp 6000
Cash 6000
y*******3
发帖数: 659
3
来自主题: Accounting版 - 菜鸟问一个基本的会计问题
继续问一个问题啊,就是这种accrual 是不是只在年底或者季度结束的时候才做,比如
我们很多的vendor都是邮寄发票,而且收到的比较晚,我们需要一致按照估计值进行
accrue么?还是快要close period的时候这样做?
谢谢。。
w******y
发帖数: 8040
4
来自主题: Biology版 - 吵起来了,关于GWAS

这个估计值只可能是小于或等于, 等于的情况相当于stratification不存在
oncogene说的没什么错
s******y
发帖数: 28562
5
一般来说,就是那个理论上的光深度(optical section thickness),在你所用的显微镜
软件里应该有根据镜头参数换算出来的估计值
b******s
发帖数: 1089
6
多谢sunny。
confocal有俩pinholes。bleach在axis上的厚度应该只与入射光的pinhole有关。而且
一般软件里给的估计值是基于point spread function,入射光波长488nm的时候,axis
上估算值大概是500nm。但是在一个给定的ROI内,scanned的points很多,这样最后在
axis上被漂白的区域远远不止500nm。不知道这样理解对不对?
微镜
t******0
发帖数: 629
7
我只是定性地知道普通的Matlab程序一定比C++程序慢不少。
而编译会使 Matlab 程序速度提高不少, 但是不知道是不是能赶上C++。
请问“编译后的Matlab程序”和“C++程序比”,速度能差多少倍?
请有经验的大侠客提供一些具体的估计值(比如,快2倍, 慢3倍, 快1.5倍之类的)
,十分感谢!
b*******n
发帖数: 51
8
E[ yt - beta' * xt | It] = 0
E[ (yt - beta' * xt)^2 | It] = sigma^2
要估计beta和sigma,
xt在信息集It里面,xt是L维的,(L>1),
假设我用OLS估计beta, ML估计sigma, 得出beta_hat, sigma_hat,
___________________________________________________________
这里你是要先用OLS, 再用ML么? 你在估计sigma的时候,肯定会用到beta的信息。如
果你用beta_ols,那没有必要再ML了。ML并没有利用更多的信息。
请教这样的beta_hat, sigma_hat是否是最优的?
结果就是OLS的结果。
也就是说,同时知道理论上可以另外再导出一个最优的GMM估计,
上面的beta_hat, sigma_hat会不会和最优GMM估计的结果是一样的?
你的信息集如果大于X,那么会有overrestriction, 估计值可能会有不同,但是分布应
该一样。如果你的信息集就是X,那么两者是一样的。
j****j
发帖数: 270
9
另外如果我用LM test, 假设下面的sigma是另外alpha*xt,
E[ (yt - beta' * xt)^2 | It] = sigma^2
alpha是M维的, M>1.
根据上面的两个moment equations, 扩展到L+M维的最优GMM moment equations,
然后回过来测试alpha中除了对应xt常数项的那个元素为非零以外,其他全为0.
那么在null 下面,就有L+M个equation, 但是L+1个parameter,
请问这前面L+M个方程中的前面L+1个方程解出来的最优估计beta和alpha第一个元素,
vs.
如果我直接从上面的两个moment equations, 扩展到L+1维的最优GMM moment
equations,
也就是OLS的估计beta_ols和alpha第一个元素(亦即sigma_ols),
对比的话,他们的估计值是否应该是一样的?
b*******n
发帖数: 51
10
我觉得你是在作FGLS,而不是GLS。GLS需要知道variance matrix的结构。如果是FGLS
,那么一般都是用searching algorithm。最简单的,先估计OLS,然后用OLS的
residual估计variance matrix。然后代到GLS估计的公式中,重新得到一组参数估计值
和residual。如果收敛了,就可以停下来了。如果不收敛,就需要重新search。另外,
看看Newey-West对variance的估计,细节我记不清楚了。你可以自己找。
i*******e
发帖数: 349
11
Economist网络版的indicator部分有一部分的数据:
http://www.economist.com/markets/indicators/displaystory.cfm?story_id=12010691&fsrc=rss
IMF的网站上有全部国家和地区的数据(08年的数据是估计值)。
d******w
发帖数: 39
12
如题。
y=B0+B1X1+B2X2+B3X3+B4X4+B5X5+u
在设置限制条件B4=B5=0之后,是不是对B1,B2,B3的估计更准确呢?
我在呆瓜一般的看WOOLDRIDGE,并且生吞活剥的拿计量解释现实:就是,比如说,寻找
良人,如果设置了restrictions,再之后,对这仅有的几个人的估计,会更准确一点。
然后我不知我套计量的那句话有没有问题。
偶觉得,计量时没意思的,有意思的是把它硬扯到practical life。呵呵
n*****1
发帖数: 172
13
"更准确"是指? unbiased? efficient? consistent?
假设你原本的OLS是BLUE, 那你restricted OLS出来的就不是BLUE了啊
D*****a
发帖数: 2847
14
看你的限制条件是不是正确了
d******w
发帖数: 39
15
哦 谢谢二位
恩 那我现在表达:如果限制条件正确的话,估计的OLS会更加unbiased,and extra
variable can also be eliminated.
但如果限制条件不对,restricted OLS就不是BLUEl了。
对不?
k***k
发帖数: 19
16
还有一种情况是:你的model要精练才好,如果你的restriction成立,就可以去掉两个
redundant 变量。
w**********m
发帖数: 82
17
比如在OFDM系统中,接受信号和发送信号的关系是
y(m)=C(m)X(m)+w(m)
这里,m是time index,C(m)是要估计的channel impulse response vector。
w(m)是高斯白噪声。系统的多普勒频移是fd,可以很高。
通常在time domain中用RLS算法估计第n时刻的C(n)是
min sigma [y(m)-C(m)X(m)]^2 lambda^{n-m}
sigma中的m从0到n。lambda是forgetting factor,小于1.
如果引入smoothing算法的话,估计n时刻的C(n)是
min sigma [y(m)-C(m)X(m)]^2 lambda^{abs(n-m)}
m从0到整个Packet的结尾。
现在的simulation 结果是用了smoothing反而效果变差了。
确实比较想不通。那位能解释一下?
再说一下packet的结果。有4个pilot symbol,加上10个data symbol。
后面的data symbol的估计值是通过decision directed方式得到的。
e*****m
发帖数: 320
18
时不变系统,假定有一组输入x(t)和输出y(t)已知。系统的传递函数未知。
通过一些其他知识和方法,可以估计系统的传递函数为:
h(t)=Aexp(-t/B) 其中A B为待定参数。
估计出来的h(t)与x(t)卷积,产生的y_estimate(t)必然与y(t)有一些误差。
按照一定的评判标准,必然可以得到一个最优值,获得A_estimate和B_estimate
这里面的问题是:有没有办法获得A_estimate和B_estimate这两个估计值的置信区间?
谢谢!
B**W
发帖数: 2273
19
来自主题: Mathematics版 - 求和问题
那就给个最小估计值么,比如至少大于多少吧
跟n!有的比吗
别反问我,我不懂,hehe
j****u
发帖数: 115
20
来自主题: Mathematics版 - 有没有这个统计中的定理
如果有个未知参数c需要估计,假设有两种办法,
第一个是观测到一个以c为参数的随机变量X(c),如果我们根据X(c)对c进行估计,估计
值为c1(X),均方误差为MSE1;
然后,假设有另外一个随机变量Y是conditional on X的,如果我们现在只能观测到Y,
并根据Y做出对c的估计,估计值为c2(Y),得到的均方误差是MSE2
有没有这样的结论说,MSE2大于等于MSE1呢?
直观解释就是,直接观测比间接观测更可靠。
谢谢版上的朋友了!
l**********a
发帖数: 125
21
【 以下文字转载自 THU 讨论区 】
发信人: zjh67 (mariner), 信区: THU
标 题: 公司面试的一些感想
关键字: 面试,机械工程
发信站: BBS 未名空间站 (Tue Jun 15 19:46:22 2010, 美东)
我在一家半导体设备公司任职。前些日子我们组有两个机械设计工程师的位置空缺。
印度同事推荐了许多印度人。 我也通过别人介绍联系了两个师弟。可是面试结果下来
,offer 全给了小印。虽然参加面试的六人中有两个小印manager, 但我的感觉是师弟
们的背景和表现和小印们相比的确差强人意,落选当在情理之中。我想在这里将过程简
单回顾一下,希望对其他正在或将来要找工作的师弟师妹们能有所帮助。 由于各个行
业各个公司各个小组的情况不尽相同, 所言不当之处还请各位包涵, 就当是他山之石
吧。
首先要说明的是我们要招的机械工程师必须具备很强的分析问题能力。当然基本的专业
训练如结构应力,流体传热,材料应用等是不可缺少的。
师弟A:
本科和硕士都在清华,有机械和材料的背景。即将从一工程排名前20的学校博士毕业,
无工作经验。据说其导师是行业中的牛人。在面... 阅读全帖
k*****e
发帖数: 229
22
来自主题: ME版 - 请教传热问题
只是估算,实际情况没有办法完全定义好,所以恒温确实是有些歧义,抱歉。
最后的大致估计是利用公式:
Qin=Qout=C*m*deltaT
冷水端:Q=UAdeltaT (U:传热系数,A:传热面积,包含了长度L)
两者相等,最后得到估计值。奇怪的是,长度居然和冷水流速成正比,恐怕计算不太正
确。
v*********n
发帖数: 14
23
来自主题: Quant版 - 股票/指数ETF的交易成本
请问哪里可以找到股票/指数ETF的交易成本,包括佣金和买卖差价。最好可以有最近20
年的纪录。由于这些数据是做研究用,而且本身就是一个范围值,所以大致的估计值也
可以。
谢谢大家!
t*****j
发帖数: 1105
24
来自主题: Quant版 - one interview question
嗯,我想问问关于 maximum likelihood方法估算值的 mean square error的讨论和计
算。
我个人感觉,只是感觉哈,就是maximum likelihood方法的估计值和真实值的var会比
较大,好的时候可以估计很准确,但也有可能比较差。用期望或者方差估计的方法不一
定很准确,但是不会太差。不过这个只是我的直觉。
s***e
发帖数: 267
25
来自主题: Quant版 - 一个很简单的面试问题
我觉得这个题目挺无聊的,也可能我没明白他究竟要干什么,没什么实际意义。
一种理解方法是,假设这个股票明天涨或者跌是bernoulli分布,参数为p。
现在两个estimator, p1 = 0.6, p2=0.6
问有没有方法combine得到更好的estimator,如果有怎么做,并且你的估计值是什么。
如果这样需要太多假设了:比如两个估计量非偏吗?独立吗?相关吗?相关系数多少?
variance多大等等。
不知道ziqing说的bayesian怎么个做法
y*****u
发帖数: 224
26
来自主题: Statistics版 - 请教一个regression问题
从一堆样本(x,y,z)中作regression 分析平面z = ax+by+c;
我们知道估计值~a(a) and ~b (b)是normal 分布
请问(~a/~b)是什么分布?参数如何? 什么文章或书对此问题有详尽分析?
先谢了!
P****D
发帖数: 11146
27
实验我其实没全看懂,只看懂了第五和第六步。如果下面说的不对请不要笑话我……
线性度好坏用r-square描述(http://en.wikipedia.org/wiki/Correlation_and_dependence)。
斜率本身的点估计值(point estimate)与error bar也就是standard deviation无关。
斜率的point estimate的准确程度由它自己的standard error描述。你第六步中线性拟
合的时候不光会求出斜率的point estimate,不管你用什么软件进行这个线性拟合的计
算,它肯定还会给一个那个斜率的standard error。
D******n
发帖数: 2836
28
measurement error已经被估计出来了。
打个比方,你今天测了你的身高好几次,可是天气比较冷手很抖,
改天天气比较好手不抖。
于是你就想,这两天的身高的估计值要不要考虑到手抖不抖呢?
你说呢?
手抖的那天,自然variance就大,手不抖那天variance小,所以他们各自的error已经自
动被估计,不用你来操心。。。
s****e
发帖数: 1180
29
前两天用SAS/IML写了一个用EM算法估计generalized linear model中的参数的问题,
结果总是有问题,error在不停的变大,effect 的估计值也在不停的变大,后来调整了
初始值,有了一点点进展,但还是没完全解决问题。estimation 还是不理想。模型中
是有interaction的,但是调整初始值之后,只能估计出main effects,估计不出
interaction。后来把程序翻译成R语言,结果,这下无论怎么调初始值,程序运行到一
定地步后,总是有不能取倒数的值出现。而且前几轮算出的值也没有特别大的值出现。
彻底晕了,SAS, R which one should I trust?
x*******i
发帖数: 1791
30
可以计算bias和mse。 你可以看看关于MLE和REML的讨论。
basic idea is:
E( e*Sigmahat*e' )是一个quadratic form,可以写成两部分,这两部分包含你的Sigma。
where:
e是model residual. Sigmahat是你的covariate matrix的估计值。Sigma是true
covariate matix。
顺这个思路搞搞试试。
T*******I
发帖数: 5138
31
来自主题: Statistics版 - 问一个误差分析的问题
对你的第一条解释可以理解,那确实是构造权重的option之一。
但我对你的第二条解释就不能理解了。既然你不知道被扫描的峰的真值,你如何得到你的
fitting error?难道你的fitting error是由每个fitted值对average x的差?
果真如此,你可能需要更多次的fit才能得到比较可靠的关于被扫描峰的真值的估计值
。我认为仅有6次fit是远远不够的。当你通过例如100次fit后得到一个更稳定的
average x后,就可以此为被扫描峰的真值,然后再进行误差估计和分析,此时是否使
用权重变量意义不大。

是我
s*r
发帖数: 2757
32
来自主题: Statistics版 - 谁做过PROPENSITY SCORE的SIMULATION?
要不你做quantile stratification
把数据分组之后,在每个组里运行
proc glm ;
model y=grp x1 x2 x3;
run;
看grp effect的average是不是要比在所有data里面运行同样model的估计值更接近true
value
感觉这样的comparison比较公平
w********n
发帖数: 753
33
来自主题: Statistics版 - 请教数据读取问题
我现在读的一篇文章里面没有现成的数据,但是有很多图,我需要从这些figure里读出
数据的估计值,这些图一般都是longitudinal data,就是在某些确定的时间内记录的
一些数据,大家知道有什么软件可以读出这些数据的坐标吗?
先谢谢啦!试过PDF里面的distance tool,但是很麻烦,不知道大家有没有啥简单的方
法。
f***a
发帖数: 329
34
Good explanation!
胡乱补充一些,
Monte Carlo methods定义非常广,譬如你若想找出 pi的估计值可以用如下Monte
Carlo
method: 画个正方形,在里面画个内切圆;然后均匀撒米到正方形里面;最后数落在正
方形里面和
圆里面米的数量;那么 pi 就约等于 4*n_circle/n_square 。
不严谨的说Monte Carlo methods差不多就是把一个难解决的问题分成相对简单的“一
小步一小
步”去做,得到一个近似答案。
MCMC的话是应用monte carlo steps和markov chain的equilibrium性质generate
sample,主要是sample from posterior distribution因为它们很多形式都是乱七八糟
的很
难sample。

use the
Monte
many
technique
T*******I
发帖数: 5138
35
来自主题: Statistics版 - 求助一个学术问题
这个standard error指的是根据这次抽样和模型假设所建立的模型参数(即beta值)的
本次抽样误差,亦即,如果以本次抽样得到的beta来估计未知总体的beta时可能发生的
一个单位的标准误差。这与用样本分布的均数估计总体分布的期望是同一逻辑。
在统计学中,任何被估计的总体参数都是由样本的一个相应统计量来估计的,因而都应
该有一个抽样误差的估计。没有抽样误差的估计仅仅是一个随机的点估计,其可信度几
乎为0,但是,一个有着抽样误差估计的统计量却是一个可信度可以达到足够高的程度
的估计。然而,关于抽样误差的估计并非有一个统一的、固定不变的方法,而是有着不
同定义,因此,任何抽样误差指的是在相应定义下的估计。定义发生改变,计算方法就
会发生改变,从而估计值就会不同。理论上,任何人都可以对抽样误差给出一个自己认
为合理的定义,但基于标准差和样本量基础上的估计是统计学史上由尼曼等首先提出的
,因此,大家基本都遵循这个逻辑来构造关于统计量的标准误的算法。这个思想的提出
在统计学史上具有划时代的意义。

beta
b*****n
发帖数: 685
36
来自主题: Statistics版 - 求助一个学术问题
FT,standard error不就是估计值的standard deviation
g********r
发帖数: 8017
37
我也是一知半解,欢迎拍砖:
比如说在板上随机挑出几个人来,到各大饭店品尝红烧肉.作为评价红烧肉好坏,Y就是各
人吃的量.X呢,我们感兴趣的是红烧肉的色泽,肥瘦比例之类的.
决定吃多少,还有个重要的参数就是各人的食量.比如版主大人,根据ID和雅号,那一定吃
的比较多.可是呢,这个不能当作一个fixed effect.尤其是观察量比较少的时候.操作上
来说,会吹大估计值的方差.哲学上说,我们不应该给板上好几百口子每人一个fixed
effect, 而应该把它当作从一个population里的抽样.所以就叫random effect了.
有的人,比如我老板,对random effect非常的不鸟,认为那是缩小方差的一个小手段.
l***o
发帖数: 5337
38
来自主题: Statistics版 - 请问:bootstrap的应用范围
我知道很多情况下,人们用bootstrap来估算估计值的variance,但这显然有局限。比如我从无限整
体中只抽一个样本,来估计均值。这是个无偏估计。然后我就开始狂做bootstrap。可因为只有一个样
本,怎么bootstrap显然都找不到variation。
请诸位给点comments。谢谢!
l***o
发帖数: 5337
39
来自主题: Statistics版 - 请问:bootstrap的应用范围
谢谢!可是我还是不太明白:什么是‘ X_n should represent the truth’。比如说
:(1)如果
我的n足够大(》30),CLT其作用,我能估计ariance。(2)我的n不够大,CLT不能用,
但这时显然
也很难claim这个tiny样本能‘represent the truth’。请问在那种情况下bootstrap
更适用?
是不是在(1)的情况下,bootstrap抛掉CLT能使variance的估计值更小?
非常感谢指教!

X_2,
the
T*******I
发帖数: 5138
40
我的三分法中的两个临界点是用全样本数据及其对临界关系的可变贡献(权重)来估计的一个加权平均数。这就是说,每个临界点的估计值都是一个100%地充分的且由权重校正后的无偏统计量,正如我们计算任何样本的加权均数或算术均数一样。有哪位对样本均数做cross validation的?说出来让我们开开眼界?
任何来自实际样本的一个training sample都不可能给我们一个比由全部实际样本计算出来的统计量更充分的统计量。在这种情形下,CV就没有了任何意义。难道我们能用以一系列不充分的统计量作为标准去验证一个充分统计量?难道我们能够用一组残疾人作为标准去验证一个无残疾的人?
A*******s
发帖数: 3942
41
真是夏虫不可语冰... 果然和我说的一样嘛,就是拼命overfit一个training sample,
不做任何validation和cross validation。
陈大师你不妨加入狂多的high order terms and interaction terms, 相信我,这方法
一定会比你的所谓三分回归fit的更好。你试试就知道了,哈哈。你大可以再宣称发现了新的统计学地平线,千万别告诉别人这方法是我告诉你的。

计的一个加权平均数。这就是说,每个临界点的估计值都是一个100%地充分的且由权重
校正后的无偏统计量,正如我们计算任何样本的加权均数或算术均数一样。有哪位对样
本均数做cross validation的?说出来让我们开开眼界?
算出来的统计量更充分的统计量。在这种情形下,CV就没有了任何意义。难道我们能用
以一系列不充分的统计量作为标准去验证一个充分统计量?难道我们能够用一组残疾人
作为标准去验证一个无残疾的人?
a***g
发帖数: 2761
42
来自主题: Statistics版 - why bootstrap?
不知道怎么版上最近很和这个题目较劲啊
事实上要认清一个方法有效与否不能绝对的来看待,有几个问题也要考虑进来:
它面对的对象是什么
它有效的范围在哪里
它的理论基础能不能解释它的效果
首先看看第一个问题,就是bootstrap不是什么万金油的方法,最初人们用它为的是处
理一些对背景知识比较茫然或者信噪比比较低的数据,糙点说就是实在没辙了才用这一招
的。如果知道数据大致的生成过程,那直接蒙特卡洛好了,还用个屁bootstrap啊,甚
至噪音影响不大的时候,极大似然的估计都更好些。那么反过来说,这也是为什么对于
非参问题,bootstrap直到今天都是最有力的手段之一。既然大家都不知道真实的模型
是啥,而bootstrap的估计已经被很多实际应用证明有效了,那为什么不用。至于是否
能够接近所谓的“真理”,那么我觉得之前的讨论已经说的很清楚了,没有正确的模型
,只有有效的模型。统计更多的是为了有用,不仅仅是为了对。
第二个问题,我不敢瞎说,bootstrap到今天已经有太多交叉领域了,有些是为了灌水
,有些真的有用。这个大家有兴趣可以自己看看。但是起码在非参和半参的相当大一类
问题上,boot... 阅读全帖
z*******n
发帖数: 15481
43
你是frequentist 还是 bayesian?
frequentist的话算MLE 然后inverse of fishier information matrix是estimate的
variance
bayesian的话用MCMC sampler去sample 那些参数的posterior distribution 然后
sample mean作为参数的估计值
如需更多细节 发几个包子吧 我给你发pdf文件 呵呵
d**********r
发帖数: 24123
44
如果方差是相对一个估计值来言,就叫error
如果方差是相对一堆数据来言,就叫deviation
p********a
发帖数: 5352
45
☆─────────────────────────────────────☆
cici (full house) 于 (Mon Nov 7 08:33:47 2011, 美东) 提到:
对于logistic regression
log(pi/1-pi)=b0+b1x1+b2x2
我现在已知independent variables和response variable{log(pi/1-pi)}
我要怎么做才能把参数b0,b1,b2 fit出来?非常感谢
☆─────────────────────────────────────☆
sleephare (I+don't+know.) 于 (Mon Nov 7 14:16:38 2011, 美东) 提到:
SAS, R?

☆─────────────────────────────────────☆
cici (full house) 于 (Mon Nov 7 16:19:05 2011, 美东) 提到:
R,thanks
☆────────────────────────────────────... 阅读全帖
u**x
发帖数: 41
46
SC has two components: negative log-likelihood, which measures lack of fit,
and
a penalty term that varies as a function of sample size and the number of
model parameters. 所以 SC for intercept with covariate 可以比单独intercept
大。 我觉得有两个系数的估计值特别大才有问题。 是不是 observation 之间不
independent啊?

多行左
intercept吧,
j*******r
发帖数: 32
47
首先,MLE也不一定是相合估计,如果正则性条件不满足,MLE本来就可能和真值差别很
大,这是最郁闷的结果。
第二,有可能是样本容量不够大导致估计值偏离真实值。在计算量允许的情况下,增加
你的样本量。
第三,最有可能的是你likelihood写错了。
很简单的一个判断方法是算出最终的likelihood function的值。假设L是likelihood,
你的解是a,真实值是b,代入看L(a)是不是比L(b)大。
如果L(a) 个比a更大的极值点,你可以用grid或者是其他方法找到它。
如果L(a)>L(b),特别是差得很多的话,说明a很有可能是全局最优点。要吗就是正则条
件不满足,要吗就是你的likelihood有问题。
y********0
发帖数: 638
48
有一本书叫how to measure everything in business,有这种题的解题思路。
基本原则是在无法或者没能力获取某一些变量的实际值时,可根据已有的信息对
此变量进行估计。。
譬如第一个题,如果是我的话,会反问对方what information you have alreadybr />

果他拒绝回答,我会问你有这个town里的k_12年级的学生人数吗这类,问一下这个镇里
共有多少人,再估计个平均每家娃个数,再估计下美国共有多少州,多少town。。反正
最后加加减减,乘乘除除给个大约的估计值就成。。大约这个思路吧。。
T*******I
发帖数: 5138
49
来自主题: Statistics版 - 大家平时怎么处理missing data?
你所说的大多数情况下的处理方式是很有效的,但有些不属于真正的missing data,例
如已知其first name但性别没有记录。而且,用这种方式处理大样本中的缺省值时,几
乎是困难重重。
我的一个基本观点是,缺省值属于样本中随机发生的现象。在数据建立过程中能尽可能
减少发生的情况下,无需过分担心它们的存在,也无需刻意用所谓的imputation或统计
估计值予以替换,因为一个真正的缺省值就是一个关于客观对象的未知,而一个真实的
未知不能用人为的假设去替换。
w****p
发帖数: 167
50
正在做一个简单的LOGISTIC REGRESSION.有TRAINING和VALIDATION两个数据(70% VS.
30%),还有四个自变量A、B、C和D(自由度都为1)。我想通过比较参数估计值的WALD
CHI^2来衡量自变量的预测/解释能力是否“稳定”。结果如下:
自变量 CHI^2 (TRAIN) CHI^2 (VALID)
A 5 0
B 3 0.2
C 10 3
D 15 5
我的感觉是:稳定性D>C>B略>A,A肯定不稳定。但没有理论依据支持自己的判断。例如
说,这种方法可以用来衡量“稳定性”么?有什么标准可以定性(那个稳定那个不稳定
)和定量(谁比谁更稳定)?有什么更好的方法么?多谢!
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)