突然对直线拟合的R不明白起来了 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 突然对直线拟合的R不明白起来了

相关主题
● R question	● 请教一个概率题的思路
● 请教：关于covariance matrix	● R question
● 求用R做bootstrap的example script	● Urgent R Question
● 求问一个R apply 函数的问题	● R 画图问题求教
● R 扫描matrix	● a R loop question
● 关于R的Simplex的错误信息	● 【R求问】关于vector赋值
● R: load data 帮忙看看是什么问题	● 【R】保留matrix中某些值
● 两个有关于R的小问题？	● SAS code question, special two do loop

相关话题的讨论汇总
话题: 拟合话题: random话题: 直线话题: 190话题: 一样

进入Statistics版参与讨论

1

(共1页)

c*u 发帖数: 916	1 衡量一个直线拟合是否成功，一般我喜欢用correlation coefficient R或者R^2, 但是，比如我产生一个数列， yi = s*xi + random number, xi = 0, 1, ...100 假设random number分布是同样的情况下，变化斜率s可以得到完全不同的R，但是既然 random number分布一样的，说明测量的准确性是一样的，那么这岂不是说R不能衡量一个直线拟合是否成功么？
c*****m 发帖数: 4817	2 分布一样，但error项的相对大小(相对measurement y的大小)就不一样了，你怎么能说测量的准确性是一样呢？当然，你最后的结论是对的， R^2不能衡量一个linear model拟合的好坏，但那已经是另外一个问题了。
c*u 发帖数: 916	3 可能我写的句子有问题，实际问题是这样的，比如测量体重和减肥药剂量的关系， X: 减肥药剂量：0 1 2 3 4 5 Y: 三个月后体重第一种减肥药 X = [ 0 1 2 3 4 5] Y = [200 190 180 170 160 150] + random value 第二种减肥药 X = [ 0 1 2 3 4 5] Y = [200 195 190 185 180 175] + random value random value代表测量误差，比如是平均为０，方差为２的高斯分布，那么我想这两组数据如果做拟合，其线性拟合的好坏应当是一样的，但是实际上R^2第二组小很多．【在 c*****m 的大作中提到】 : 分布一样，但error项的相对大小(相对measurement y的大小)就不一样了，你怎么能说 : 测量的准确性是一样呢？ : 当然，你最后的结论是对的， R^2不能衡量一个linear model拟合的好坏，但那已经是 : 另外一个问题了。
a**n 发帖数: 3801	4 why? 你俩组数都是线性的差不多【在 c*u 的大作中提到】 : 可能我写的句子有问题，实际问题是这样的， : 比如测量体重和减肥药剂量的关系， : X: 减肥药剂量：0 1 2 3 4 5 : Y: 三个月后体重 : 第一种减肥药 : X = [ 0 1 2 3 4 5] : Y = [200 190 180 170 160 150] + random value : 第二种减肥药 : X = [ 0 1 2 3 4 5] : Y = [200 195 190 185 180 175] + random value
c*u 发帖数: 916	5 但是R^2确实大不一样，比如： y1 = [200 190 180 170 160 150] + rand(1,6)5; y2 = [200 195 190 185 180 175] + rand(1,6)5; 算上一千次，取平均， R1^2 = 0.995 R2^2 = 0.981 【在 a**n 的大作中提到】 : why? : 你俩组数都是线性的差不多
c*****m 发帖数: 4817	6 我还不是不明白你为什么认为 “这两组数据如果做拟合，其线性拟合的好坏应当是一样的” how come？【在 cu 的大作中提到】 : 但是R^2确实大不一样， : 比如： : y1 = [200 190 180 170 160 150] + rand(1,6)5; : y2 = [200 195 190 185 180 175] + rand(1,6)*5; : 算上一千次，取平均， : R1^2 = 0.995 : R2^2 = 0.981
c*u 发帖数: 916	7 比如说一组数据在x-y坐标上是完全水平的,那么我认为画一条水平直线,应当是很好的线性拟合, 但是这个时候算出来的R^2却很差, 【在 c*****m 的大作中提到】 : 我还不是不明白你为什么认为 : “这两组数据如果做拟合，其线性拟合的好坏应当是一样的” : how come？
a**n 发帖数: 3801	8 R^2就是和水平线比较的。。如果水平线就是真实model 那linear regression只是增加一个斜率参数估计这个斜率的贡献很小不是很正常吗。。【在 c*u 的大作中提到】 : 比如说一组数据在x-y坐标上是完全水平的,那么我认为画一条水平直线,应当是很好的 : 线性拟合, 但是这个时候算出来的R^2却很差,
s*****n 发帖数: 2174	9 你这样当然不一样了. 同样大小的noise, 对于两个model的影响不一样. 第一model本身幅度就大, 相对noise的影响就小. 第二个model本身幅度就小, noise的影响相对就大. 公平的比较应该把第二个model里面的noise term减半. 比如 x <- 0:5 result <- matrix(NA, ncol=2, nrow=1000) for (i in 1:1000){ y1 <- c(200, 190, 180, 170, 160, 150) + rnorm(6) * 5 y2 <- c(200, 195, 190, 185, 180, 175) + rnorm(6) * 2.5 result[i, 1] <- summary(lm(y1~x))$r.squared result[i, 2] <- summary(lm(y2~x))$r.squared } apply(result, 2, mean) [1] 0.9453929 0.9474898 两者差不多. 严格来说, noise term 不是严格两倍的关系, 只是近似而已. 严【在 cu 的大作中提到】 : 但是R^2确实大不一样， : 比如： : y1 = [200 190 180 170 160 150] + rand(1,6)5; : y2 = [200 195 190 185 180 175] + rand(1,6)*5; : 算上一千次，取平均， : R1^2 = 0.995 : R2^2 = 0.981
s******m 发帖数: 83	10 Agree!! 【在 s****n 的大作中提到】 : 你这样当然不一样了. 同样大小的noise, 对于两个model的影响不一样. : 第一model本身幅度就大, 相对noise的影响就小. : 第二个model本身幅度就小, noise的影响相对就大. : 公平的比较应该把第二个model里面的noise term减半. : 比如 : x <- 0:5 : result <- matrix(NA, ncol=2, nrow=1000) : for (i in 1:1000){ : y1 <- c(200, 190, 180, 170, 160, 150) + rnorm(6) 5 : y2 <- c(200, 195, 190, 185, 180, 175) + rnorm(6) * 2.5

1

(共1页)

进入Statistics版参与讨论

相关主题
● SAS code question, special two do loop	● R 扫描matrix
● how to get a length of a vector in SAS/IML	● 关于R的Simplex的错误信息
● R:matrix	● R: load data 帮忙看看是什么问题
● 请问下SAS执行中有什么单步执行之类的命令吗？为什么我的proc iml里设置的参数t无论怎么改，结果都不变呢？	● 两个有关于R的小问题？
● R question	● 请教一个概率题的思路
● 请教：关于covariance matrix	● R question
● 求用R做bootstrap的example script	● Urgent R Question
● 求问一个R apply 函数的问题	● R 画图问题求教

相关话题的讨论汇总
话题: 拟合话题: random话题: 直线话题: 190话题: 一样

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)