b********r 发帖数: 37 | 1 一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0,
不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里
面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预
测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好?
我的回答是不一定:
1。error rate最低的有可能overfitting
2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我
们要看看在test data上的performance.
面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答? |
s********x 发帖数: 81 | 2 话说cross validation也是一个克服overfitting的方法吧。 |
b******i 发帖数: 914 | 3 题意不明:
有几种不同的方法预测天气,为什么只有一个表格,其中只有两列呢?
这个表格到底是training的还是testing的?
【在 b********r 的大作中提到】 : 一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0, : 不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里 : 面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预 : 测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好? : 我的回答是不一定: : 1。error rate最低的有可能overfitting : 2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我 : 们要看看在test data上的performance. : 面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
|
l****h 发帖数: 1189 | 4 你答得没错,但不是他想问的。
他问的是:这几种预测方法对这组数据的解释好坏,应该不应该用这种error rate
metric来衡量?不涉及generalization.
你应该多和他交流,搞清他的重点。 仅靠你提供的信息, 他想导向的有可能是L1优化
; 也很可能是想导向误差的分布情况(只用一个rate丢掉了很多信息)
【在 b********r 的大作中提到】 : 一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0, : 不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里 : 面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预 : 测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好? : 我的回答是不一定: : 1。error rate最低的有可能overfitting : 2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我 : 们要看看在test data上的performance. : 面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
|
b********r 发帖数: 37 | 5 是的
【在 s********x 的大作中提到】 : 话说cross validation也是一个克服overfitting的方法吧。
|
b********r 发帖数: 37 | 6 两列中一列是实际天气,另一列是预测结果,忽略了具体如何预测.
【在 b******i 的大作中提到】 : 题意不明: : 有几种不同的方法预测天气,为什么只有一个表格,其中只有两列呢? : 这个表格到底是training的还是testing的?
|
b********r 发帖数: 37 | 7 谢谢!你说的有理,我回来后又想了一下,其实这个error rate只是type I error,有没有
可能他要求考虑Type II error?
【在 l****h 的大作中提到】 : 你答得没错,但不是他想问的。 : 他问的是:这几种预测方法对这组数据的解释好坏,应该不应该用这种error rate : metric来衡量?不涉及generalization. : 你应该多和他交流,搞清他的重点。 仅靠你提供的信息, 他想导向的有可能是L1优化 : ; 也很可能是想导向误差的分布情况(只用一个rate丢掉了很多信息)
|
d********t 发帖数: 9628 | 8 bootstrap算error的statistics
【在 b********r 的大作中提到】 : 一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0, : 不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里 : 面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预 : 测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好? : 我的回答是不一定: : 1。error rate最低的有可能overfitting : 2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我 : 们要看看在test data上的performance. : 面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
|
H****g 发帖数: 157 | 9 感觉像是语文考试,得了解面试管的主题思想
【在 b********r 的大作中提到】 : 一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0, : 不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里 : 面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预 : 测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好? : 我的回答是不一定: : 1。error rate最低的有可能overfitting : 2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我 : 们要看看在test data上的performance. : 面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
|
b********r 发帖数: 37 | 10 哈哈,是电面,面试官是俄罗斯大叔,英语口音很浓重,完全听不懂:)
不过,他还是让我过了.
【在 H****g 的大作中提到】 : 感觉像是语文考试,得了解面试管的主题思想
|
|
|
b***e 发帖数: 49 | 11 首先你没问model是用这个data建立的吗?也许本身就是out of sample 已经。另外一
般预测天气的不是简单的regression。不是用data建立model。俗话说看云时天气。一
般用十天中大气密度云层位置map等等。所以我很肯定预测时用的是另外的一些方法和
data。
还有没有另外的data要么就把这data random sample 然后split validation。要吗全
用来validation。再看有没有偏向冬天夏天之类的bias。不是说error rate最低就是预
测的最好的。
【在 b********r 的大作中提到】 : 一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0, : 不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里 : 面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预 : 测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好? : 我的回答是不一定: : 1。error rate最低的有可能overfitting : 2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我 : 们要看看在test data上的performance. : 面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
|
T*****u 发帖数: 7103 | 12 是关于model selection吗。。。error rate不一定是想要的metric,有可能有
overfitting,不但有error rate的结果,还要有confidence,下雨不下雨的天数
balance吗? |
w**p 发帖数: 4080 | 13 估计要看type 1 error和type 2 error吧。看我们需要minimize哪种error |
b***e 发帖数: 49 | 14 我还是觉得所谓overfitting是多虑了。因为预测天气的是要通过气象知识看map,大气
压,云层等等东西。不是大家想想的那种简单的run一个regression就出来的。天气预
报怎么回overfitting啊?我实在有点想不通。
【在 T*****u 的大作中提到】 : 是关于model selection吗。。。error rate不一定是想要的metric,有可能有 : overfitting,不但有error rate的结果,还要有confidence,下雨不下雨的天数 : balance吗?
|
T*****u 发帖数: 7103 | 15 看他面试的是什么工作吧。
【在 b***e 的大作中提到】 : 我还是觉得所谓overfitting是多虑了。因为预测天气的是要通过气象知识看map,大气 : 压,云层等等东西。不是大家想想的那种简单的run一个regression就出来的。天气预 : 报怎么回overfitting啊?我实在有点想不通。
|