y*********m 发帖数: 33 | 1 recruiter发给我一道面试模拟题,是一个与能源有关的街里公司的面试题目。大家说
说这种【已知过去,预测未来】的典型题应该用什么方法呢?
方法肯定不只一种,我能想出来的只有time series,然后autoregressive。但是我的
统计、随机过程的知识少的可怜,所以肯定应该还有更合适的方法,拜托大家出出主意
,毕竟这里牛人多,而且大部分都是统计随机高手。
另外,弱弱地问:这个和stochastic differential equation(SDE)有关系么?
感激涕零~~~
Sample Problem
I would like you to build a model that predicts the electricity price every
hour into the future for 1 week into the future for the following 1 data
streams (the resulting prediction will be a matrix of 1x168):
HOUSTON2010 NORTH2010 SOUTH2010 WEST2010 (or 11/12)
The actual real time electricity price you can find on http://www.ercot.com/content/cdr/html/real_time_spp for HB_Houston. If you have a hard time getting connected to this also check out http://www.ercot.com/mktinfo/rtm/ for HB_houston.
Limitation and restriction are:
· You can use any additional data source other than what you can find
on http://www.ercot.com/ I encourage you to improve your model quality by thinking what are some other data sources that you want to link to or use in your model building.
· I would prefer if you code this up in matlab (if you don’t have
access to matlab to do this let me know, then you can pick one of the
following: R, SAS, or C#)
· I would prefer if you make the links real-time to get the data and
predict future values (but this is not necessary)
· You can use as much or as few past observations that you wish
· You can use any modeling technique that you think is suitable
. You can use and other data stream in your model
- There are no limitation on time; however, please do not spend
excessive amount of time on it.
Results:
· I like a matlab m-file so I can see what you did
· Summary of your solution method
· Any statistics that you think would illustrate your model quality | S*********g 发帖数: 5298 | 2 我的建议:
思路比技术细节更重要
every
【在 y*********m 的大作中提到】 : recruiter发给我一道面试模拟题,是一个与能源有关的街里公司的面试题目。大家说 : 说这种【已知过去,预测未来】的典型题应该用什么方法呢? : 方法肯定不只一种,我能想出来的只有time series,然后autoregressive。但是我的 : 统计、随机过程的知识少的可怜,所以肯定应该还有更合适的方法,拜托大家出出主意 : ,毕竟这里牛人多,而且大部分都是统计随机高手。 : 另外,弱弱地问:这个和stochastic differential equation(SDE)有关系么? : 感激涕零~~~ : Sample Problem : I would like you to build a model that predicts the electricity price every : hour into the future for 1 week into the future for the following 1 data
| y*********m 发帖数: 33 | 3 兄弟,我就是没思路,LOL~
【在 S*********g 的大作中提到】 : 我的建议: : 思路比技术细节更重要 : : every
| w**********y 发帖数: 1691 | 4 不太同意. 做数据分析,思路和创新性固然重要.可是细节和sense更重要.这个sense比
较难讲清楚,更多的来源于经验,大概知道哪些category的model对手中的data比较对路.
fancy的数据分析方法和模型就那么些个,很多都有现成的软件.可是怎么能用好实际上
非常难.
我研究过几次data mining competitions,现在也在做一个类似的HFT的project,感触颇
深. | S*********g 发帖数: 5298 | 5 你说的是解决实际问题里的情况
但是面试的时候,我觉得更重要的是展示你的思维过程
为什么要选这个模型,或者为什么要做这个近似
为什么要选这个这个方法
你选中的方法,模型什么的都有什么前提,有什么可能出问题的地方
另外,对于讲不清楚的sense,我觉得是很不可靠的
你所做的选择,近似,都应该有很solid的理由
讲给别人听的时候,都应该有很强的说服力
路.
【在 w**********y 的大作中提到】 : 不太同意. 做数据分析,思路和创新性固然重要.可是细节和sense更重要.这个sense比 : 较难讲清楚,更多的来源于经验,大概知道哪些category的model对手中的data比较对路. : fancy的数据分析方法和模型就那么些个,很多都有现成的软件.可是怎么能用好实际上 : 非常难. : 我研究过几次data mining competitions,现在也在做一个类似的HFT的project,感触颇 : 深.
| w**********y 发帖数: 1691 | 6 提醒两点要注意的细节..
1. 怎么去validate你的model.最初级的是check model assumption了.这个公司肯定要
看你有没有基本常识..然后常用CrossValidation或者bootstrap去validate.但是这些
对time series的data不一定有效.
2. 你的model是要static的去做预测,还是dynamic的.dynamic就是比如说选择100个点
fit model,对下面10个做预测.依次类推.static是说用全部dta的50%去fit,30%做test.
.最后20%做holdout
Model嘛尽量先别往SDE上面想,多想想统计,time series的方法..从最基本的做起..其
实就是从linear regression做起..你不懂ARIMA,GARCH都没关系的..
good luck! | w**********y 发帖数: 1691 | 7 其实咱们说的差不多殊途同归.
这就是我所谓的细节..
": 为什么要选这个模型,或者为什么要做这个近似 | S*********g 发帖数: 5298 | 8 你这几点说的都很好。
test.
【在 w**********y 的大作中提到】 : 提醒两点要注意的细节.. : 1. 怎么去validate你的model.最初级的是check model assumption了.这个公司肯定要 : 看你有没有基本常识..然后常用CrossValidation或者bootstrap去validate.但是这些 : 对time series的data不一定有效. : 2. 你的model是要static的去做预测,还是dynamic的.dynamic就是比如说选择100个点 : fit model,对下面10个做预测.依次类推.static是说用全部dta的50%去fit,30%做test. : .最后20%做holdout : Model嘛尽量先别往SDE上面想,多想想统计,time series的方法..从最基本的做起..其 : 实就是从linear regression做起..你不懂ARIMA,GARCH都没关系的.. : good luck!
| C***m 发帖数: 120 | 9 谢谢,请问第2点里,20%holdout是什么意思。我能明白50%fit,和30%test的意思。
test.
【在 w**********y 的大作中提到】 : 提醒两点要注意的细节.. : 1. 怎么去validate你的model.最初级的是check model assumption了.这个公司肯定要 : 看你有没有基本常识..然后常用CrossValidation或者bootstrap去validate.但是这些 : 对time series的data不一定有效. : 2. 你的model是要static的去做预测,还是dynamic的.dynamic就是比如说选择100个点 : fit model,对下面10个做预测.依次类推.static是说用全部dta的50%去fit,30%做test. : .最后20%做holdout : Model嘛尽量先别往SDE上面想,多想想统计,time series的方法..从最基本的做起..其 : 实就是从linear regression做起..你不懂ARIMA,GARCH都没关系的.. : good luck!
| k*****y 发帖数: 744 | 10 借问data analysis哪些书比较好上手?thx
路.
【在 w**********y 的大作中提到】 : 不太同意. 做数据分析,思路和创新性固然重要.可是细节和sense更重要.这个sense比 : 较难讲清楚,更多的来源于经验,大概知道哪些category的model对手中的data比较对路. : fancy的数据分析方法和模型就那么些个,很多都有现成的软件.可是怎么能用好实际上 : 非常难. : 我研究过几次data mining competitions,现在也在做一个类似的HFT的project,感触颇 : 深.
| y*********m 发帖数: 33 | 11 兄弟大牛啊~~
两个小问题:
1. time series一般怎么做test?要test那些东东???
2.你说的那个holdout是干什么用的?我一直理解holdout就是为了做cross或者test用
的,难道还有别的用处?
小弟不才,拜托指点一下,先谢过~~~
test.
【在 w**********y 的大作中提到】 : 提醒两点要注意的细节.. : 1. 怎么去validate你的model.最初级的是check model assumption了.这个公司肯定要 : 看你有没有基本常识..然后常用CrossValidation或者bootstrap去validate.但是这些 : 对time series的data不一定有效. : 2. 你的model是要static的去做预测,还是dynamic的.dynamic就是比如说选择100个点 : fit model,对下面10个做预测.依次类推.static是说用全部dta的50%去fit,30%做test. : .最后20%做holdout : Model嘛尽量先别往SDE上面想,多想想统计,time series的方法..从最基本的做起..其 : 实就是从linear regression做起..你不懂ARIMA,GARCH都没关系的.. : good luck!
| K**r 发帖数: 2193 | 12 先test stationarity。
如果不是的话要去掉trend,有时候还要先log一下。
然后看Auto Correlation,Partial Auto Correlation。
这样你就知道用什么ARIMA Model了
我就知道这些。。。 |
|