l******o 发帖数: 52 | 1 【 以下文字转载自 DataSciences 讨论区 】
发信人: laihaobo (数海扬帆), 信区: DataSciences
标 题: 大数据时代的最大挑战(一)?
关键字: 数据挖掘,过度拟合,“大海捞针”回归法
发信站: BBS 未名空间站 (Sun Aug 24 21:55:49 2014, 美东)
挑战一: 数据挖掘者的陷阱或"愚蠢把戏"。
海量数据,"大数据",和高频数据---由 “Big Data” 说开去之二
这个"愚蠢把戏"是直译。见下文:
http://bit.ly/StpdDtMnrTrck
文中有更加强烈的用词,像”evil data miners”,不过也还有的放矢,我们再做解释
。.此文发表于 The Journal of Investing 2007年第1期。大家可以验证一下此文的出
处:
Leinweber, David J. "Stupid data miner tricks: overfitting the S&P 500."
The Journal of Investing 16.1 (2007): 15-22.
在“Big Data”热潮涌动的今天,似乎人人都要学习机器学习,数据发掘,文中论点仍
然振聋发聩,现摘要一下:
“The new data miners pore over large, diffuse sets of raw data trying to
discern patterns that would otherwise go undetected....
<> ...(A) good (and real) example of how data mining can work well, (is)
when it is applied to extracting a simple pattern from a large data set...
<> The dark side of data mining is to pick and choose from a large set of
data to try to explain a small one.”
文中主要提到了两个问题,一是用复杂模型去拟合(或过度拟合)数据,另一个是大海
捞针回归法(用海量数据拟合少量数据)的弊端。虽然有运用数据过简之嫌,但文中给
出了一个石破天惊的回归实例:标普500 和以下三个序列的99%相关度:
1. 孟加拉的黄油产量;2. 美国芝士产量;3.美国和孟加拉的绵羊总数
作者继续指出:
”Evil data miners often specialized in “explaining” financial data,
especially the US stock market“, 就好像那些 “superball effect” 之类的。
而且,”When data mining techniques are used to scour a vast selection of
data to explain a small piece of financial market history, the results are
often ridiculous.”
笔者对类似问题,一直有同感。读完此文之后,更茅塞顿开。以此和其它相关研究成果
,我想提出“大数据时代”的第一大挑战: 如何避免盲目数据挖掘和罪恶数据挖掘者
(挖)的陷阱?
以此文抛砖引玉,与大家共同探讨! |
l******o 发帖数: 52 | 2 你同意以上说法吗?在业界有一定影响的Marcos de Prado最近也发表了一些有关的关
于back testing的文章。
“super bowl effect”:
http://bit.ly/SprBl_Ind |
g********s 发帖数: 3652 | 3 大数据的‘data mining’ 和 Oracle, IBM Data Warehouse 的‘data mining’ 一样
吗?
我仰慕这个‘data mining’很多年了,也读过点介绍,但是说实话,光听楼梯响没见
到美人的影子呀?
举例子翻来覆去就是什么尿布和啤酒放在一起卖如何成功,说明男人干家务啦知道买啤
酒时带回一包孩子尿布啦,连我最近读的涂子沛先生还在那这个例子说事。你们什么时
候见到尿布和啤酒放在一起卖啦? 怎么知道买啤酒的是男人不是女人呢?
有人说,他们靠‘data mining’,找出这样的商人:在本地区开生意时为了避免缴税
,三年后关掉报亏本,然后在附近地区又开一家一样的生意把原来顾客来回来。于是这
些人成了税务局查税的重点对象。但是这个是‘data mining’的功劳吗?这个结果用
SQL就应该能查出来吧?
我用亚马孙时真是见识到他们的‘data mining’了。
那个‘尿布和啤酒放在一起卖’的例子该被抛弃了吧? |
g*****o 发帖数: 812 | 4 你那个开店的例子,如果你事先知道当然可以直接查询出来。问题是你不知道的时候呢
,税务局的数据很多,你要从里面发现异常
【在 g********s 的大作中提到】 : 大数据的‘data mining’ 和 Oracle, IBM Data Warehouse 的‘data mining’ 一样 : 吗? : 我仰慕这个‘data mining’很多年了,也读过点介绍,但是说实话,光听楼梯响没见 : 到美人的影子呀? : 举例子翻来覆去就是什么尿布和啤酒放在一起卖如何成功,说明男人干家务啦知道买啤 : 酒时带回一包孩子尿布啦,连我最近读的涂子沛先生还在那这个例子说事。你们什么时 : 候见到尿布和啤酒放在一起卖啦? 怎么知道买啤酒的是男人不是女人呢? : 有人说,他们靠‘data mining’,找出这样的商人:在本地区开生意时为了避免缴税 : ,三年后关掉报亏本,然后在附近地区又开一家一样的生意把原来顾客来回来。于是这 : 些人成了税务局查税的重点对象。但是这个是‘data mining’的功劳吗?这个结果用
|
g********s 发帖数: 3652 | 5 他们知道这是常见手段,但是具体是那些商家就要去数据库找出来
我觉得这是SQLquery 还算不上data mining 吧。
data mining比这个要复杂很多吧,要有高深数学。
【在 g*****o 的大作中提到】 : 你那个开店的例子,如果你事先知道当然可以直接查询出来。问题是你不知道的时候呢 : ,税务局的数据很多,你要从里面发现异常
|
l******o 发帖数: 52 | 6 Marcos de Prado 关于 Quant 看家本领 Backtest 的文章, 大家怎么看?
What to Look for in a Backtest
http://bit.ly/BackTest
His own summary:
* Most firms and portfolio managers rely on backtests (or historical
simulations of performance) to allocate capital to investment strategies.
* After trying only 7 strategy configurations, a researcher is expected to
identify at least one 2-year long backtest with an annualized Sharpe ratio
of over 1, when the expected out of sample Sharpe ratio is 0.
* If the researcher tries a large enough number of strategy configurations,
a backtest can always be fit to any desired performance for a fixed sample
length. Thus, there is a minimum backtest length (MinBTL) that should be
required for a given number of trials.
* Standard statistical techniques designed to prevent regression over-
fitting, such as hold-out, are inaccurate in the context of backtest
evaluation.
* The practical totality of published backtests do not report the number of
trials involved.
* Under memory effects, over-fitting leads to systematic losses, not noise. |
l******o 发帖数: 52 | 7 好像核心这两点:
* If the researcher tries a large enough number of strategy configurations,
a backtest can always be fit to any desired performance for a fixed sample
length.
* Under memory effects, over-fitting leads to systematic losses, not noise.
我个人只做过Sell Side不怎么核心的Quant, 所以不甚了了,但感觉很多人还是要
Interview Back testing skills. 各位Hedge Fund的牛Quant工怎么看?What is the
real game here?
另外,
* The practical totality of published backtests do not report the number of
trials involved.
很多人只是为了Marketing, 这当然没什么话说。 |