关于outlier的讨论汇总 - 话题女王

全部话题 - 话题: outlier

M***n
发帖数: 5815

来自主题: Stock版 - 比较几个用过的online brokers券商 - 作者 outlier (散客)

☆─────────────────────────────────────☆
wawawawa (wawa) 于 (Mon Feb 16 12:03:57 2015, 美东) 提到:
大家觉得vanguard如何呢？commission, trading fee,etc.
☆─────────────────────────────────────☆
outlier (散客) 于 (Mon Feb 16 12:09:41 2015, 美东) 提到:
Vanguard适合401K， buy and hold策略。投资Vanguard的基金或ETF很好，超低的fund
expense ratio费用（VOO/VTI~0.05%), 长期节省下的复利可观。
☆─────────────────────────────────────☆
yyy123 (yyy123) 于 (Mon Feb 16 12:13:07 2015, 美东) 提到:
TD Ameritrade 多大量才有可能谈手续费？
☆─────────────────────────────────────☆
O... 阅读全帖

t********r
发帖数: 4908

来自主题: _K12版 - [合集] 看完半本outliers以后的心得

☆─────────────────────────────────────☆
sunnygirl (从此不信星座) 于 (Tue Apr 6 13:31:08 2010, 美东) 提到:
1。数学一定要用中文教，学校教学校的，我拿中文小学课本教我的，这个优势不用太
可惜了
2。天道酬勤，那些美国老师玩闹have fun的课就是烧钱，还是得追求那个小姐痛恨的
苦练基本功的画画老师
3。生对年和月真是太重要了，我们这种10月底出生的男孩子除非晚一年上学，体育算
是彻底不用指望了
☆─────────────────────────────────────☆
eve (小东东~从零开始重新奔！) 于 (Tue Apr 6 13:31:46 2010, 美东) 提到:

呜呜呜呜！！！
☆─────────────────────────────────────☆
premium (premium) 于 (Tue Apr 6 13:34:32 2010, 美东) 提到:
体育和出生年月有关系啊？你是说那种生月大的人比如一月二月三月的身体会比别的孩
子好吗 ... 阅读全帖

I********l
发帖数: 8702

来自主题: ChinaNews版 - Outlier一书将韩国坠机事故归于韩国文化是站不住脚的 (转载)

【以下文字转载自 Military 讨论区】
发信人: Irrational (Herzog), 信区: Military
标题: Outlier一书将韩国坠机事故归于韩国文化是站不住脚的
发信站: BBS 未名空间站 (Sun Jul 7 09:47:37 2013, 美东)
韩亚航空公司214航班在旧金山机场出现坠机事故之后，本版出现一股指责韩国机长鲁
莽蛮干技术低劣的热潮，其中一个较长的帖子引用了畅销书Outlier的章节，更是系统
性的将韩国坠机归结于韩国文化的权力距离（Power Distance，下文简称PD）。我认为
这种说法完全是站不住脚的。
首先来说，Outlier一书将韩国航空定义为坠毁事故率很高，支持这一论据的数据是，
1988年到1998年期间，韩国航空公司的飞机坠毁率为每百万（起飞）4.79次，是同期美
国客机坠毁率每百万0.27次的17倍[1]。如果计算每百万起飞的坠毁率，就是拿1988-
1998年期间两国民航飞机的坠毁次数去除总起飞次数，这就带来一个问题，1988-1998
年这个时间段是怎么挑选出来的呢？要知道，韩国民航飞机的飞行次数和美国不... 阅读全帖

I********l
发帖数: 8702

来自主题: Military版 - Outlier一书将韩国坠机事故归于韩国文化是站不住脚的

韩亚航空公司214航班在旧金山机场出现坠机事故之后，本版出现一股指责韩国机长鲁
莽蛮干技术低劣的热潮，其中一个较长的帖子引用了畅销书Outlier的章节，更是系统
性的将韩国坠机归结于韩国文化的权力距离（Power Distance，下文简称PD）。我认为
这种说法完全是站不住脚的。
首先来说，Outlier一书将韩国航空定义为坠毁事故率很高，支持这一论据的数据是，
1988年到1998年期间，韩国航空公司的飞机坠毁率为每百万（起飞）4.79次，是同期美
国客机坠毁率每百万0.27次的17倍[1]。如果计算每百万起飞的坠毁率，就是拿1988-
1998年期间两国民航飞机的坠毁次数去除总起飞次数，这就带来一个问题，1988-1998
年这个时间段是怎么挑选出来的呢？要知道，韩国民航飞机的飞行次数和美国不是一个
级别，所以韩国坠毁率的分母比美国小，而就分子而言，只要差别一辆架，就会导致两
国坠毁率出现显著变化了。换而言之，如果选取的时间段(1988-1998）恰好是韩国民航
坠毁较多的时段，韩国坠毁率就会显著上升。
我没有去找原始的数据做计算，但是一个事实就是，1988-1998年期间的确... 阅读全帖

a****5
发帖数: 747

来自主题: Boston版 - Recommend a book: "Outliers: The Story of Success"

这两天看完了Malcolm Gladwell's non-fiction book, "Outliers: The Story of
Success". Could not put it down so I was able to finish it in 2 days.
Very interesting and highly recommended.
Here is some introduction from Wikipedia about this book:
Outliers: The Story of Success is a non-fiction book written by Malcolm
Gladwell and published by Little, Brown and Company on November 18, 2008. In
Outliers, Gladwell examines the factors that contribute to high levels of
success. To support his thesis, he examin... 阅读全帖

a********e
发帖数: 78

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

一个数据集存在一些outlier （或者说和其他数据点比较不同），在对这个数据集建
立预测模型（比如用回归分析）的时候应该如何处理这些outlier？当然可以把这些
outlier分离出来不要。但假如希望这个模型能够包含这些outlier的话，应该怎么办
。一般哪些模型能够比较好的容忍这些outlier。

a********e
发帖数: 78

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

a********e
发帖数: 78

来自主题: DataSciences版 - 建模过程中对于outlier的处理问题

Y****a
发帖数: 243

来自主题: DataSciences版 - 建模过程中对于outlier的处理问题

“这个模型能够包含这些outlier”这句话该怎么理解？
1. 首先明确做这个模型的目的是什么？预测未来？判断因果？
2. 用包含outlier的数据做模型，或多或少都会对模型造成偏差。现在要回答的问题是
这种偏差是你这个项目能接受的吗？有时候不大的偏差有可能会带来很大的business
impact。
线性模型里，一个y-direction的outlier可以 completely screw your model up
3. outlier的来源是什么？是不是valid input。
人为因素，还是系统因素。
人为因素，不建议保留，而且要implement一套自动识别机制
系统因素，建议保留，并建立一套自动处理这些数据的程序。
4. 个人感觉：比较不能接受为了outlier而更改模型的做法。

F******g
发帖数: 452

来自主题: Jiangnan版 - Outliers：吃米的人为啥聪明？ (转载)

【以下文字转载自 WaterWorld 讨论区】
发信人: Fangding (Dingding), 信区: WaterWorld
标题: Outliers：吃米的人为啥聪明？ (转载)
发信站: BBS 未名空间站 (Mon Dec 13 03:25:54 2010, 美东)
发信人: baoyuhong (yubao), 信区: Hubei
标题: Outliers：吃米的人为啥聪明？
发信站: BBS 未名空间站 (Mon Dec 13 03:19:11 2010, 美东)
吃米人聪明的理论，Outliers是这么说的。
中国人，亚裔孩子数学好，聪明。为啥中国孩子数学好？啥解释？作者从二个方面论证。
第一：中国人的语言，适合学数学，因为发音短。看中美总统姓名就明白了。
咱国家总统，胡，一个字，二个字母。再看美国的总统，光姓就奥巴马，三个字，
Obama，五个字母。
咱国家总统middle name：锦，一个字，三个字母。美国总统middle name：胡赛因，
Hussein，三个字，七个字母。
咱总统名：涛，一个字，三个字母。美国总统名：巴拉克，三个字，Barack... 阅读全帖

k*******a
发帖数: 772

来自主题: Statistics版 - 问个outlier 和 sample size 的问题哈

it depends, sample size larger, the more likely you will observe outlier.
you can calculate the probability you observe the outlier, and set a cutoff
to decide whether delete or not.
if the p is p-value to observe the outlier, then the probability of
observing one outlier at size n is approximately np, if np is still small,
then you can delete otherwise, think twice, I think

w******4
发帖数: 5

来自主题: Statistics版 - outlier detections

I want to find out or locate the outliers. When I'm using the boxplots, the
interessting thing is that it told me number1 is the only outlier. When I
deleted number1 and boxplot again, and found out there is another outlier.
So is there anyone can give me another way to find out outliers? Thanks a
lot.

y****2
发帖数: 46

来自主题: Statistics版 - about outlier identification

Dear all
I have a question about outlier identification.
I have 2 groups of biological samples, 9 items per groups.
There is a couple values is far away from mean and also change the data
distribution dramatically.
I tried different methods to identify outliers, grub's method, median+/- 1.5
of interquarntile, median+/-5.2 MAD, Rubb method.
However, none of them can remove all the "obvious" outliers.
Only if I use the outlier package in R, which based on which data point has
most distance from me... 阅读全帖

y**********a
发帖数: 824

来自主题: Programming版 - Outlier detection -- 什么数学模型合适这个问题

数据是用户读取数据的时间，一个例子是：
用户 A 访问数据 B 的时间。数据 B 有不同的版本，譬如每周一个版本，或每天一个
版本：
( 3/1, 1/1) 这对数组表示用户 A 在 3月1号访问了数据 B 的 1月1号版本。
现在的问题是希望找到这些访问中的 "outlier"
有两种情况特别值得考虑：
1. 一个用户稳定地访问某数据的近期版本，譬如总是访问 2 周前的版本。但有一天突
然访问了半年前的版本；
2. 一个用户只放问某数据几次，而且访问日期相隔很远，毫无规律可言；
现在 outlier 的定义还没完全确定，尤其是第二种情况。譬如一个用户只访问了某数
据一次，是不是应该算 outlier。想找一下处理类似数据的资料。

发帖数: 1

来自主题: Programming版 - Outlier detection -- 什么数学模型合适这个问题

第一个肯定是outlier，你只需要找出用户访问时间和版本日期的correlation就可以判
定这是outlier
第二个看你自己定义了，如果没加任何filter，用一般的scoring来算肯定是outlier。
但是可能你加个group by user的话就不是了

s*******r
发帖数: 181

来自主题: Biology版 - How to define an outlier in statistical analysis?

For univariate, out of several SD (4, 5, or even 6) is outlier. For
multivariate, multi-dimension has to be considered. More importantly, you
can not simply delete outlier except you have strong reason to do so.
Normally, do analysis with and without outlier, and then compare to make
sure.

p*********8
发帖数: 1039

来自主题: Statistics版 - 问个outlier 和 sample size 的问题哈

如果sample size 非常大， outlier 就两，有必要删除outlier吗？
另外，如果用 jacknife residual 和 cook distance 得出的outlier或influential
points 不一样的话，是不是都要删除那些点呢？当然前提是可以删的话。

E**********e
发帖数: 1736

来自主题: Statistics版 - 做linear reg怎么去掉outlier？

就是R里面的boxplots（）啊。对每个predicator做个boxplot，然后删掉outliers，
可以用1.5~3 std，取决于你的samples size。你需要写个小程序来删掉这些
outliers。另一方法是regression啦，如果outlier是也就一两个的话，看看统计书。

n**********0
发帖数: 66

来自主题: Statistics版 - 做linear reg怎么去掉outlier？

我个人感觉如果不是分析着玩的，去掉outlier是比较危险的，至少应该分析with and
without outlier 然后看看这两个区别大不大，或者能给你一些信息告诉你是不是值得
去掉outlier

l*******e
发帖数: 3566

来自主题: _K12版 - 看完半本outliers以后的心得

容我后知后觉得问一句，是这本书吗？outliers:the story of success?
http://www.amazon.com/Outliers-Story-Success-Malcolm-Gladwell/dp/0316017922/ref=sr_1_1?ie=UTF8&s=books&qid=1270578626&sr=1-1
貌似还有中文版，异数，
http://www.amazon.com/Outliers-Success-Chinese-Malcolm-Gladwell/dp/9571349844/ref=sr_1_3?ie=UTF8&s=books&qid=1270578571&sr=1-3

f**r
发帖数: 865

来自主题: Parenting版 - 有人看过outliers 这本书吗？

我没看过，纯八卦一下。:-P
我在很多年前看过这个作者的畅销书《the tipping point》，里面对纽约九十年代犯
罪率急剧下降的这个事实提出了一个破窗理论（broken window theory)，说因为纽约
警察局大力整顿了市容，罪犯们看着环境那么整洁干净，就不好意思犯罪了。（这个后
来貌似被证伪了：http://www.smithsonianmag.com/smart-news/sorry-malcolm-gladwell-nycs-drop-in-crime-not-due-to-broken-window-theory-12636297/?no-ist）我不记得这个理论是不是作者的原创，但是比较确定的是：他在书里没有提到其他的可能性，感觉就是想出／听到了一个解释就毫不犹豫地接受了。
关于同一件事，我后来在《Freakonomics》里面看到了一个（我个人觉得最靠谱的）分
析，在陈列了各种可能的原因和相关的数据之后，提出是纽约在七十年代开始广泛允许
堕胎，导致强奸，低龄，吸毒这些类别的怀孕以堕胎结束，预测犯罪率最高的胎儿群体
根本就没有生下来。
最近在看《Think,... 阅读全帖

F******g
发帖数: 452

来自主题: WaterWorld版 - Outliers：吃米的人为啥聪明？

吃米人聪明的理论，Outliers是这么说的。
中国人，亚裔孩子数学好，聪明。为啥中国孩子数学好？啥解释？作者从二个方面论证。
第一：中国人的语言，适合学数学，因为发音短。看中美总统姓名就明白了。
咱国家总统，胡，一个字，二个字母。再看美国的总统，光姓就奥巴马，三个字，
Obama，五个字母。
咱国家总统middle name：锦，一个字，三个字母。美国总统middle name：胡赛因，
Hussein，三个字，七个字母。
咱总统名：涛，一个字，三个字母。美国总统名：巴拉克，三个字，Barack，六个字母。
不光咱总统姓名短，而且也有意义，胡锦涛。念着这名字，就是一幅画。再看美国总统
，把拉客胡赛因奥巴马，念完了，你眼前浮现出一团浆糊。
中国语言发音，不光有声调，天生音乐天才多，而且短小精悍，数学天才也多。大家知
道音乐和数学本来就是密切相关的（见，说书，莫扎特）。咱中国小 baby，12345，8
+ 9 = 11，5 x 7 = 25，只用几个简短的音节就倒背如流的，算出来了。中国语言，学
一个字，一个词汇，音乐，绘画，数学，一下就全都学了。相比之下，俄国人为啥数学
差？俄国话，... 阅读全帖

b*******g
发帖数: 2175

来自主题: Hubei版 - Outliers：吃米的人为啥聪明？

j*****g
发帖数: 222

来自主题: Statistics版 - 求教, clinical trial中如何处理missing value 和outlier

phase I dose range define
怎么处理missing value and outlier?
如果我用glm　model
难道missing value直接不管，outlier直接删除么？
谢谢啦！

d*********k
发帖数: 1239

来自主题: Statistics版 - time series的数据detect anomalies(outliers)?

如果有有两列数字，X，Y如果知道了他们的历史time series怎么去发现现在的
outliers？
我想用correlation去试一下，不过不知道怎么弄？大家还有别的什么方法么？
怎么用correlation去detect anomalies(outliers)?

l*****y
发帖数: 33

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

Do not just simply want to remove these outliers. Some outliers maybe
valuable for the business cases.

g****x
发帖数: 3862

来自主题: Parenting版 - 有人看过outliers 这本书吗？

最近在华人上看人家讨论上学早还是上学晚好，有人不理解不什么美国人大都晚上学，
有人说了一句话，原义是因为纽约的家长们都度过一本书叫outliers.
出于好奇，我去把这本书找来看看，中心思想就是成功往往是由一些智商之外你没看到
的东西决定的，这话虽然老套、但作者举出的例子对我来说很新颖独特，比如说上学
的cutoff date, 10,000hours, 等等。至少我看了就马上决定生日在cutoff 以后的女
儿就不要想着法早上学了。
我在班上搜了一下居然没找到这本书的讨论，
★ 发自iPhone App: ChineseWeb 8.7
★ 发自iPhone App: ChineseWeb 8.7
★ 发自iPhone App: ChineseWeb 8.7

z*****a
发帖数: 3809

来自主题: Parenting版 - 有人看过outliers 这本书吗？

I think you meant "Outliers: The Story of Success".

M***n
发帖数: 5815

来自主题: Stock版 - 比较几个用过的online brokers券商 - 作者 outlier (散客)

发信人: outlier (散客), 信区: Stock
标题: 比较几个用过的online brokers券商
发信站: BBS 未名空间站 (Mon Feb 16 12:00:53 2015, 美东)
重贴一个自己以前发的帖子，有更新。
==================
IB：手续费最低(股票$0.005/share，期权只收$0.70/contract，无base)，如选Cost
Plus计划，有时还有回扣。但有最低消费$10。今年开始每月收$10市场数据费, 无返
还。手续费不到$20期权数据另收$1.5。margin call非常严厉，当天收市前以市价强平
，没有宽限期。开户一万起。margin帐号低于两千不能交易。用户界面太复杂，需要熟
悉适应，做股权spread或多个leg很烦。编程高手可以用他家的API做程序交易。
TD Ameritrade: ThinkOrSwim (TOS)平台最强大最用户友好。分析作图有大量技术指标
，也可以自创指标。交易界面友好，特别适合复杂股权组合(尤其平仓时非常方便），
一旦用熟就离不开。目前是个人最爱。ThinkBack和OnD... 阅读全帖

j**4
发帖数: 10425

来自主题: NewYork版 - 因此既然这个法律是这样制定的，那就一定要fully pursuit这些outlier，让法律的初

因此既然这个法律是这样制定的，那就一定要fully pursuit这些outlier，让法律的初
衷得以体现
ever heard of NY state gun law. NY state gun law does not recognize out of
state gun license. so recently, a lot of tourists got arrested because they
carry a gun that is licensed in their home state. many of those tourists
are arrested when they tour WTC or empire state building, and tried to check
their gun at the security.
and guess what, i dont think any of them would do the any jail time!

e*******6
发帖数: 2239

来自主题: Henan版 - 给北美单身才女的几点参考 zt from Outlier (转载)

【以下文字转载自 Family 讨论区】
发信人: sunbeach (sunbeach), 信区: Family
标题: 给北美单身才女的几点参考 zt from Outlier
发信站: BBS 未名空间站 (Mon Feb 26 16:15:01 2007)
给北美单身才女的几点参考 2007-02-26 12:04:44
从没想到自己会写这么一篇文章，还真不是为了赚什么点击。一是我们发现在我们知道
的人中，包括亲人和好友，有那么许多能力相貌都很出众的女孩子，但都是单身，很多
甚至还没有男友。还有，在最近的一期 National Geographic Magazine 里看到一个有
意思的图，于是引出了一系列的想法。那就从这个图说起吧。
你猜猜美国单身男女择偶这个问题和密西西比河有什么关系？下面这个NGM的
visualization 就是答案。这个图是从 US Census Bureau 得来的。单身女性大多集中
在东面，尤其是NYC地区(对这，我是有第一手材料的)。而加州的单身男子大有盈余；
Seattle也是同样，应该和微软有关吧。密西西比河则成了一个很明显的分界

s******s
发帖数: 13035

来自主题: Biology版 - 请教:如何处理outlier data

你要是比较认真呢，就分析一下为啥会有这个outlier，
如果有个特别的原因，比如这个sample污染了等等，这个
时候才能扔。否则，我觉得比较好的方法就是不要用mean,
直接用median, test可能换成rank这一类non-parametric
如果随便混混paper的，自己定个rule, 比如10个数据，
3x std之外的就扔，consistent就行。
如果再随便，我见过三个数据eyeballing然后把不爽的扔掉的。。。。

D****9
发帖数: 10889

来自主题: Statistics版 - 求教, clinical trial中如何处理missing value 和outlier

同问。MISSING VALUE是不是需要用interpolation的方法给补上。 outlier的话是不是
先要算Cook’d distance什么的来判断是不是INFLUENTIAL CASES.

z*******m
发帖数: 1682

来自主题: Statistics版 - 请教outlier的influence check标准

老师说如果standardized DFBeta的value 大于1.5就可以考虑为outlier。这个value是
absolute value吗？
已经发信问老师了，但是周末恐怕不会回。多谢。

l******h
发帖数: 855

来自主题: Statistics版 - 问个outlier 和 sample size 的问题哈

我觉得如果sample size非常大的话，一般不会出现很明显的outlier了。如果在非常
大的observation中真的有这种情况的话，我认为可以删

l*********s
发帖数: 5409

来自主题: Statistics版 - 问个outlier 和 sample size 的问题哈

I think it shall be easier to find outliers in big sample.

d******o
发帖数: 59

来自主题: Statistics版 - 问个outlier 和 sample size 的问题哈

I think you should delete them, espeically,when the sample size is big.
When the sample size is small, it's harder to find outliers, since the
variance is big.

A*******s
发帖数: 3942

来自主题: Statistics版 - outlier detections

first, what kind of outliers is of interest? Is that just the extreme value?
or the case which can impact regression coefficients?

the

a******n
发帖数: 11246

来自主题: Statistics版 - 问一个简单的问题：一个data set有100个变量（列），每列有1000个观测值，怎么找每个变量里面的outlier？

值，怎么找每个变量里面的outlier？
用两个减号：第一个变量名--最后一个变量名
如：input Y X1 A2 B3 D;
......
model Y=X1--D;

d*********k
发帖数: 1239

来自主题: Statistics版 - anomaly 和 outlier有什么区别？定义是什么啊？

anomaly 和 outlier有什么区别？定义是什么啊？
想了很久还是想不明白，有没有这方面比较了解的同学啊？谢谢啦

r*****g
发帖数: 99

来自主题: Statistics版 - 求助简单SAS Code identify outlier

请问如何能够直接写Sas code identify 出 mean +/- 2 Standard deviation之外的
outlier?
我的笨方法是proc univariate 求出mean and SD 然后列出式子算，但是想看的
variable太多，这种方法比较笨，所以特此请教。

c********h
发帖数: 330

来自主题: Statistics版 - about outlier identification

I remember there is an outlier test in linear regression. Basically, you
want to look at whether deleting one instance changes the coefficients
dramatically or not. Cook's distance may also be relevant here.
But your sample size is toooooo small, 18? I don't think deleting any sample
is a good strategy...

r*****t
发帖数: 91

来自主题: Statistics版 - 【求帮助】能否帮我下这个paper: Multiple outlier detection in multivariate data using self-organizing maps title

Multiple outlier detection in multivariate data using self-organizing maps
title
Computational Statistics
June 2005, Volume 20, Issue 2, pp 245-264
信箱：c*************[email protected]
非常感谢！！！

t*****w
发帖数: 254

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

do you think those outliers are reproducible?

a********e
发帖数: 78

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

Yes, they are reproducible.
The total data set has about 300 records, the outlier set has about 20
records.

t*****w
发帖数: 254

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

do you think those outliers are reproducible?

a********e
发帖数: 78

来自主题: Statistics版 - 建模过程中对于outlier的处理问题

Yes, they are reproducible.
The total data set has about 300 records, the outlier set has about 20
records.

E**********e
发帖数: 1736

来自主题: Statistics版 - 做linear reg怎么去掉outlier？

做个boxplot，可以删掉2个std外的data point，如果样品size大的话。也可以
linear regression后算cook distanc是么的。翻下统计regression基本手册。至于理
论上是么说法吗，就是用来扯的。只要解决问题，睡care理论怎么说啊。 outliers
大都就是用来删的。
。

d********t
发帖数: 9628

来自主题: Statistics版 - 做linear reg怎么去掉outlier？

啥叫boxplot？
就是沿着regression的那条线平行两个error的std吗？
谢了！

outliers

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天