p********a 发帖数: 5352 | 1 ☆─────────────────────────────────────☆
jhsph07 (银杏) 于 (Wed Feb 24 14:47:45 2010, 美东) 提到:
http://www.flcdatacenter.com/CasePerm.aspx
排除了个别小时工
Year 2008:
The UNIVARIATE Procedure
Variable: WAGE_OFFER_FROM
Quantiles (Definition 5)
Quantile Estimate
100% Max 175000.0
99% 140000.0
95% 118080.0
90% 104467.0
75% Q3 90000.0
50% Median 74370.0
25% Q1 60500.0
10% 53000.0
5% 46057.4
1% 38303.0
0 |
|
p********r 发帖数: 1465 | 2 for (i in 1:1000){
...
write.table(a, file = "",quote=FALSE,append=TRUE,row.names=FALSE,col.names=
FALSE)
}
quantile(a,0.975)
quantile(a,0.025) |
|
p********r 发帖数: 1465 | 3 write.table(c,"")
for (i in 1:1000){
a <- matrix(rnorm(5,0,1),nrow=1,ncol=5)
b <- matrix(1:5)
c <- a %*% b
write.table(c, file = "",quote=FALSE,append=TRUE,row.names=FALSE,col.names=
FALSE)
}
test <- read.table("", header=T)
c <- test$c
quantile(c,0.975)
quantile(c,0.025) |
|
p********r 发帖数: 1465 | 4 bs <- NULL
for (i in 1:5){
a <- matrix(rnorm(5,0,1),nrow=1,ncol=5)
b <- matrix(1:5)
c[i] <- a %*% b}
for (i in 1:1000){
bs.sample <- sample(c, length(c), replace=TRUE)
bs[i] <- median(bs.sample, na.rm=TRUE)
}
quantile(bs,0.975)
quantile(bs,0.025) |
|
|
s*****n 发帖数: 2174 | 6 如果strategy必须提前定好, 那么:
根据最大似然原则, 最大的10个顺序统计量是均匀分布。
每个箱子会分到一个, 肯定是每个箱子里面选最大的。
严格证明估计并不容易, 结论倒是直观。
如果strategy并不一定提前定好, 而是可以随机应变, 那么直观上, 可能存在更好
的办法。
比如说第一个箱子, 由于10件古董是100件古董里面的”均匀“分布, 可以提供整体
100件古董价值的range信息。 这些信息, 可能对后面的箱子有指导作用。 如果第m个
箱子里面的最大值, 低于前面总体的某个quantile就不拿, 如果第m个箱子里面的几
个物品都超过前面总体的某个quantile, 就拿多个。 这个感觉就成了动态规划的问题
了。 |
|
s****y 发帖数: 297 | 7 一数据,一列是各values, 另一列是这些values的frequency, 怎样才能对这些
values求quantile呢?
比如,
values Frequency
0.2 4
0.3 0
0.4 8
。 。
。 。
。 。
第二列表示数据中有4 个0.2, 0个0.3, 8个0.4 ,等等。。。
我需要求这些数的quantile,R里面有什么简便的方法吗?
谢谢了!!!
另外,这些技巧什么的可以在哪里学到呢?有没有高手给推荐本书啥的?
有的时候不知道技巧的关键字,搜索的结果都不是很理想。。。 |
|
r********n 发帖数: 6979 | 8 就像你说的
如果我有一种分类方法
可以把top quantile和bottom quantile分离出来
那这个分类方法就是一个好的分类方法
当然实际上
分类的方法当然不是象你说的用rank这么简单
因为这个给的这组数据其实相当于ground truth
分类方法本身是看不到的
分类方法用的是别的数据得到这个分类的
我又想这个问题
基本上是在test这么一个hypothesis
当p<<0.05的时候, 两个不同的pvalue实际上有多大区别
如果可以设计这么一个对应的statistics
那基本就是看pvalue of pvalues是不是significant
看起来好像没有这么一个test。。。
不过实际上
当pvalue这么小的时候
可能像你说的
test本身的性质可能更重要了
要是test本身的一些assumption没有满足的话
导致的区别可能要比pvalue从0.000001变到0.00001的影响要大的多
top |
|
|
p*******s 发帖数: 6 | 10 这个study 比较特殊,n 个case (n<10) , k 个 rater (k>100.)
根据下面这篇文章算icc(3,1). http://www.na-mic.org/Wiki/images/4/4b/Shrout_and_fleiss_ICC.pdf
结果icc(3,1)=0.52,但confidence interval=(-0.004,0.032).
我的计算ci 的code如下(参见文章424页左下角,icc(3,1)的计算参见文章423页右
下角):
ratio= bms/ems;
f= probf(ratio,(n-1),(n-1)*(k-1));
f975f8= quantile('F',.975,(n-1),(n-1)*(k-1));
f975f9= quantile('F',.975,(n-1)*(k-1),(n-1));
fl= f/f975f8;
fu= f*f975f9;
c31l= (fl-1)/(fl+(k-1));
c31u= (fu-1)/(fu+(k-1));
我的code错了吗?还是我的st... 阅读全帖 |
|
c********h 发帖数: 330 | 11 I think at least iid samples where some clt can apply.
If it is normal, use t quantiles. Otherwise, use large sample property and
use normal quantiles. |
|
g******2 发帖数: 234 | 12 1. do you know the initial position of each particle of A?
2. The probability formula you provided is not probability, but a density.
If you calculate probability, the probability for any given one pair to be
annihilated is always less than 0.5. The probability for an A particle to be
annihilated with any B particle is probably the right probability you want
to consider, in which case you should use the formula I wrote above.
3. I think my suggestion above should be valid, either use a random
su... 阅读全帖 |
|
o*******w 发帖数: 349 | 13 你的问题不是sampling问题,查”quantile", "empiric distribution" 没有用。请参
见在数学版不才的进一步表述。
quantiles. |
|
c****t 发帖数: 19049 | 14 【 以下文字转载自 NewYork 讨论区 】
发信人: Vesper8 (天使在人间), 信区: NewYork
标 题: 今天看到的 - 你有进华尔街的资格吗?
发信站: BBS 未名空间站 (Thu Dec 19 19:10:26 2013, 美东)
很多天过去,当我回想起来这噩梦般的6个小时,都依然觉得神情恍惚,无法思考。
一个很平凡的下午,收到Morgan Stanley邮件说,Quantitative Finance Program希望
你来跟我们Securitized Product Group的一个Manager进行一个on-site interview.
于是我来美的处女面就华丽地献给了华尔街最quant的一个公司的最quant的一个组的一
个大boss。
其实on site一面的时候,与Managing director相谈甚欢,给MD发follow up邮件,回
信热情洋溢,最后说I look forward to coming back to you with next steps.
回想起来,MD的问题确实是很简单的,只问到了fixed income和比较基... 阅读全帖 |
|
P****i 发帖数: 1362 | 15 老邢的钻风抄也不认真点;原帖有两图的,另一幅是地图,每个州上标了99%quantile(前1
%的人的最低年收入),在东北部的州都五六十万。这个表是中位数,超过和低于这个收
入的人各一半 |
|
D******n 发帖数: 2965 | 16 什么是average top 50%, average bottom 50%?虚心请教。
欧知道什么是quantile,median, 但还是第一次听说average top 50%? |
|
h***y 发帖数: 4936 | 17 你大学上的统计课是什么类型的课,专业课还是大课?不管哪个,不教quantile都有点
匪夷所思。你还能回忆下当年都学了些什么吗? |
|
h***y 发帖数: 4936 | 18 可以再多公布些quantile,比如广东就公布了收入最低的20%城镇居民的可支配收入。 |
|
g*******i 发帖数: 258 | 19 以下就用簡單圖表做為回覆
https://www.allianz.com/v_1380187782000/media/economic_research/publications
/specials/en/AGWR2013e.pdf
見 p114 and p115
根據 Allianz Global Wealth Report 2013
人均財務淨資產(net per capita financial assets)
台灣是52個表列國家中最高梯隊
與瑞士、美國、日本、比利時、荷蘭、加拿大、新加坡、英國、澳大利亞
同處前20% quantile
以歐元計價
台灣2012的人均財務淨資產是65,076歐元
於52個國家中排名第八
僅次於瑞士、美國、日本、比利時、荷蘭、加拿大、新加坡
同樣的報告裡
南韓的人均財務淨資產僅有19,181歐元
看遍各種家庭財富的報告 包括
BCG Global Wealth 2012: The Battle to Regain Strength
與瑞士信貸的2013報告
你可以發現亞洲國家裡
台灣與日本新加坡是前三名
比之於歐美毫不遜色
希望這結果能回答到你"... 阅读全帖 |
|
|
n*******n 发帖数: 407 | 21 Dispersive order: Let X and Y be random variables with quantile functions F-
1 and G-1 respectively. If F-1(b)- F-1(a) <= G-1(b)- G-1(a) whenever 0
< 1; then X is said to be smaller than Y in the dispersive order. |
|
d****o 发帖数: 32610 | 22 这些看quantile分布就行了
不用发明新统计量 |
|
Y****a 发帖数: 17170 | 23 截止5月22号收盘,过去12个月,沪深A股
Top 25% quantile的涨幅为237%
中位数为 157%
bottom 25% 为 105%
看看自己的收益为多少?在哪个区间? |
|
m*****b 发帖数: 13 | 24 QUANTIL is a startup company located in the heart of Silicon Valley. We are
100% funded by ChinaNetCenter (网宿科技). We are growing fast and looking
for smart and energetic you to join us. We offer competitive salaries, as
well as stock options, medical insurance, 401K and etc. Please see our JD
below:
职位要求:
• 计算机/电子工程学或相关专业
• 擅长Java 或C/C++ 编程,熟悉网络及TCP/IP
• 熟悉Linux ,以及基本Shell编程
• 乐观积极进取,富有动手精神,注重细节,具有团队合作意识
• 良好的双语(中英文)沟通能力
• 有虚拟设备经验,如存储,网络... 阅读全帖 |
|
|
hs 发帖数: 1549 | 26 二手交易风险自负!请自行验证是否合法和一手卡!:
我想卖的物品:
Lowes Lowe's $25 quantile as title @0.9
单张面值:
25
可接受价格(必须明码标价!):
0.9
物品新旧要求:
new
邮寄方式要求:
YL or code
买卖双方谁承担邮寄损失(Required if not code only):
BMAY
付款方式说明:
BoA/ING/Chase/billpay for old id
其他补充说明:
广告的有效期:
Till gone
物品来源(Required for All Cards!):
program
我的联系方式:
pm
Warranty期限:
能否证明是合法的一手卡?(Required for All Cards!):
y
state and zip: |
|
g**e 发帖数: 6127 | 27 如果是O(n) time, O(n) space的解法,就是最后类似quick sort找前k个数稍微麻烦点
如果是超级海量数据,就只能根据统计sampling若干页数据,得到一个quantile
求O(n) time, O(1) space解法 |
|
m********l 发帖数: 4394 | 28 啊?
不就是median of median? |
|
|
m********l 发帖数: 4394 | 30
你用啥语言?
f的parameter type 是啥? |
|
O******n 发帖数: 1505 | 31 get median of array
scan all entries below median to form a new array
get median of new array
right? |
|
r*******y 发帖数: 1081 | 32 How can f take O(n) time to find the median ? |
|
|
|
r*******y 发帖数: 1081 | 35 more details or link ? thanks |
|
|
m****i 发帖数: 650 | 37 quick sort to find the nth element in an array in O(n). Check the hack
google interview from MIT |
|
d********i 发帖数: 363 | 38 二面完了,抽点小空写下总结。
网上好像找不到很多这个职位的面试信息,给后来人参考下。
前两面基本是技术面。
问简历+编程。
简历基本就是问做过的projects。所以对自己简历一定要熟悉,interview前最好能自
己先过自己这关,想象面试问题,自己回答。我的第一个interview前,排练了好几遍
,project的问题答得不错。第二个interview,没啥排练,对方问了个easy question(
你最喜欢的project是哪个,介绍下)结果语速慢了。
编程的话,共三个(本人统计背景,编程用R)
1.给几个元素在一个集里,要得到所有的子集。(这个除了用recursion,我实在想不
出其他,但是好像不是他们需要的答案。)
2.查找出一个名单中所有有重复的名字。
3.如果仓库没货,如果估算送货时间。(根据他们给的历史数据,我直接用了75%
quantile)
4.掷骰子的概率计算。(这个手算,不需要编程)
另外,面试官都很nice,过程中有想不出来的一直鼓励我。
希望对大家有帮助。 |
|
j********e 发帖数: 1192 | 39 有proximation算法,我大概记得的一个算法是:
每来一个数据D,跟当前的median比较,如果D大,那么就增加median,
否则就减少median。那这个增加和减少的step有多种选法,例如
a const small number,或者根据数据的variance,或者density estimation
等。我记得能保证这样的得到的数的expectation是median,而且可以
用于任何quantile (例如75-percentile). |
|
b*****o 发帖数: 715 | 40 对于one pass算法,
(1)要求exact median, 可以证明内存需要至少是N/2。
(2)如果允许用随机算法,对于内存量是s,可以先用reservoir sampling采样出s个
sample,然后在对这s个数求median。你可以用概率公式算一下误差。
(3)如果允许approximate median,可以把内存量减少到(log(N))^2。大致想法是把
已经扫描过的数作类似quantization的压缩:对于长度为s的buffer,每个元素不但存一
个value(i),而且还存一个weight(i)。所有的weight加起来就是目前扫描过的数的总数
。算法的关键是要保证:在任何时刻,如果把value(i)重复weight(i)次,然后把所有这
样重复出来的数组成一个stream,用它来计算median,和用原数组计算median,能大致
相当
。细节可参看以下paper:
http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pd |
|
b*****o 发帖数: 715 | 41 Hadoop和machine learning是两回事呀。
大多数的machine learning,其复杂度都是不能在mapreduce的框架里跑的。
要做data scientist,cs方面需要的data management的背景,而统计需要的是一些比
较实际的common sense,比如提出某种有用的metric(feature extraction)。正真的分
类算法,很多时候logistic regression就够了。
除非你是申请research lab,不然Machine learning最多只是算锦上添花的,而不是主
要考察的能力。
对于面试来说,知道下面这些是最基本的:
在mapreduce的框架下,count(), sample(), unique(),quantile()如何实现;数据库
join操作是怎么实现的。 |
|
I*****a 发帖数: 5425 | 42 你看这里面“爱尔兰第一名,印度99.95% quantile 跟你比,谁更impressive ? ”
这种打击,不是9 个小时能比得了的啊。。 |
|
|
m******t 发帖数: 273 | 44 【 以下文字转载自 Quant 讨论区 】
发信人: myregmit (myregmit), 信区: Quant
标 题: how to do data fitting to find distribution
发信站: BBS 未名空间站 (Sat Mar 15 11:02:05 2014, 美东)
Hi,
I need to do data fitting to find the distribution of a given data.
I need to find the pdf funtion of the distribution.
I can use data fitting functions in matlab and python.
It looks like a truncated gamma.
But, how to find the paramters of the distribution ?
What if the data cannot fit the truncated gamma well ?
The QQ-plot (qunatile-qua... 阅读全帖 |
|
p******x 发帖数: 441 | 45
small
是啊,ridge regression其实就是修改OLS的规则,本来是只要norm(y-y_hat)最小,现
在满足这个的无穷多个,所以再加上其他standard或者penality term来限制b_hat,比如
norm(y-y_hat)+norm (T b_hat)最小就行了。又有什么contrained LS。再推广也可
以weighted,就是a norm(y-y_hat)+(1-a)norm (T b_hat)最小。
其实先不说T的取法,光这个norm的取法就有很多其他处理方法,L_1,L_2,L_
infinity, Lasso啥的,真要深入起来就是无底洞。计算数学光解决inverse of
singular matrix就是一大块。
还有人研究什么也不修正,直接做的。好像还有干脆用quantile regression的,我也
不懂。总之就是这个就是无底洞。
我其实就是想吐槽一下,每个phd哪怕是professor,scope都是有限的,很多自己觉得
简单的不值一提的问题,去听个seminar往往会发现原来居然是个大坑。理科男phd很多
口语又不好,你一笑... 阅读全帖 |
|
发帖数: 1 | 46 有个叫QUANTIL的给我的project 是一个礼拜才能做完的,牛的不行。我去LCA看他们在
湾区的base才 8万,我没做project,一个礼拜后找到了远高于8万的工作。
: code chanlleng的确坑人,前一段做过一个tesla的chat system,花了我
: 一天多。结果电面都特么没过,擦,真是浪费时间!一道coding题算法没问题,
: 该写的都写了,对方也认可。然后非要写个parser处理一下输入,里面一堆的
: url需要parse出来。后来反馈说我在这个trivial的code上struggle,我也得
: 先弄明白这些输入是个什么模式吧!气得我立刻就跟另一家需要写code的公司说
我不面
: 了。他们的code challenge要求更多。
|
|
|
m*****b 发帖数: 13 | 48 QUANTIL is a startup company located in the heart of Silicon Valley. We are
100% funded by ChinaNetCenter (网宿科技). We are growing fast and looking
for smart and energetic you to join us. We offer competitive salaries, as
well as stock options, medical insurance, 401K and etc. Please see our JD
below:
职位要求:
• 计算机/电子工程学或相关专业
• 擅长Java 或C/C++ 编程,熟悉网络及TCP/IP
• 熟悉Linux ,以及基本Shell编程
• 乐观积极进取,富有动手精神,注重细节,具有团队合作意识
• 良好的双语(中英文)沟通能力
• 有虚拟设备经验,如存储,网络... 阅读全帖 |
|
m*****b 发帖数: 13 | 49 We are a fast-growing internet service based company. We have multiple
openings in R&D, Sales and Operations. Please check out the positions:
https://www.quantil.com/careers/
Send your resumes to [email protected]
/* */ |
|
m*****b 发帖数: 13 | 50 Send your resumes to [email protected]
/* */
Location: Santa Clara (Silicon Valley)and Pasadena.
Title: Software/Network Engineer, Technician, Accounting, R&D. All full-
time.
Level: Mid-Level for fresh graduates or people with experience
Compensation: Competitive
Visa Sponsorship: We sponsor H1B visa and green card.
Check out the JDs at:
https://www.quantil.com/careers/ |
|