e*******s 发帖数: 1979 | 1 看来还是要先问数据分布
如果没要求 就自己把可能的都列出来
然后说什么样的数据有什么方法 应该就没漏洞了 |
|
b****r 发帖数: 252 | 2 挺好,你的确懂一些数据,跟你讨论真比那个只会放P的小丑强。
既然你提到分布的问题,那我就告诉你,3670里面至少有2829个PD在2009年11月前:数
据显示截止2009年11月E3中国有7122库存,09、10、11、12批准的AOS分别是261、2911
、1088、1022,共4293,也就是7122中还剩下2829没批,包括在现在3670里。但这种估
计过于乐观,因为把所有非EW的CP都算作E3了,而实际上这里面还包括一些本来的AOS。
就算是2829,你可以算算,假设AOS一个没有,2500配额里除去500个EW,这2000名额也
要吃一年半才能清空2009年以前的E3。当然了,还是哪句话,AOS远不是一个没有。 |
|
b****r 发帖数: 252 | 3 挺好,你的确懂一些数据,跟你讨论真比那个只会放P的小丑强。
既然你提到分布的问题,那我就告诉你,3670里面至少有2829个PD在2009年11月前:数
据显示截止2009年11月E3中国有7122库存,09、10、11、12批准的AOS分别是261、2911
、1088、1022,共4293,也就是7122中还剩下2829没批,包括在现在3670里。但这种估
计过于乐观,因为把所有非EW的CP都算作E3了,而实际上这里面还包括一些本来的AOS。
就算是2829,你可以算算,假设AOS一个没有,2500配额里除去500个EW,这2000名额也
要吃一年半才能清空2009年以前的E3。当然了,还是哪句话,AOS远不是一个没有。 |
|
h*y 发帖数: 1289 | 4 EB2经过多轮的大进,倒退,再进,再退,特别是几轮降级之后,inventory已经完全没
有可信度。
EB3跟EB2不同的地方在于,数据相对较清楚,特别是根据相邻inventory的变化可以推
断出EB3大致的交表量,这其中当然包括降级的。
换句话说,EB3和EB2是两个完全不同的样本空间,完全不同的数据分布,EB3不能直接
套用EB2得出的结论。
回到楼主的问题,14年12月的PD,14年10月前的3类能交的这几个月都交了,能降级的
也都降了,暂时因为换工作不能交表降级的,奥本看不见,自然也不会在他的考虑范围
之内。那么他只能通过这几个月的趋势来定排期。
现在的趋势是什么,今年10月一排回14年10月。这是他自己说的,虽然有自己打脸的可
能性,但我们暂时可以相信的。毕竟他今年早些时候说的也都超额完成任务。一排回10
月意味着二排必然大于10月。
那么问题就是二排会定在哪儿。像现在这样直接到15年9月?经过去年的大开大阖,我
们不奢望。我们可以参考上个财年的情况。上个财年2类一排倒退前最多到了12年9月,
三类到13年8月。这个财年初二排被定在13年3月和14年5月,都超过了半年的跨度... 阅读全帖 |
|
b********o 发帖数: 2 | 5 工作地点是三番办公室。内推以下职位,这次主要是要有工作经验的。条件好的
PHD并有国内工作经验的也可以考虑。感兴趣的同学
,请将简历的文本用googledrive或dropbox share给我的站内信箱,谢谢请在邮件标题
注明申请职位及姓名。谢谢。
数据科学家
最好有以下经验statistical programming, machine learning,
and use of modern big data systems like Hadoop.
基本要求
2 年相关工作经验,
Hadoop, Map/Reduce and NoSQL databases
可以使用Matlab, R or similar tool
Classifiers, Maximum Likelihood Estimation, Probabilistic
Graphical Models
熟练使用 Python or Go
学历
MS or Ph.D. in Data Mining, Machine Learning, Statistics, Operations
Location Based Searc... 阅读全帖 |
|
h******g 发帖数: 18 | 6 这个是该 zipcode 总人数. 数据来源是 usa.com. 应该是2014 人口普查数据。 |
|
e******g 发帖数: 91 | 7 学习学区中,和板上同学共享。
参考了学区网上今年的小学enrollment 情况, 是这样的:
Ardmore: enrollment 343, Asian 22%;
Bennett: enrollment 477, Asian 38%;
Cherry Crest: enrollment 573, Asian 49%;
ClydeHill:enrollment 663, Asian 38%
East Gate: enrollment 442, Asian 31%
Enatai: enrollment 544, Asian 26%
Lake Hill: enrollment 485, Asian 18%
Medina: enrollment 554, Asian 39%
Newport Heights: enrollment 622, Asian 32%
Phantom Lake: enrollment 322, Asian 18%
Sherwood Forest: enrollment 429, Asian 22%
Somerset: enrollment 709, Asian 66%... 阅读全帖 |
|
e******g 发帖数: 91 | 8 学习学区中,和板上同学共享。
参考了学区网上今年的小学enrollment 情况, 是这样的:
Ardmore: enrollment 343, Asian 22%;
Bennett: enrollment 477, Asian 38%;
Cherry Crest: enrollment 573, Asian 49%;
ClydeHill:enrollment 663, Asian 38%
East Gate: enrollment 442, Asian 31%
Enatai: enrollment 544, Asian 26%
Lake Hill: enrollment 485, Asian 18%
Medina: enrollment 554, Asian 39%
Newport Heights: enrollment 622, Asian 32%
Phantom Lake: enrollment 322, Asian 18%
Sherwood Forest: enrollment 429, Asian 22%
Somerset: enrollment 709, Asian 66%... 阅读全帖 |
|
f**********n 发帖数: 10757 | 9 我就是觉得,他那个赛程,那个数据,如果不是考虑他做了几次手术的话,没有那么稀
奇,所以应该给他come back player of year,AP的数据和球队成绩,1898yards,关键
这个6.0yards/carry,不管是不是有过大Injury,都是相当相当Impressive。我个人觉
得Not even close,要是给PM MVP,那 AR,TB都可以拿MVP了,PM比AR,TB牛逼一点的
地方,是他刚刚做了几个手术。 |
|
U*S 发帖数: 4914 | 10 PM跟AR,TB相比数据不输,成绩不输,QBR是更胜一筹,又是伤后归来,理应比他们两个
更应该得MVP;AP的数据也很好,可惜球队成绩上稍逊,毕竟QB才是球队的领袖,对吧
。其实对白菜来说,再拿SB是最重要的事情,这些MVP,COME BACK PALYER OF YEAR都是
浮云。顺手捞了就捞了,没有也无所谓。 |
|
l****e 发帖数: 1718 | 11 you are funny, what do you mean 他那个数据??也许对他来说不稀奇,你叫其他人
打出来看看。。他的QBR还是联盟第一呢,如果他是烂数据,那其他人算什么了 |
|
G**T 发帖数: 2610 | 12
赞悟性。
it is the same pattern of human knowledge acquisition and application, 应用
在不同的scale或层面上。
但从最general/abstract的层面(比如,哲学、宗教、科学的一些基本beliefs),到最
具体的层面(比如,统计上的bootstrapping,比如太阳每天从东边出来,比如手伸到
开水里会烫伤), 这个pattern是一样的:
通过观察、总结,发现规律(induction)
应用规律for the benefit of self (deduction).
区别,只是对那个规律的表述的explicit的程度不同--有时候很具体,比如各种科学
定律; 有时候很含糊: 比如好人有好报; 有时候在中间 --- 比如统计方法: 能
得到很多离散的数据分布规律,但没法得到解析表达式。在计算能力强大的时候,数据
体现的规律也能用来做deduction,应用。
It is fun to solve a problem, as always. and often it is also profitable... 阅读全帖 |
|
G**T 发帖数: 2610 | 13
赞悟性。
it is the same pattern of human knowledge acquisition and application, 应用
在不同的scale或层面上。
但从最general/abstract的层面(比如,哲学、宗教、科学的一些基本beliefs),到最
具体的层面(比如,统计上的bootstrapping,比如太阳每天从东边出来,比如手伸到
开水里会烫伤), 这个pattern是一样的:
通过观察、总结,发现规律(induction)
应用规律for the benefit of self (deduction).
区别,只是对那个规律的表述的explicit的程度不同--有时候很具体,比如各种科学
定律; 有时候很含糊: 比如好人有好报; 有时候在中间 --- 比如统计方法: 能
得到很多离散的数据分布规律,但没法得到解析表达式。在计算能力强大的时候,数据
体现的规律也能用来做deduction,应用。
It is fun to solve a problem, as always. and often it is also profitable... 阅读全帖 |
|
j*********n 发帖数: 6034 | 14 【 以下文字转载自 Military 讨论区 】
发信人: tgbrfv (cn), 信区: Military
标 题: Re: 数据显示加拿大华人收入低于白人后,加拿大的改口比生活质
发信站: BBS 未名空间站 (Mon Nov 11 14:53:37 2013, 美东)
加拿大华人有的经营农场
有的当导游
有的驾驶飞机
有的经营房地产
有的当演员
遍布社会各个领域
不像美国屌丝85%都是马公
一颗树上吊死
畸形分布
钱多了5块钱一小时
人变得猥琐畸形不堪
马公在美国还是加拿大
都不是褒意词
所以除了老中阿三也没几个人去读 |
|
z***i 发帖数: 8285 | 15 印象中加拿大华人过得挺自在的,咱版有没?
【 以下文字转载自 Military 讨论区 】
发信人: tgbrfv (cn), 信区: Military
标 题: Re: 数据显示加拿大华人收入低于白人后,加拿大的改口比生活质
发信站: BBS 未名空间站 (Mon Nov 11 14:53:37 2013, 美东)
加拿大华人有的经营农场
有的当导游
有的驾驶飞机
有的经营房地产
有的当演员
遍布社会各个领域
不像美国屌丝85%都是马公
一颗树上吊死
畸形分布
钱多了5块钱一小时
人变得猥琐畸形不堪
马公在美国还是加拿大
都不是褒意词
所以除了老中阿三也没几个人去读 |
|
z********o 发帖数: 18304 | 16
下面这些数据,你有什么看法?
美国一般民众当中,信基督教的占总人口的比例大约是80%。
根据《科学美国》杂志1999年9月份的杂志发表的报告:在拥有学士学位以上的科学工
作者群体中,信基督教的比例大幅下降到了40%。
在优秀的(eminent)科学家群体中,信基督教的比例更是大幅下滑到了10%。
根据最权威的科学杂志之一的《自然》杂志发表的报告(Nature, 394(6691):313, 23
July 1998),美国科学院院士中,信“神”的比例更低,只有7%。
我在上面引用的这些数据,来源都是公信力和权威性很高的杂志。具体的期刊号我给出
来了。欢迎大家查证! |
|
w********h 发帖数: 12367 | 17 哈哈,不要被数据打脸后气成这样啊。
你搜索下,我老人家第一时间转的东西多得很。
不劳你广播,每年申请材料专门指名到我组的学生多得很,
你这种在数据和事实面前不低头、嘴硬的,是不够格的。。。 |
|
w********h 发帖数: 12367 | 18 你喜欢排名或者质疑排名你去找武书连去,
他一定有自己的大数据。
什么王牌之类的东西,我老真的不感兴趣了,太幼稚。
就如同小孩子那自己得意的玩具比谁大。
网上都是有数据的,自己去找吧。
//你可以把华理从那个一流榜剔出,
可是同济还是进不了啊,这是我的错嘛我的错嘛。。。。 |
|
w********h 发帖数: 12367 | 19 我一开始回帖的态度也是基于你的态度。
不分青红皂白就说一个基准于数据的排行是joke,
不是实事求是的态度。
你可以说武书连的数据取舍、权重有问题,
但不能说只要他的排行有不合你甚至大众口味的东西,
就完全没有道理。 |
|
w********h 发帖数: 12367 | 20 你觉得不靠谱可以用事实和数据证明你所说的那些学校比进榜的那些学校好、也去专门
成立一个研究所去搞排名啊。。。
现在不像以往,大数据随处可查,我们不可随便相信主观印象,quantification很重要
。。。。华东理工是什么样,估计你也不甚清楚,去过么? |
|
w********h 发帖数: 12367 | 21 我给你评点下你说话缺乏论据的地方:
(1)你校严词拒绝,你看到了?华理捐点了,你也看到了?
华理捐了的话,就排35? 那些基准于获奖的数据也是华理捐出来的?
(2)我哪句话说华理一流了哪句话说华理比这个学校那个学校好了?
非但没有,还笑话12年入选的时候学校还真当回事.
而且,在我眼里,只有"当地最好",不能随便说什么一流,
不仅华理在诺贝尔科学奖这个标准上是零蛋,其他的中国学校也是零蛋吧.
(3)丑事到处都是,我懒得说同济的以及其他我所耳闻目睹的那些而已,
但丑事和是不是好学校一定相关么? think twice
(4)我上个贴子以及前面说遇见的天大的毕业生,
只是我见到的有限的数据,不代表整体,更不代表学校也象那个学生一样烂.
你说的,也是你见过的,我不否认啊,你也不用否认我眼中的事实.
(5)和别人辩论要知道别人在说什么,否则我真的不知道该怎么回你.
比如说,"你可以歧视他校,特别是在自身出身学校并不强的情况下。
而且,整天生活在自己虚幻的设想里是一件很悲哀的事",
这就是你阅读贴子的结论?请举出我"歧视他校"的证据。
假设你说的"虚幻的设想"是说我"在自身出身学校并不强"但幻想... 阅读全帖 |
|
|
n**x 发帖数: 606 | 23 还是那句话,我谁的臭脚也不捧,只是看到这里没有一个人愿意写几行代码测一下。
我提供数据,大家参考一下。 所以不要再说谁捧谁的臭脚了啊。
问题:
古德霸的反例但凡计算机出身的都看得懂。说白了就是在multi-threading的环境下的
顺序问题。
模拟场景:
- 我的机器12 core,我就听大家的用12个线程。
- 每个线程处理1M请求,total 12M的请求平均分布在12个线程上。
- 1000趟车,每趟20个区段,每个区段1000张票。
算法采用老魏的算法,锁区段,不锁线路。 (所谓锁区段也就是interlocked加减)
测试结果(都是平均值)
- 成功出票2M
- 无票可出10M (看完再下结论)
- 抢票过程如果失败Re-Try一次,结果又大约10个请求Re-try成功。
- 全部请求走完后,把所有失败的请求在处理一边,还是没有票。(这个很重要)
结论:
- 古德霸的a->b的反例属于re-try可以成功的例子。 如果retry不成功,那么基本就没
有满足条件的票了。
后续:
性能问题我的场景还不够真实,等我测完后在update. |
|
L*****e 发帖数: 8347 | 24 如果根据以往数据,更靠谱的是中间站预留少数票,大大简化分座方案。。。
anyway,耦合数据分布处理要达到你们说的100%无错原则,不敢说将来是不是一定能做
到,
起码今天的技术做不到。。。 |
|
l*******s 发帖数: 1258 | 25 这个domain knowledge不吃香 这结论咋的出来的?
后面列举的这些 似乎跟domain knowledge没啥关系。
退一步讲,张simon,老中director,说fire就fire。要是没有若干年的domain
knowledge,他们连这个位子都做不上去。如果你是个VP,你招个做credit card的
director,你会去找个只有广告市场经验的DS吗?显然不会。
至于刚毕业的DS,去google,做草榴啥的。数据啊,分布啊,同学,这种情况人群里有
几个?太特例了。
再退一步,人家13年经验的DS,就不会去google,就不会去做草榴了?只会做得更好而
已。
关于张simon,是挺牛,但是啊,眼界要放宽,不要光看着IT领域,其他行业,手下管
100人的老中,相当不少,我就认识若干,保险、金融、创业、IT、咨询、医疗,什么
行业都有。
不用看老板脸色,自己独立干,其实经验更重要。你去拉客户,人家客户一看3年经验
和13年经验,更相信谁?再有,3年经验那个,可能都不知道如何搞清楚客户的真正需
求在那里。 |
|
n******7 发帖数: 12463 | 26 有一些指标对data的分布不是很敏感
比如MCC,F-score, BER 等
率/ |
|
w********m 发帖数: 1137 | 27 大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。 |
|
w********m 发帖数: 1137 | 28 大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。 |
|
i*******e 发帖数: 242 | 29 谢谢各位回复
我同意对R1做regression可能是绕弯,R1 prediction再cut成R2 做出来error更大(>1
)。我之所以开始想R1也是搞R2时各种classifier的cross validation accuracy 都才0
.5左右,mean error差不多0.6. 我就琢磨能不能借助R1来train model。
对于数据分布我也提到是left-skewed的,所以0-0.5的数据很少,但是0很突兀很多。
现在的问题是怎么处理好“0”这个response。关于“weighted cost matrix”等
imbalance的方法有用在classification上的例子吗。谢谢了。
另外关于R1到R2确实是人为的,没有任何scientific的东西。怎么切也是可能是行规,
我估计更多的是给不懂science的比如搞business的给指导意见。 |
|
s******y 发帖数: 28562 | 30 这个你其实可以采用其他方法来标记数据的,比方说你可以测量同一个老鼠上
两个肾的重量差,然后plot这个重量差的分布。这样既直观,也免得你去涉及
那个不同老鼠之间比较的麻烦了
或者做一个综合柱状图,每个老鼠占一个x -axis 位置,然后y -axis 用两个
符号(一个星号和一个圈圈)来表示两个肾的重量
g |
|
p*****m 发帖数: 7030 | 31 这个没办法 如果数据量小或者分布不正态 本来statistical power就很小啊 |
|
s***m 发帖数: 6197 | 32 我换个问法吧
什么软件能做这种几个高斯分布叠加在一起的数据拟合?
谢谢! |
|
J****T 发帖数: 29 | 33 对, 降雨量的x轴是时间. 雷达的数据分布是扇形,要将其转换成网格正方形, 就要计算
一个网格里有多少个扇形, 再根据他们叠加的面积,进行均化, 也就是加权平均. 所以
分辨率越低,所包含的扇形就越多
如果把降雨数据看成能量波,均化过程自然会有所衰减, 我就想量化这个衰减量.
我做的并不是研究雷达的反射率转成雨量这个过程的能量损失, 而是其生成雨量后,转
换空间面积所代表的雨量带来的损失.
不知我这样说会不会清楚点
否指
坐标
失的 |
|
J****T 发帖数: 29 | 34 对, 降雨量的x轴是时间. 雷达的数据分布是扇形,要将其转换成网格正方形, 就要计算
一个网格里有多少个扇形, 再根据他们叠加的面积,进行均化, 也就是加权平均. 所以
分辨率越低,所包含的扇形就越多
如果把降雨数据看成能量波,均化过程自然会有所衰减, 我就想量化这个衰减量.
我做的并不是研究雷达的反射率转成雨量这个过程的能量损失, 而是其生成雨量后,转
换空间面积所代表的雨量带来的损失.
不知我这样说会不会清楚点
否指
坐标
失的 |
|
M***y 发帖数: 33 | 35 某个试验结果变化较大,得到几百个数据分布在0-3000之间,如何从已知的这几
百个数据计算任意一个0-3000之间的数出现的概率?
多谢 |
|
|
|
T*******I 发帖数: 5138 | 38 试试用SAS的ODS系统输出检验结果,然后再用数据步进行处理,就可以得到你想要的结
果。不过,正如楼上有人建议的,你要根据你的样本量来确定使用哪一种检验的结果。
请参考Univariate Procedure. |
|
f*******i 发帖数: 8492 | 39 lennard-jones我做了了,那个是project的第二个部分
第一个部分是硬球模型
所以根据动能和动量守恒,就是简单交换速度。
而且我假定第一个球和最后一个球是不动的。
开始的时候,小球的分布是均匀的。但是我每个小球的起始速度和方向是随机的。
所以,我每隔一定时间,就捕捉一下各个小球距离中心小球的距离,就得到了这组数据。 |
|
o******e 发帖数: 1001 | 40 akoug,谢谢你那么长的回复!
这个问题具体是这样的,数据A包括好几列,a_1,a_2,a_3. 根据物理原因我们分别用
stochastic differential equations建立了两个模型X,Y,解这两个模型后,我们得到
的方程式有这样的关系:
X: a_3=e_x*a_1+f_x*a_2+g_x*N(0,1)
Y: a_3=e_y*a_1+f_y*a_1*a_2+g_y*N(0,1)
我们的目标是用数据A去拟合模型X和Y,求参数e_x,f_x,g_x,e_y,f_y,g_y,并且分析那
个模型更好。
你说的是有一定的道理,有这样的可能,X的likelihood值大,但是它的 (a_3-e_x*a_
1-f_x*a_2)/g_x的normality不好。在这种情况下,你觉得如何去评价模型的好于差?
F)
始用 |
|
a***g 发帖数: 2761 | 41 我有两个思路不知道可行不可行
第一个就是如果你们平时处理数据的时候就是习惯做正态假设,同时好像这种假设影响
也不大。你们为什么不把两个模型写在一起,先拟合一下全模型,再检验各项显著性。
这样就可能有所取舍。
第二个是你们也对假设正态比较不放心,这么用只是对余项还没有认识更深入。那么我
就是随嘴这么一说啊,可不可以试试混合模型,全是用正态也无所谓。这里有两点,第
一就是mle也是混合模型的基本手段,你又熟悉很好用起来。第二就是你的数据比较大
,就是混合模型的复杂度上去了也能支持。
一点闭门造车的建议,你就权当参考吧。
a_ |
|
o*p 发帖数: 177 | 42 请问有没有同志经常用SEER或者cancer registry的数据?想请教一个问题。
我们现在想看percent localized(某年此病local的个数除以全部的个数)过去20年
是增加了还是降低了。
这个比例取了log之后,应该是正太分布了吧?log(local个数)-log(全部个数)。
log(count)应该是normal?还是log(age adjusted count)?
可以用year做为predictor做回归分析,计算Anuall Percent Change?
不好意思好象没有问清楚。 |
|
d*****y 发帖数: 26 | 43 如果数据不服从正太分布,也无法转换成正太,要检测异常值,有什么常用方法?多谢
! |
|
f*******m 发帖数: 94 | 44 我有一组数据(样本有一万多),全部介于0 和1 之间,并且是0 inflated,尝试了做
了各种转化,基本不太可能正太分布。请问这种情况,只有重新code 成0, 1,然后直
接用logistic regression 做了么?有没有其他更好的方法,恳请赐教,谢谢! |
|
p********6 发帖数: 1339 | 45 只要分布不是特别skewed,数据量不是很小,可以用ANOVA。
一次log transformation之后如果还是很skewed,可以试试Box-Cox transformation。 |
|
s*r 发帖数: 2757 | 46 罗莉(rayleigh)分布可以描述非正太数据 |
|
t*****a 发帖数: 459 | 47 那些normality test往往结论不一致,而且每一种都不是业界公认的标准。有时候可以
用某个test看一眼,如果p<0.01就比较警惕,如果p=0.05左右但是看着数据分布和正太
差不远也还是可以当做正太的。有一些东西如果不是正太就要按non-parametric的方法
来处理,但是往往数据和正太差不远的时候non-parametric和parametric的结果也差不
多,所以不需要太纠结。 |
|
s******s 发帖数: 13035 | 48 弱智还没睡啊
“周济:我国高等教育学历从业人数超8200万人" 2009年09月12日《人民日报》
就算用你的数据,加上1300万,也有9500万了,我说的“差不多"要过亿了,
是很准确的描述了。另外还没算上退休的非从业的。 看不懂的回去学习语文和google |
|
|