由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 如何用不同来源的Obs来fit 一个 Dist.
相关主题
有人在Big Data 用MATLAB ?湾区数科MS求职找公司做project
only average statisticspython sklearn nearest neighbor user defined metric
怎么online update modelScience上新clustering算法的分析测试
新博士选题求指导求问一个概率题
求大牛指教 “How do you deal with missing data?”Role mining
请教一道题目 (转载)奇特的面试题 (转载)
Metropolis-Hastings的proposal distribution如何选取?datascientist几个基本问题
请教个build data analytics engine的问题ask for help for R programming (转载)
相关话题的讨论汇总
话题: obs话题: dist话题: study话题: 不同话题: fit
进入DataSciences版参与讨论
1 (共1页)
C***i
发帖数: 486
1
一个project 中的一个小环节,有个问题向各位高人请教下。问题抽象出来是,客户找
到一些历史数据 (数据源=20)。因为是历史数据,而且报告地点比较离散,数据质量
很差。具体来讲,数据的样本不同,观测条件也不一致。。。 大概看起来如下:
Study 1: # of obs 100, [1,2,3,...., 100], location A, sample condition I,
etc...
Study 2: # of obs 10, [5, 7, 9,....], location B, sample condition I, etc...
Study 3: # of obs 50, [20, 25, 30, 35, ...], , location C, sample condition
II, etc...
客户想把这些数据都pool 在一起 fit 一个distribution. 我认为因为不同study, 样
本数量不同,不能简单的混在一起。因为一定要给出一个dist., 我的想法是:
1. 根据现有的conditions, merge 类似的数据,比如合并 在同一个地点,同一种观测
条件下,不同年代的观测值。这样可以把不同的数据源 减少到12个左右;
2. fit 12 个 distributions
不过这样一来得到的是 conditional dist. 不知道各位有什么建议。。。先谢谢了!
s****h
发帖数: 3979
2
这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用
mixed model.
瞎说一下:
可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。
参数可以用mean,std啥的来估计。
主要问题是找分布类型。
每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候
选。
对于每种后选分布,根据参数来fit所有数据源,看看那个最好。
最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方
法。
C***i
发帖数: 486
3

谢谢回复。看了一下数据的分布,跨度比较大,但基本上算是normal dist., 不过这
个数据采集来源于多个国家,实在太分散 (见下图)。最后决定从几个 datasets 里
bootstrap
出一个算了,当然是假设每个数据源都给予同样比重。 请问这个方法可行么?

【在 s****h 的大作中提到】
: 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用
: mixed model.
: 瞎说一下:
: 可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。
: 参数可以用mean,std啥的来估计。
: 主要问题是找分布类型。
: 每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候
: 选。
: 对于每种后选分布,根据参数来fit所有数据源,看看那个最好。
: 最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方

T*****u
发帖数: 7103
4
我觉着一个重要的问题是他要用这个distribution做什么,然后才能justify怎么做。
s*********h
发帖数: 6288
5
client wants, client gets. :P

【在 s****h 的大作中提到】
: 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用
: mixed model.
: 瞎说一下:
: 可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。
: 参数可以用mean,std啥的来估计。
: 主要问题是找分布类型。
: 每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候
: 选。
: 对于每种后选分布,根据参数来fit所有数据源,看看那个最好。
: 最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方

1 (共1页)
进入DataSciences版参与讨论
相关主题
ask for help for R programming (转载)求大牛指教 “How do you deal with missing data?”
R describe dataset请教一道题目 (转载)
请教一个R问题:怎么rbind一系列data,如data1,data2,....data1000Metropolis-Hastings的proposal distribution如何选取?
Senior Data Scientist in NC请教个build data analytics engine的问题
有人在Big Data 用MATLAB ?湾区数科MS求职找公司做project
only average statisticspython sklearn nearest neighbor user defined metric
怎么online update modelScience上新clustering算法的分析测试
新博士选题求指导求问一个概率题
相关话题的讨论汇总
话题: obs话题: dist话题: study话题: 不同话题: fit