如何用不同来源的Obs来fit 一个 Dist. - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 如何用不同来源的Obs来fit 一个 Dist.

相关主题
● 有人在Big Data 用MATLAB ?	● 湾区数科MS求职找公司做project
● only average statistics	● python sklearn nearest neighbor user defined metric
● 怎么online update model	● Science上新clustering算法的分析测试
● 新博士选题求指导	● 求问一个概率题
● 求大牛指教 “How do you deal with missing data?”	● Role mining
● 请教一道题目 (转载)	● 奇特的面试题 (转载)
● Metropolis-Hastings的proposal distribution如何选取？	● datascientist几个基本问题
● 请教个build data analytics engine的问题	● ask for help for R programming (转载)

相关话题的讨论汇总
话题: obs话题: dist话题: study话题: 不同话题: fit

进入DataSciences版参与讨论

1

(共1页)

C***i 发帖数: 486	1 一个project 中的一个小环节，有个问题向各位高人请教下。问题抽象出来是，客户找到一些历史数据（数据源=20)。因为是历史数据，而且报告地点比较离散，数据质量很差。具体来讲，数据的样本不同，观测条件也不一致。。。大概看起来如下： Study 1: # of obs 100, [1,2,3,...., 100]， location A, sample condition I, etc... Study 2: # of obs 10, [5, 7, 9,....]， location B, sample condition I, etc... Study 3: # of obs 50, [20, 25, 30, 35, ...], ， location C, sample condition II, etc... 客户想把这些数据都pool 在一起 fit 一个distribution. 我认为因为不同study, 样本数量不同，不能简单的混在一起。因为一定要给出一个dist., 我的想法是: 1. 根据现有的conditions, merge 类似的数据，比如合并在同一个地点，同一种观测条件下，不同年代的观测值。这样可以把不同的数据源减少到12个左右； 2. fit 12 个 distributions 不过这样一来得到的是 conditional dist. 不知道各位有什么建议。。。先谢谢了！
s****h 发帖数: 3979	2 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了，只能用 mixed model. 瞎说一下：可以假设不同数据源的data都是相同类型的distribution，不同的只是参数。参数可以用mean，std啥的来估计。主要问题是找分布类型。每个数据源的数据，你可以试试fit distribution。找出几种fit得比较好得分布做候选。对于每种后选分布，根据参数来fit所有数据源，看看那个最好。最后，如果相同地点，相同年代的数据参数类似，那就更好了，可以justify你这个方法。
C***i 发帖数: 486	3 谢谢回复。看了一下数据的分布，跨度比较大，但基本上算是normal dist.，不过这个数据采集来源于多个国家，实在太分散（见下图）。最后决定从几个 datasets 里 bootstrap 出一个算了，当然是假设每个数据源都给予同样比重。请问这个方法可行么？【在 s****h 的大作中提到】 : 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了，只能用 : mixed model. : 瞎说一下： : 可以假设不同数据源的data都是相同类型的distribution，不同的只是参数。 : 参数可以用mean，std啥的来估计。 : 主要问题是找分布类型。 : 每个数据源的数据，你可以试试fit distribution。找出几种fit得比较好得分布做候 : 选。 : 对于每种后选分布，根据参数来fit所有数据源，看看那个最好。 : 最后，如果相同地点，相同年代的数据参数类似，那就更好了，可以justify你这个方
T*****u 发帖数: 7103	4 我觉着一个重要的问题是他要用这个distribution做什么，然后才能justify怎么做。
s*********h 发帖数: 6288	5 client wants, client gets. :P 【在 s****h 的大作中提到】 : 这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了，只能用 : mixed model. : 瞎说一下： : 可以假设不同数据源的data都是相同类型的distribution，不同的只是参数。 : 参数可以用mean，std啥的来估计。 : 主要问题是找分布类型。 : 每个数据源的数据，你可以试试fit distribution。找出几种fit得比较好得分布做候 : 选。 : 对于每种后选分布，根据参数来fit所有数据源，看看那个最好。 : 最后，如果相同地点，相同年代的数据参数类似，那就更好了，可以justify你这个方

1

(共1页)

进入DataSciences版参与讨论

相关主题
● ask for help for R programming (转载)	● 求大牛指教 “How do you deal with missing data?”
● R describe dataset	● 请教一道题目 (转载)
● 请教一个R问题：怎么rbind一系列data，如data1，data2,....data1000	● Metropolis-Hastings的proposal distribution如何选取？
● Senior Data Scientist in NC	● 请教个build data analytics engine的问题
● 有人在Big Data 用MATLAB ?	● 湾区数科MS求职找公司做project
● only average statistics	● python sklearn nearest neighbor user defined metric
● 怎么online update model	● Science上新clustering算法的分析测试
● 新博士选题求指导	● 求问一个概率题

相关话题的讨论汇总
话题: obs话题: dist话题: study话题: 不同话题: fit

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)