第4页 - 关于数据分布的讨论汇总 - 话题女王

全部话题 - 话题: 数据分布

g****y
发帖数: 436

来自主题: Programming版 - 猜数据范围

不知道这个问题发在这里合不合适。。
一个数据库的数据由整数表示，已知所有数据的大致范围为(a，b)，总数为c，有没有
比较有效的方法在短时间内知道更具体的分布情况。
具体例子：
已知数据范围为（1，10），总数为5，随机测试了三次，得到 8，9，10三个数，猜测
数据有很大可能在（5，10）

y***i
发帖数: 11639

来自主题: Biology版 - 大家发文章用standard deviation，还是standard error？

我觉得是sunnyday对。证据是比较两个数据组用ttest，而ttest的公式计算的是SE。
另一角度可以这么想：你的数据组抽样越多，SE越小；同时数据组抽样越多，越能可靠
的确定两个数据组的细微差别。所以sunnyday说比较平均值的差异该用SE是对的。
但直觉上看用SE其实不爽。因为我们更希望整个数据分布有大的差异，which is SD.

y***i
发帖数: 11639

来自主题: Biology版 - 大家发文章用standard deviation，还是standard error？

gw
发帖数: 2175

来自主题: Computation版 - 问个MPI 数据交换的问题

一个程序，需要大量计算，并且需要数据交换。
比如第一步，第一个core都要算几个数据点，形成几个大数组，然后各数据点交叉相乘
，形成新的矩阵。为了下一步计算，需要重新分布一下矩阵在各个core的组合。
现在有两个方案：一个是MPI_isend/ireciver；一个是用写共享硬盘的方法，比如用
netcdf，读写还挺快。
请问，在正常情况下，哪个会更有效？
另外，有没有可能用数据库的方式，大家共同向一个服务器存取数据，不知道这样与写
硬盘，哪个更有效。
假设每次交换的数据都是100M.

P******e
发帖数: 75

来自主题: Statistics版 - [求助]三因素unbalanced的文献数据方差分析

我们从Literature里收集了很多关于牛奶中18种氨基酸的含量的数据，每个数据点是文
献当中的平均值。不同文章的牛奶在不同时间收集，不同地方来源.
数据整理后,我们想看一下不同因子有没有影响。
从三个因素考虑，分别是time,region,term.数据是不平衡的.
下表标出了其中两个因素。每个格子里面是多少个观测点。可见是很不平衡的。
Region1 Region2 Region3 Region4
time1 . 6 2 1
time2 . 7 2 3
time3 1 8 7 5
time4 1 11 4 5
time5 3 10 . 2
我们有几个问题请教：
1. 由于我们的每个数据点是每篇文献当中的平均值,能用ANOVA么?数据好像不是很正态
分布。要检测Assumptions?
2. 对我们这个unbalanced的数据处理,可以做Three-way ANOVA么?
3. 用proc GLM, Model AA1 AA2=tim

J****7
发帖数: 375

来自主题: Statistics版 - 工作中遇到的data处理问题

目前在工作中遇到以下的data处理课题寻求达人帮助，课题是这样，
A1，A2分别对应两个不同测试状况下的实验群，现在要求设定一个标准筛除一些实验数
据，也就是说排除掉一些边缘实验，以后的统计结果将基于这个标准screen后的有效数
据。
能想到的是尝试对A1，A2数组做几种处理，弄出几个数据组合 B， C1,C2,C3 然后根
据C1,C2,C3的数据分布，分别设定上下限值，同时满足三个数据组的上下限值的算有效
数据，但是离散性很大，好像不靠谱，如何才能针对数组A1,A2得出一个大致正确的筛
选数据的标准，希望能得到统计达人帮助，谢谢！
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Note， B = ABS（A1-A2），取绝对值
C1 = 100*B/A1
C2 = 100*A2/A1
C3 = 100-A1+A2
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
SIMULATION FOR... 阅读全帖

c***s
发帖数: 70028

来自主题: Headline版 - 人民日报海外版就错误发布中国外逃贪官相关数据道歉

人民日报海外版7月26日“焦点关注”版中作为背景刊登的《中国加大追逃力度一批贪官罪嫌遣返》一文，其中引用的有关外逃贪官、携走资金金额的数据有误。经核实，中央纪委从未发布过此类数据，此数据来源于网上未经确认的不实消息，造成对读者的不负责，也影响了报纸的公信力。对此，本报诚恳向海内外读者致歉，并欢迎读者对人民日报海外版多予监督。
特此声明。
人民日报海外版
2011年8月4日
相关新闻：中国加大追逃力度一批贪官罪嫌遣返（背景）
《人民日报海外版》（ 2011年07月26日第 07 版）
中国官员因经济犯罪外逃始于上世纪80年代末，分析诸多出逃事件，不难看出：聚敛财产—海外安家—资产转移—择机出逃—滞留不归，是贪官外逃的一般步骤。
据中国社科院《中国惩治和预防腐败重大对策研究》课题组的资料估计，中国目前有4000多名官员境外在逃。中纪委称，近30年来，外逃贪官携走资金达500多亿美元，平均每人卷走近1亿元人民币。
从外逃人员的级别构成看，中高级领导干部特别是厅处级干部逐渐增多。外逃的贪官过去大多是级别较低的官员，而近年来级别较高的领导干部逐渐增加，如国家电力公司原总经理、正部级官员... 阅读全帖

o***s
发帖数: 42149

来自主题: Headline版 - 媒体疑香山红叶没官方数据红回应称黄叶也算变红(图)

27日香山红叶变色率达到72%，但仍难有“漫山红遍”的感觉摄影/本报记者贾婷
“26日，香山红叶变色率已达到60%，进入最佳观赏期”的消息吸引了来自全国各地的游客前来香山赏红。上周末，香山公园接待约20万游客，创下了本届红叶节开幕以来双休日接待游客量的新高。但许多蜂拥而至的游客抱怨并没有感觉到“漫山遍野”的红叶，这个“红叶变色率”的预报到底是怎么预报出来的？北京青年报记者进行了探访——
游客质疑：最佳观赏期为何难见红叶
“到香山光看人了，没看到红叶。”日前，有游客反映在香山红叶的“最佳观赏期”里没看到园方所说的变色率达到60%的红叶，只看到拥挤的人群。昨天，北京青年报记者实地调查后发现，香山公园入口处的平地部分确实少见红叶，但南部红叶区树叶变红率基本符合官方发布水平。对此，香山公园管理处相关负责人表示，由于许多外地游客时间有限，无法登高赏红，才造成“香山无红叶”的误解，如果游客按照景区提示的赏红路线登高赏红的话，是可以观赏层林尽染的红叶美景的。
日前，“香山红叶变色率已达到60%，进入最佳观赏期”的消息吸引了来自全国各地的众多游客前来香山赏红。上周末，香山公园接待近20万游客，创下... 阅读全帖

c***s
发帖数: 70028

来自主题: Headline版 - 东方之星生还人数减至12人之前数据出现误报

6月10日，遇难者家属在岸边哭泣。当日10时许，“东方之星”号客船被起吊船牵拉着缓缓拖离事发水域。新华社发
记者13日下午从“东方之星”号客轮翻沉事件前方指挥部新闻中心新闻发布会上获悉，经有关各方反复核实、逐一确认，“东方之星”号客轮上共有454人，其中成功获救12人，遇难442人。公安部门依法依规、科学严谨对搜寻到的遗体D N A进行了比对，已确认442具为遇难人员遗体并移交给家属。至此，全部遇难者遗体均已找到。据此，决定自即日起搜救工作结束。有关部门和地方人民政府要继续认真细致做好善后处理、事件调查等相关工作。
6月1日21时30分许，“东方之星”号客轮翻沉事件发生后，交通运输部门、解放军、武警部队和公安干警、沿江省市等在以习近平同志为总书记的党中央坚强领导下，按照习近平总书记重要批示、重要讲话精神和李克强总理的部署要求，周密安排，精心组织，调集动员了大批专业搜救人员、解放军、武警和消防官兵以及沿江地区群众，采取空中巡航、水面搜救、水下搜救、进舱搜救和全流域搜救相结合的方式，在事发地及下游水域开展全方位、立体式、拉网式搜寻，做到层层设防，不留死角。
新闻发布会上，交通运输部长江航... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 调查机构数据显示美国现有非法移民1100万

【多维新闻】美国知名调查机构皮尤研究中心最新数据显示，截至2011年3月，美国非
法移民人口数量为1100万，约占在美外国出生人口的28%。由于经济疲软和边境执法力
度的增强，该数量比上一年也略有减少。
根据皮尤拉美裔研究中心的评估，2010年，美国非法移民的数量为1120万，2009年为
1110万。2007年美国非法移民数量达到了创纪录的1200万，但在保持了一个长达20年左
右的增长期后，该数字开始出现下降。
墨西哥是美国非法移民的主要来源国。在鼎盛时期的2000年，进入美国的墨西哥人达77
万，其中多数为非法移民。而2010年这个数据已经下降到14万，而且越来越多的墨西哥
人选择以合法身份进入美国。此外，在2005至2010年，从美国搬至墨西哥的人已经比5
至10年前增加了一倍。
数据显示，2011年，美国非法移民的数量为1110万，占在美外国出生人口的28%。同时
，美国还有获得永久居留权的绿卡持有者1220万，占在美外国出生人口的31%；在美的
外国出生人口中，已有1510万成为美国公民。
作为典型的“移民国家”，美国在吸引合法移民的同时，也成为世界非法移民的主要目
的国。... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 研究机构认为部分地方部门三公数据明显存问题

《中国经济周刊》记者赵剑云︱北京报道
近日，各地陆续开始公布本级政府2012年“三公”经费决算和2013年“三公”经费
预算。政府财政透明度再次成为公众关注的话题。
记者从上海财经大学公共政策研究中心获悉，该中心起草的《2013中国财政透明度
报告》(下称《报告》)已经撰写完毕。这是该中心第五次推出《中国财政透明度报告》
，包括《2013年省级财政透明度评估》、《2013年省级行政收支及相关信息透明度评估
》以及《省级政府部门预算透明度评估》三个分报告，以及新增加的《省级政府部门“
三公”经费透明度特别评估》。
31省份公开的信息不到1/3
与往年一样，2013年省级(不包括港澳台地区)财政透明度评估仍然包括态度评估和
项目评估两个部分，满分为1180分。
其中，项目评估包括一般预算基金、政府性基金、社会保险基金、国有企业基金4
个大项(总共包括113个小项)。课题组表示，之所以选择考察此四大基金，一方面是基
于信息报告完整性的要求，另一方面是为与现有的财政信息报告体系相吻合。
一般预算基金包含50个小项，政府性基金包含17个小项，社会保险基金包含30个小
项，国有企业基金包含1... 阅读全帖

发帖数: 1

来自主题: Military版 - 这高考数据属实否？

凭高考裸分进入清华、北大考生仅占30%，其余70%呢？
★免费领取：增大增粗延时，神奇卫裤0元送★
清华大学、北京大学是全国考生都梦寐以求的高校，很多学子经过十年的寒窗苦读才有
可能通过高考这项严酷的淘汰机制进入这类顶尖人群。但是，随着近年来招生形势的多
样化。高考似乎已经不再是一考定终身，而是增加了多种多样的录取方式。就像清华大
学招生办老师说得那样，想进入清华有8种方式。除了高考外，国防生、定向、专项计
划、保送生、艺术生、高水平运动员、自主招生等都可以进入清华大学学习和深造。
各种各样的录取方式真的看花了眼，小编非常想知道的是：通过高考这种传统的方式能
进入清华大学、北京大学的占据多少呢？小编认真的查了查数据，结果确实令人比较震
惊。以高考大省河南为例，2016年清华大学在河南总共录取210人，而通过高考裸分录
取的人数仅为62人；北京大学在河南省总共录取216人，通过裸分录取的仅有53人。
无独有偶，高考大省湖南省也是这种情况。2016年清华大学在湖南省总共招生人数为
141人，其中裸分录取43人；北京大学在湖南招生159人，裸分录取仅34人。通过这两个
省份的数据可以得知：通... 阅读全帖

Y******I
发帖数: 40

来自主题: Military版 - 今天的数据没有更新？

#疫情动态 #疫情统计
【#全国累计确诊 9720 例，疑似 15238 例，治愈 171 例，重症 1527 例，死
亡 213 例】（各地区人数分布持续更新中）
#湖北确诊 5806 例，治愈 116 例，死亡 204 例
#浙江确诊 428 例，治愈 4 例
#广东确诊 354 例，治愈 8 例
#河南确诊 278 例，治愈 2 例，死亡 2 例
#湖南确诊 277 例，治愈 2 例
#安徽确诊 200 例，治愈 2 例
#重庆确诊 206 例，治愈 1 例
#江西确诊 162 例，治愈 4 例
#山东确诊 158 例，治愈 1 例
#四川确诊 142 例，治愈 1 例，死亡 1 例
#江苏确诊 129 例，治愈 1 例
#北京确诊 121 例，治愈 4 例，死亡 1 例
#上海确诊 112 例，治愈 5 例，死亡 1 例
#福建确诊 101 例
#广西确诊 78 例，治愈 2 例
#云南确诊 76 例
#河北确诊 65 例，死亡 1 例
#陕西确诊 63 例
#海南确诊 46 例，治愈 1 例，死亡 1 例
#黑龙江确... 阅读全帖

G**C
发帖数: 18

来自主题: Military版 - 美国新官死亡的种族分布有吗

美国密歇根州首次公开病例种族构成，黑人确诊及死亡占比最高。
https://news.sina.com.cn/w/2020-04-05/doc-iimxyqwa5146509.shtml
2020年04月05日 10:18 环球网
世卫组织实时统计数据显示，截至欧洲中部时间4月4日18时（北京时间4月5日0时
），全球确诊新冠肺炎1056159例，死亡57206例，目前全球已有207个国家和地区出现
新冠肺炎病例，中国以外超过97万例。
其中，据美国约翰·霍普金斯大学发布的全球新冠肺炎数据实时统计系统，截至美
国东部时间4月4日13时53分，全美新冠肺炎确诊病例突破30万。全美共报告新冠肺炎确
诊300915例，死亡8162例，治愈14459例。
美国密歇根州首次公开病例种族构成，黑人确诊及死亡占比最高
根据美国密歇根州首次公布的数据，黑人占到该州新冠肺炎确诊病例的35%，占到
死亡病例的40%，但密歇根州只有12%的人口为黑人。
据《底特律都会报》4月2日报道，感染新冠病毒并死亡的黑人数量“令人震惊”。
黑人只占密歇根人口的12%，但感染新冠病毒的比例却大大高于白人和其他种族。
根据... 阅读全帖

发帖数: 1

来自主题: Faculty版 - 写proposal直接用自己paper里面的段落

当然写过,这里分两个层面讨论
第一，我写的都是从无到有，从0到1的那种proposal.都是首次突破性的，用的数据都
是raw data，需要把这些data给清洗了，甚至进行数据分布了，才能用。否则做出来的
数据根本就是noise。
第二，results是指结论性的内容，包括但是不限于数据结果，而你说的是data only。
第三，按照楼主和你的思路，显然是想进行一个延续性的proposal. 这也是可行性之一
。不过这种方式，通常都是在一开始就有了长期稳定的规划基础上，比如总共十年的预
期研究，一环扣一环的，前面三年我做第一步，后面七年我完成第二步和第三步。如果
真是这种情况，也是可以，不过楼主的问题，话里话外的含义，显然不像是有一个相当
清晰的长远研发的path

：你显然没写过Proposal。Proposal里有一项叫preliminary data, 可以用未发表的结
果或者已发表的结果。楼主有可能说抄已发表的结果的段落，也有可能楼主想抄他文章
中理论的部分，比如introduction部分或者discussion 部分的内容.
：

S*A
发帖数: 7142

来自主题: JobHunting版 - 分享一道google 面试题。大数据相关。

嗯，这道题有意思，是个好题目。
注意到总共数据量是 50G ＊ 1000 ＝ 50T。
这 1000 台机器没有提到有可以写的空间，应该就是当作分布的只读
数据。
然后可以用于计算的机器 11 台。每台 12T，一共 11 x 12 = 121 T.
> 50T. 所以应该存在可能在1000 台机器只读一次就够了。
而且注意到没有一步机器可以存储 50T 的全部数据，也就是说，要
在不同机器直接找 unique。
这个考题非常考虑实际情况，所以看样子是要自己做些方案来统计。
例如自己搭个程序框架。用 Hadoop hive 偷懒的那种用轮子的估计是
过不了的。人家是要考造轮子的能力。

S*A
发帖数: 7142

来自主题: JobHunting版 - 分享一道google 面试题。大数据相关。

p*****r
发帖数: 1883

来自主题: JobHunting版 - 我觉得老中比老印更适合数据科学这个行业

感谢大家在前面一贴的讨论，我想起来之前思考的老中如何在IT业干掉老印。在美国工
作的老中的学历分布上多是硕士博士，而老印很多就是本科或者高中。按照现在码农面
试都要刷题的尿性，老印靠刷题靠裙带靠面经能混上各个码农的职位，老中在这些职位
上面试就比较吃亏。倒是现在数据科学这个比较新的行业，因为对数理背景和机器学习
知识的一些要求，还没有太多智力足够学历足够的老印挤占，也没有面试时候的各种恶
心事，倒是适合我们老中这样数理基础好的又诚实的。所以我建议如果犹豫是否要刷题
做码农的硕士或者PHD，可以自我评价一下自己的数理基础，然后上上coursera的
machine learning课看看自己适合不适合，数据科学领域欢迎你，不要等老印都占了再
来哟。
PS 数据科学领域倒是没码农那样230k base之类的，但是养家糊口绝对可以。

S*******r
发帖数: 11017

来自主题: EB23版 - 我觉得现在的排期的趋势很好

O傻知道07大潮后有多少中印需求么？
前几天有人贴的那个PERM数据分布，O傻手里有这个数据吗？就算有这个数据，他对这
个数据有信心，敢以此做证据来预估大潮后中印需求么？

f**u
发帖数: 2769

来自主题: EB23版 - 中印demand data问题

你搞错了几点。
首先，你看到的数据是10月和11月发布的，两个数据分布决定11月和12月的排期。12月
发布、用于决定明年1月排期的demand data目前还没有公布。
其次，比较10月到11月的数据，截至2009/1/1前，实际上是中国减少25个，印度增加
1100个。
原始数据可以从 http://data.niunational.org/demand 找到。

w***7
发帖数: 5568

来自主题: Football版 - MVP Poll: 绿州分布比较有趣

这个完全是个人观点，就跟你认为PM的数据不稀奇，而我认为含金量很高。
抛开一年多没打球不算，光是换个新队新教练能打出这样的数据就非常了不起，更何况
PM还没去刷数据。
这么说吧，我认为把PM放在绿湾我觉得他的数据只会比现在更好，把AR放在野马他打不
出这样的成绩，至于你认不认可是你个人的问题，这跟那些给MVP投票的是一回事。

d***e
发帖数: 3728

来自主题: Joke版 - 高德地图：女司机更倾向于准时回家而男司机则去... 快科技 teikaei 21小时14分钟前女司机简直就是马路杀手，一个女司机就可以毁掉一个十字路口…… 女司机真的这么不靠谱吗？高德地图用大数据证明了女司机开车更靠谱！ 7月27日，高德地图联合交通运输部科学研究院、阿里云、清华同衡规划设计研究院、易车等权威机构正式发布了《2016年第二季度中国主要城市交通分析报告》。数据显示，2015年女性注册车主比例只有28.2%，与男性的71.8%相比明显偏低。但从年龄分布上看，女司机更为年轻，35岁前拥有车的比例为61%，比男司机高出8%。而从男女喜欢的车型可以看出，女司机更偏爱紧凑和中小型的车，而男士更爱SUV等大型车。为什么说女司机开车比男司机更靠谱呢？数据显示，女司机在急加速、急刹车、超速方面次数均低于男司机，文明驾驶行为明显更好。有趣的是，节假日，女司机更倾向于准时回家，出行目的地也多数与购物相关，而男司机则主要去公司、酒店、洗浴桑拿等场所。 http://static.cnbetacdn.com/article/2016/0727/7724dd966754042.jpg http://static.cnbetacdn.com/article/2016/0727/eaeaa071c8b1dfb.jpg http://static.cnbetacdn.com/article/2016/0727/8f7ee2c9a9cefc0.jpg http://static.cnbetacdn.com/article/2016/0727/350e45b139e190c.jpg

从数据看，有些女司机喜欢乱转弯而且根本不管周围车况，不管不顾的开车所以刹车都
很少踩，逼迫男司机踩刹车。为了躲开这类女司机，只能刹车之后找到机会加油门闪开

w********h
发帖数: 12367

来自主题: ECUST版 - 中国一流大学地区分布（共23所） (转载)

你说的是事实（上海录取的事实）阿，我不反对，更不会激动。
华理又不是按照录取分进这个榜的。
如果按照录取分，上海财大、中央财大、对外经贸之类的是不是早该一流了？
我反对的是：（1）不符合自己“观点”的没有论据就斥为joke和垃圾的言论；
（2）因为别校进榜无端贬低之的没有素养的行为，所谓输球又输人就是这样。
另外补充一点，
武书连这个一流大学排名，是按照（1）本科毕业生质量；（2）教师学术水平；（3）
教师绩效三方面的数据来做的，其中（1）中间有录取分这一参数，
华理在过去5年其实按照今年的标准，即上述三项都在前30名以内，
都能进他这个一流榜的，但是去年和前年（1）的排名分别是26和27，
所以即便后两项的排名一直在10-20之间，
这三项的总分也应该进一流榜，但还是被排除出。
武书连和上海交大的那个世界大学学术榜因为基准于数据，
不做太多人为修正和主观印象，我觉得接受的人越来越多，
权威性也不错，武书连在综合榜把华理排在35左右，我也觉得正常的。
一流榜把华理列进去，有一年把华南理工也列进去，
我不反对也不附和，但他尊重数据这一点我还是敬佩的，
不能说，你列好标准之后，然后看到结论... 阅读全帖

P*******t
发帖数: 202

来自主题: CS版 - 请教一个问题，关于统计和分布~~~~~

Maybe you can consider comparing the widths of peaks (i.e. widths at the
half maxima of the peaks) in the probability distributions for tooth paste
and Xmas trees.
The width of the peaks of probability for products like Xmas tree will be
smaller than that for products like tooth paste and groceries.
If it is possible for a product to have multiple peaks in its probability
distribution, you might want to consider the mean of the widths.

请教一种统计量，希望能够描述下列的数据特征：
比如从一段时间采集来的数据，有些数据是集中在一段时间内出现的，有些数据是

v*******g
发帖数: 334

来自主题: Statistics版 - 如何找出数据中密度大的区域？

我有一组数据，想找出这组数据中分布密的两个区域
例如，我有一组人的青春期开始发育的年龄，假定人类有2个发育年龄，比如要么在8岁
发育，
要么在11岁发育，或是要么在8-9岁发育，要么在11-12岁发育。
除了histogram外，
如何找出这两个点或2个区域
数据
age at 发育;
10.129
11.111
8.199
2.233
15.222
12.999
15.777
8.333
9.888
5.8888
20.9999
...........

l********k
发帖数: 14844

来自主题: Statistics版 - 学术一个：不完全数据的统计怎么做？

给一组数据，知道它是normal distribution，可以直接算mean, variance。假如这组
数据是被threshold过的，threshold已知，大于阈值（或者小于，或者边界值之外）的
数据都被砍掉，但是分布的大部分都在阈值（边界值）以内，只是被砍掉尾巴了。有没
有unbiased的算法直接给出mean和variance，而不用去对histogram作gaussian
fitting的？
多谢

w*****m
发帖数: 51

来自主题: Statistics版 - 怎么说明一个数据子集是否可以代表整个population

有一个subset drawn from a population.
怎样知道how representative of this subset comparing to the population?
比方说我们的目的是研究经常在网上购物的人群的分布(性别，年龄，。。。)
我们收集的数据只有1万条数据（一个user一条数据）
怎么说明这个收集的子集是否有代表性呢？有哪些统计方法可以用？

d****n
发帖数: 12461

来自主题: DataSciences版 - 所谓的大数据

数据库的话，一般都是1 bil以上吧
如果是文件数据的话，一般每个文件几个到几十个g，大概上千个文件吧
小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试，
但是最后都要用大的set来测试的。
其实这都不是挑战的地方。挑战的地方在于分布存储，实时数据和历史数据结合等等，
所以最后要上map reduce，要把数据整合的过程前移。
当然很多olap不需要符合ACID，这点就好很多了。而要求ACID的数据库单个多数不大，
所以这就好多了。

a*******m
发帖数: 14194

来自主题: Military版 - 第六次人口普查的数据下载和我的简单分析

最左上角那个地方，点download就好了
https://docs.google.com/open?id=0B93hHGPMIEkiT0d4VGJnZDBkWW8
我最近没空灌了，就简单讲两句。
1. 胡温还算有良心，至少没有放任计生委修改数据。这一点，江泽民，朱消气
2000年的人口普查纯粹胡搞。
2. 胡温应该也不会再有大动作了，明年就滚蛋了了，这个时候大动作不符合
常理，一般来说，老老实实站好最后一班岗就撤了。如果胡总还想继续军委
主席一两年，则有大改的可能，但是按照胡总的低调的样子，他不太可能这末
搞。
3. 假定上台的真是李克强的话，我看计生委的混蛋们十有八九还会继续混下去。
李克强，在家里用英语和家人交流的中国总理，二得程度是难以理解的。
4. 为何最近计生政策被一再提及和反思？因为，政府撑不住，要推迟退休年龄。
为啥要推迟退休年龄？然后，一帮专家，开始分析老龄化的问题，最后无论
如何绕不开一胎化计生加速恶化人口形势的问题。
如果推迟退休年龄，降低养老金标准，很多现在的老人利益都得受损。
特别是现在的年轻人发现，在这么胡搞下去，自己交的养老金就得打水漂，
将来根本兑现... 阅读全帖

w*********g
发帖数: 30882

来自主题: Military版 - 军报告诉你最新10年多PLA的新变化来源: ych2000

军报告诉你最新10年多PLA的新变化
来源: ych2000 于 2012-10-31 10:21:28 [档案] [博客] [旧帖] [转至博客] [给我悄
悄话] 本文已被阅读：494次字体：调大/调小/重置 | 加入书签 | 打印 | 所有跟帖
| 加跟贴 | 查看当前最热讨论主题
本贴内容已被 [ych2000] 在 2012-10-31 10:24:08 编辑过。如有问题，请报告版主或
论坛管理删除.
新质战斗力成为信息制胜拳头力量
军网10月31日引述解放军报报道称，“通天之路打通了！”
9月15日，总参某信息保障基地比武演练激战正酣。走上卫星测量控制新岗位时间不长
的工程师韩宝玲，40多分钟就打通了复杂电磁环境下天地一体信息链路。
“有了这条上天入地的‘信息链’，指挥员就能指挥千军万马，直至单兵单装。”韩宝
玲介绍说，这条“链”涉及数据获取参照、天地传输、星际组网交换、情报整合和数据
分布应用等百余项岗位新业务。
比武中，像韩宝玲一样，频谱管理、导航、侦测、信息安全防护、数据管理等新型作战
力量正成为赛场新宠，标志着两年前才组建的该基地正成为信息战场的拳头力量。
像该基... 阅读全帖

d*********o
发帖数: 6388

来自主题: Military版 - 数据称中国公务员760万专家：规模并不大

http://news.163.com/14/0225/02/9LT5ROGR0001124J.html
核心提示：据媒体报道，按照行政编制人员计算，中国公务员有760万左右。专家综合
各种资料统计认为，这一数据跟美、加、法、德、澳等西方发达国家相比并不大。这些
国家由于经济发达，政府承担了广泛的社会服务职能，政府公务人员占总人口的比重在
5%~8%之间。
我国公务员规模并不庞大
今年1月下旬，中组部、人社部等联合召开公务员管理工作会议，提出要把深化公务员
分类改革作为整个公务员制度建设的重点，进一步完善公务员选任制度和机制。消息即
出，很多人认为我国应该大刀阔斧地精简机构，解决公务员队伍机构臃肿、人员庞大、
人浮于事的问题。我国公务员的人数多吗？到底多少比较合适？
政府公务人员是指由财政负担工资福利的国家公职人员，有广义和狭义之分。广义的政
府公务人员包括政府机关人员和公立机构人员(相当于我国事业单位人员)；狭义的政府
公务人员仅指政府机关人员。
衡量政府公务人员数量的指标包括绝对数量和相对数量。相对数量是指政府公务人员占
总人口的比重，可用来衡量一个国家不同时期或者不同国家政府公务... 阅读全帖

发帖数: 1

来自主题: Military版 - 考虑到IT业起薪就至少3

查了一下数据，US workers median annual income 是$37.7k。income of $200k is @
top 2.7 percentile。。。
考虑到IT业起薪就至少3，4万，查了软件工程师的median income，是$100k，就是说是
General population的2.7倍。。。
因为没查到IT业收入详细数据，假定(big if)数据分布与总体人群相似，那么，top 2.
7 percentile 应该大致是50万左右。。。
看大家连40万是否普遍都要争论半天，我想50万，也就是top 2.7 percentile，应该是
一流收入了吧。。。
不同意的举手～～

g**1
发帖数: 10330

来自主题: Military版 - 包叔喜讯：今年前9个月数据公布中国对外直接投资5551亿

今年前9个月数据公布中国对外直接投资5551亿
来源：环球时报
2019-10-16 20:43
中国商务部周三下午公布，2019年1-9月，中国对外投资合作保持健康稳定发展，境内
投资者共对全球164个国家和地区的5016家境外企业进行了非金融类直接投资，累计实
现投资5551.1亿元人民币，同比增长3.8%。商务部同时公布，9月当月对外直接投资人
民币620.1亿元，同比增长14.2%。
路透社援引商务部的数据称，1-9月对外投资主要流向租赁和商务服务业、制造业、批
发和零售业等领域，房地产业、体育和娱乐业对外投资没有新增项目。此外，前9月中
国企业共实施完成跨境并购项目247起，分布在芬兰、德国等50个国家和地区，涉及制
造业、信息传输/软件和信息技术服务业等16个行业大类。▲ (刻羽)

发帖数: 1

来自主题: Military版 - 数据：中国之外23个国家发现146个病例，不需要恐慌

这个数据是世界卫生组织给出来的，说是在中国之外所发现的，冠状病毒的病例一共是
有146例，而这146例所分部国家只有23个。
国内的疫情是比较严重，群众比较紧张。但是，除了中国之外，在别的国家有必要那么
过于恐慌吗？
特别是美国直接来了一个撤侨，又把赴华旅行级别调到最高级，还有事儿没事儿都要黑
一下中国。
咱就看数据说话，就这146例分布在23个国家，又能怎么着？只要确诊的病例以及所接
触的人员被隔离了，那基本上就没有什么事儿了，过半个月之后病毒自己就没了。

E*V
发帖数: 17544

来自主题: WorldNews版 - 关于中国人吃孩子的数据 (转载)

【以下文字转载自 Military 讨论区】
发信人: EUV (待租位), 信区: Military
标题: 关于中国人吃孩子的数据
发信站: BBS 未名空间站 (Thu Mar 25 16:57:32 2010, 美东)
刚删我这个帖的版主，太过分了，呵呵，心里有鬼，偷偷摸摸的删帖
发信人: EUV (待租位), 信区: WorldNews
标题: 关于中国人吃孩子的数据
发信站: BBS 未名空间站 (Thu Mar 25 16:38:04 2010, 美东)
几个月钱，有人贴了，是在极短时间内，在google的总部分布附近，突然出现的。如
果你不信，你去ｇｏｏｇｌｅｔｒｅｎｄ
自己看，明显是google故意来恶心中国人的。草，老将不舔梅迪会死么？
如果说你不会用 google trend,那你不要回我的帖子

a**********e
发帖数: 157

来自主题: JobHunting版 - 今天面试问题：有一个整数数组，如何find kth smallest element,如果数据是dynamic

就是说不断有新数据输入，而且数据量很大，分布在多个机器上，（新的data push到
哪个机器上是随机的)。
怎样做效率比较高？谢谢。

l*******e
发帖数: 1869

来自主题: Returnee版 - 四大牛人们，官方数据来了

2010年海归50万回国后就业行业及薪酬曝光
新闻晨报 2010-11-09 18:48:39
据相关数据显示，2010年的海归人数将达50万。成功留学后，他们是否也获得事业
的成功?他们的职业生态如何?最近，启德教育发布了海归就业力调查报告。在此次对海
归的就业综合调查中，从美国和澳大利亚留学归来的留学生各占近30%，其他留学国家
如英国、加拿大、欧洲和亚洲国家的海归各占10%左右。近九成海归的学历是本科以上
，其中本科的占33.33%，研究生学历的占55.56%，所学的专业主要是：商科、经济类专
业 (50.8%)、工程和技术类专业(26.23%)，以及文学和教育学专业(13.12%)。
调查结果显示，海归的整体就业形势较为乐观。 77.41%的调查者表示3个月内就能
找到满意的工作，这部分海归中80%以上是2个月内即可找到工作。对月薪的要求中，海
归薪酬在3000-5000元的占比最多，是28.81%，10000-30000元月薪的占22.03%，位居第
二，而5000-10000元月薪的占15.25%。
调查数据显示，其中60.32%的海归在出国前没有工作经验，他们对薪... 阅读全帖

a***s
发帖数: 5417

来自主题: SanDiego版 - 美国家庭拥枪族裔分布数据

谢谢数据。黑人的数据太低，大多是非法枪，统计不到。
在美国的asian里, 菲律宾人挺喜欢当兵的。估计家里拥枪率比较高。
韩国和台湾第一代移民里，男人大多数当过兵，所以买枪的可能也比较大。
华人大概是最最低的，特别是老侨，连开店的都不愿意持枪戒备。现在
新来的85后和90后比较容易接受拥枪自卫的概念。比老几代们强多了。
像东北纯爷们那样既能晒花晒食物又能晒枪，有立场但不参与吵架和竞选的，
境界确实高。

w********h
发帖数: 12367

来自主题: ECUST版 - 中国一流大学地区分布（共23所） (转载)

我回击他们的压根不是你想说的那些东西。
（1）华理的上海人不少了，据
http://xxgk.ecust.edu.cn/s/189/t/223/bf/8a/info49034.htm
上面报告，2013届本科上海生源学生1521人，比整个华东六省的都多（1449人），
占所有本科毕业生（4625人）的32.9%。
上海生源的本科生（我们那一届除外）拉低了华理高考录取分数的排名，
但整体录取分数排名还是超过13所985大学。
* 经查（下面的网站数据），最近几年的上海生源录取平均分已经从2005年理科第40位
升至2011年的24位、2012年的25位、和2013年的26位。不算差了。
http://kaoshi.edu.sina.com.cn/collegedb/collegebang.php?_action
（2）有钱有有钱的发展，没钱有没钱的发展。
钱很重要，但不是万能的，科研你也是懂的，人是关键因素，不是钱。
有人能在一穷二白的时代创造出诺贝尔奖水平的工作，
而有人能在国家耗资亿万的情况下打磨芯片。
（3）化工top3没啥好骄傲的，本来一个学校全是化工及化工相关，
为什么不是第一... 阅读全帖

o******e
发帖数: 1001

来自主题: Statistics版 - 还是MLE分布拟合问题

上个周五开了一个讨论maximum likelihood estimation的帖子，达到很多大牛的指点
，非常感谢！
在那个帖子里，我可以还是没有把问题讲清楚，我重新开一帖子，把问题讲得更清楚一
些：
有一组数据Ａ（不是一列，是好多列），我的目标是分析两个不同的拟合模型，看哪个
更好。我用的两个模型可以表示为：
X=f(A,N(0,1))
Y=g(A,N(0,1))
也就是说X,Y的模型的参数都从数据A得到，但是它们的结构是不一样的。我用maximum
likelihood estimation去拟合X和Y的模型，发现Y的likelihood稍微大一些，也就是说
Y模型稍微好一些。
同样的，因为有这样的反函数：
N(0,1)=f^-1(A,x),这里x是用X模型预测到的参数值。
N(0,1)=g^-1(A,y)，这里y是用Y模型预测到的参数值。
我么可以把f^-1(A,x)和g^-1(A,y)拟合到标准正态分布，我也计算它们相对了N(0,1)的
likelihood的值，这时候却发现f^-1(A,x)的likelihood大一些，这是不是说明X的模型
好一些？
另外，以前的帖子里很多... 阅读全帖

m****m
发帖数: 229

来自主题: Statistics版 - 请教一个统计的问题：如何决定一个能区别两类数据的阈值

手头有两组数据：A和B，都是一维数组。
A里面的数值描述的是被试人员在无意识地执行某个动作时
的行为特征值，B描述的是被试人员有意识地执行同一个动
作时的行为特征。从分布看，A和B的差别是显著的，而且分
布有小部分重叠（比如A的右端尾部和B的左端尾部）。
我的问题是：如果需要设定一个阈值，用来区分用户的行为
是有意的还是无意的（比如大于这个阈值认为是有意的，小
于则认为是无意的），该如何分析A和B的数据？有什么统计
方法可以用吗？
谢谢！

d******e
发帖数: 17

来自主题: Statistics版 - 一个人的数据可以做相关性分析吗?

可以，直接regression, correlation就行了；
但结论仅对此人成立,且不一定和group-pooled correlation相近；
Denote Z= Individual No
因为你估计的是 corr(X1,X2 | Z=1),
Need corr(X1,X2 | Z=i)=corr(X1,X2 | Z=j), for any i, j
且 corr(X1,X2 | Z=i)！=corr(X1,X2）
所以结论是你的estimator coverge to corr(X1,X2 | Z=1) 且还需假设 n1 ->\infty.
------------------------------------------
1、即使所有人都相同的 correlation within individual, group correlation is
not equal to correlation within individuals. 这和把一个longitudinal data进行
pool算一样；
2. 需要假设individual correlation equa... 阅读全帖

t*****9
发帖数: 569

来自主题: Statistics版 - 谁帮看看这组数据怎么分析？

有一组数，size=100万，是系统响应每个请求时产生的，大概分布如下
大概35万是0或者1，也即期待数据。
还有大概10万是[2,1000]的整数，是有问题的数据，说明系统反映有点儿慢。
剩下55万都是[1001，80000]的整数，说明系统压根儿没反应或者卡壳了。
系统显然有很多问题。现在想量化这个问题的程度，谁有好的办法？

F****3
发帖数: 1504

来自主题: Statistics版 - 100GB的SAS数据一般怎么处理？

没办法要处理大数据，按时间分布的。
请问这种情况一定要把数据拆开处理吗？
我把小数据合并以后连sort都没有办法了。但是实在pc环境下，是不是在linux下面这
个问题就解决了？
谢谢

E*V
发帖数: 17544

来自主题: sysop版 - 关于中国人吃孩子的数据 (转载)

o***s
发帖数: 42149

来自主题: Headline版 - 放炮对空气影响有多大？环保部晒出5年春节数据

环境保护部网站1日发布《2013年至2017年春节期间烟花爆竹燃放对城市空气质量影响分析》，分析指出，今年除夕至初一，受烟花爆竹集中燃放影响，多数城市PM2.5浓度快速上升。过去5年春节期间，京津冀及周边地区受烟花爆竹集中燃放影响较大。
↑2017年除夕至初一全国338城市逐小时重污染城市数量及PM2.5平均浓度
↑2017年除夕18时全国城市AQI级别分布情况
↑2017年大年初一2时全国城市AQI级别分布情况
分析称，2017年除夕至初一，受烟花爆竹集中燃放影响，多数城市PM2.5浓度快速上升。除夕夜18时，全国338个地级及以上城市中仅19个城市空气质量为重度及以上污染。随后随着烟花爆竹燃放量大幅增加，多个城市空气质量快速转差两到三个级别，到初一凌晨2时，183个城市达到重度及以上污染，其中严重污染城市105个，62个城市在除夕夜间小时AQI一度超过500。全国338个城市PM2.5平均小时浓度也由18时的62微克/立方米上升到213微克/立方米。
↑未禁燃城市北京的PM2.5小时浓度变化图
↑未禁燃城市天津市的PM2.5小时浓度变化图
↑未禁燃城市石家庄的PM2.5小时浓度变化... 阅读全帖

R*****d
发帖数: 1148

来自主题: History版 - 现代埃及人的Y染色体DNA谱系分布

是的。目前对于长城以南，新石器-青铜时代的中国古人的基因检测，已经有所结果，
虽然并不十分全面。这是2007年发表在Human Genetics上的复旦的论文（就是国内“分
子人类学”爱好者们熟知的金力李辉等人），Y chromosomes of prehistoric people
along the Yangtze River：
http://www.springerlink.com/content/f1234473n7261m8w/
全文可在此处下载，不过这个网站貌似是非官方的，呵呵：
http://comonca.org.cn/lh/Doc/A37.pdf
研究者们检测了中国境内，特别是长江中下游地区，在现有的古人类文化遗址上挖掘到
的，56件分属不同个体的古人类遗骨的Y染色体谱系。附图可以说是对此论文成果的简
洁概括。从图中我们可以看出，位于山西境内的，属于龙山文化范畴，距今约为四千年
的陶寺遗址，其被分析样品全部属于东亚本土的O系，而且均为当今中国密度最高的O3
。对于长江流域的古人类（其实不能叫“古人类”了，应该叫“古人”，他们很可能就
是我们的祖先，你看吴城文化已经位于... 阅读全帖

S********6
发帖数: 1264

来自主题: Military版 - 中医成功的证明——世界智商分布

中医成功的证明——世界智商分布
发信站: BBS 未名空间站 (Fri Nov 26 12:22:01 2010, 美东)
华夏最早发源于河南、山东和江浙一代，中医也是诞生在这片区域。
====================================================================
英教授绘世界智商地图：中日韩智商最高？
智商, 中日, 教授, 日本, 英国智商中日地图教授世界
-
DWNEWS.COM-- 2007年1月26日15:4:34(京港台时间) --多维新闻网
春秋中文社区http://bbs.cqzg.cn在收集、研究了130个国家的智商测试数据后，英国阿尔斯特大学名誉教授理查德·林恩得出了一个大胆结论：汉族人、日本大和族人、朝鲜族人拥有全世界最高的智商，平均值为105。而在汉族人里面，河南人、山东人、江浙人智商更是高达108，而海南汉人、广西汉人的智商只有103。作为东亚人当然愿意相信林恩教授的研究结果，但是他的结论却引发了包括种族歧视等话题的争议。
理查德·林恩教授是智商领域的资深研究者，1977年开始从事人种智商研究。... 阅读全帖

C*********l
发帖数: 10248

来自主题: Military版 - 中国屌丝群体的行业分布调查。

中国屌丝群体的行业分布调查。媒体业占96.87%，公务员占9.43%。（来源：搜狐财经
研究数据）

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天