第3页 - 关于数据分布的讨论汇总 - 话题女王

全部话题 - 话题: 数据分布

g*******u
发帖数: 107

来自主题: JobHunting版 - 代发天猫，蚂蚁，阿里云，淘宝几个技术职位，有意者请跟猎头联系

我是Jason，可以看下阿里巴巴的职位介绍，希望可以有合适的朋友介绍。我的电话是
15011062705，公司邮箱是[email protected]
/* */，个人邮箱是[email protected]
/* */。
天猫
岗位描述 1.参与创新供应链和供销平台各体系产品需求分析和研发工作；
2. 新供应链和供销平台业务架构和系统架构，以及架构的持续推广和落地；
3. 参与重大项目架构设计.开发.调优；并解决各种疑难杂症,系统优化，帮助系统架构
完善
4. 为团队引入创新的技术.创新的解决方案，用创新的思路解决问题；
5. 核查开发人员的系统设计和代码质量，规范团队技术文档和代码规范，提升团队整
体技术能力。
岗位要求 1.五年以上大规模分布式系统应用架构设计与研发经验，精通Java EE.
SOA.OSGI等相关技术；
2. 对各种开源的框架如Spring.Hibernate等有深入的了解，对框架本身有过开发或重
构者可优先考虑；
3. 熟悉分布式. 多线程及高性能的设计与编码及性能调优；
4. 较强的表达和沟通能力；具备严谨和高效的工作作风... 阅读全帖

S**********8
发帖数: 5

来自主题: FDU版 - 转载）苏27飞行员为免撞民居牺牲生命 HIT谭久彬为己私利伪造数据拉低我国最强洲际导弹制导精度

（直接google tanjiubin flickr) 你懂的
36页详文分析谭久彬教授-哈工大国家技术发明一等奖得主数据造假
http://pan.baidu.com/share/link?shareid=483744&uk=2520026659
zz from mitbbs
http://www.mitbbs.com/article_t/Military/39432873.html
摘要：哈工谭久彬教授技术发明一等奖号称4纳米的高精尖仪器实际比对精度只有14纳
米（详细分析见36页详文分析），而国际上用来比对的同类精度指标都在5纳米。
14纳米和4纳米的差别直接影响导弹命中误差扩大三倍。而中远程导弹如果不能精确打
击易被拦截（如朝鲜金三胖的导弹），更何况洲际导弹。
耳闻的谭久彬教授博士论文数据造假一直因为未能看到第一首资料而未能详查。最近同
事间接到一份<<哈工史上唯一发明一等奖数据造假>>的邮件，随附36页详细分析。谭久
彬教授给人的印象是谦和有礼之人，没想到敢如此明目张胆伪造数据。
名不见经传的圆度/圆柱度（谭久彬教授伪造数据的国家发明一等奖项目所属领域）用
在导弹制导上。仅有... 阅读全帖

S**********8
发帖数: 5

来自主题: PKU版 - 转载）苏27飞行员为免撞民居牺牲生命 HIT谭久彬为己私利伪造数据拉低我国最强洲际导弹制导精度

（直接google tanjiubin flickr) 你懂的
36页详文分析谭久彬教授-哈工大国家技术发明一等奖得主数据造假
http://pan.baidu.com/share/link?shareid=483744&uk=2520026659
摘要：哈工谭久彬教授技术发明一等奖号称4纳米的高精尖仪器实际比对精度只有14纳
米（详细分析见36页详文分析），而国际上用来比对的同类精度指标都在5纳米。
14纳米和4纳米的差别直接影响导弹命中误差扩大三倍。而中远程导弹如果不能精确打
击易被拦截（如朝鲜金三胖的导弹），更何况洲际导弹。
耳闻的谭久彬教授博士论文数据造假一直因为未能看到第一首资料而未能详查。最近同
事间接到一份<<哈工史上唯一发明一等奖数据造假>>的邮件，随附36页详细分析。谭久
彬教授给人的印象是谦和有礼之人，没想到敢如此明目张胆伪造数据。
名不见经传的圆度/圆柱度（谭久彬教授伪造数据的国家发明一等奖项目所属领域）用
在导弹制导上。仅有数枚的中国最强洲际导弹-东风5导弹仍沿用传统惯性制导系统。
采用“惯性三轴静压气浮陀螺及空间计算机”。精度(CEP)：500-2000米
... 阅读全帖

S**********8
发帖数: 5

来自主题: THU版 - 转载）苏27飞行员为免撞民居牺牲生命 HIT谭久彬为己私利伪造数据拉低我国最强洲际导弹制导精度

k*******y
发帖数: 219

来自主题: MedicalDevice版 - 精准医疗与下一代医疗器械

公元2015年1月20日，应该说是医学界的一个大事件。这一晚，美国的奥巴马总统说：
“今晚，我们将发布关于精准医疗的新政策，推动我们在征服癌症、糖尿病等恶性、慢
性疾病的道路上快速前进；未来每个人都有机会建立个人医学信息系统，我们自身及家
庭成员将更健康。”
多么雄伟的目标，传统的医学模式从疾病模式向社会-心理-生理的现代模式转变经过了
100余年的历程。近年生物技术取得长足的进步，且互联网应用越来越多的渗透至我们
的日常生活中，新鲜的医疗模式层出不穷，似乎预示着医学的发展将要迈入一个新的新
纪元！
奥巴马总统的长篇大论表达了这样一个核心观点:科学技术有极大的潜能来提高我们的
健康水平。奥总已经声明目前已资助、启动了一批研究项目来实现“精准医学”的目标
；详见(www.whitehouse.gov/precisionmedicine)。并认为是时候去迈开这历史性的
一步了，该“精准医疗”计划将有美国国立卫生院牵头，希望与来自全球的合作伙伴共
同努力来早日实现这一美好的愿景。
精准医疗的概念--将个体的预防及诊治方案纳入医疗、健康行业发展的总纲要中并不新
鲜。以输血过程中的血型鉴定为例... 阅读全帖

k*******y
发帖数: 219

来自主题: Medicalpractice版 - 精准医疗与下一代医疗器械 (转载)

【以下文字转载自 MedicalDevice 讨论区】
发信人: kilorocky (十年树木百年树袋熊), 信区: MedicalDevice
标题: 精准医疗与下一代医疗器械
发信站: BBS 未名空间站 (Fri Aug 28 10:38:44 2015, 美东)
公元2015年1月20日，应该说是医学界的一个大事件。这一晚，美国的奥巴马总统说：
“今晚，我们将发布关于精准医疗的新政策，推动我们在征服癌症、糖尿病等恶性、慢
性疾病的道路上快速前进；未来每个人都有机会建立个人医学信息系统，我们自身及家
庭成员将更健康。”
多么雄伟的目标，传统的医学模式从疾病模式向社会-心理-生理的现代模式转变经过了
100余年的历程。近年生物技术取得长足的进步，且互联网应用越来越多的渗透至我们
的日常生活中，新鲜的医疗模式层出不穷，似乎预示着医学的发展将要迈入一个新的新
纪元！
奥巴马总统的长篇大论表达了这样一个核心观点:科学技术有极大的潜能来提高我们的
健康水平。奥总已经声明目前已资助、启动了一批研究项目来实现“精准医学”的目标
；详见(www.whitehouse.gov/preci... 阅读全帖

发帖数: 1

来自主题: ChinaNews版 - 为了公信力，请慎重发布数据

近日，“我国超过5亿人有家庭医生”的报道遭到网民吐槽，称与自身感觉相去甚远。
虽然后来有报道称，卫计委相关人士对大家的疑问，比如家庭医生签约数字等进行回应
，并表示服务还要陆续跟上，但网民买账的依然不多。
无论承认与否，一个正常的社会总是要存在一定的大卫·休谟式的怀疑主义：我的
收入不及全民平均收入，这一数据肯定有问题;我的住房面积没有达到城镇人均面积，
这一数据肯定哪里出错了。有关家庭医生覆盖5亿人口的数据引发相当质疑，也是同一
个道理。
公共服务领域数据的产生，大抵都要经历一场与民众现实体验之间的“鸡生蛋还是
蛋生鸡”的逻辑纠缠。数据的真实与否，与社会怀疑主义并无关系，真实的数据应经得
起也配得上质疑者的审视。逻辑纠缠的解开需要大众科学普及与传播，而非人云亦云的
起哄。
以家庭医生为例，签约行为与就医体验行为是可以分开的独立行为，事实上存在两
类异质数据：一类是家庭医生覆盖数据，另一类是初次求助家庭医生病患服务的覆盖率
。第一类数据的基本签约范围可以客观测定，签约覆盖率并不等于真实服务覆盖率。而
第二类却是以病患发生为随机事件的变动值，事实上还可以分出两个子类：一个是病患
发生却没... 阅读全帖

wh
发帖数: 141625

来自主题: LeisureTime版 - 《未来简史》：民主/专制是两种数据算法

数据主义认为，宇宙由数据流组成，任何现象或实体的价值就在于对数据处理的贡献。
音乐、股市、文学、经济、政治，蚁群、蜂群、菌群背后都是数据流的不同模式，都可
以用算法来分析决策。
以前我们要把数据转化为信息，信息转化为知识，知识转化为智能。
而今天，数据量太大了，人类已经无法直接处理海量数据并形成信息，于是计算机算法
接管了数据处理的工作，而之后得出的的信息、知识，也就随之成了计算机算法的收获
，成了计算机的智能。
共产主义本质上是一种市场信息集中处理的政治算法系统，统一资源配置、统一商品定
价、统一规划社会经济活动的一切。
自由市场资本主义是分布式信息处理的算法系统。资本主义能够赢得冷战，是因为分布
式数据处理的效果就是比集中式处理更符合当今这个时代。
政治科学家开始把人类政治结构理解成数据处理系统，民主和专制在本质上是两套关于
收集和分析数据（信息）的对立机制。
而这种政治算法系统正在失去对数据的控制，科技发展太快，政治系统升级太慢，权力
出现了真空。
即便是互联网兴起之后的若干年，各国政府开始意识到这个科技成果对社会和政治格局
的影响力已经大到失控的地步，他们开始通过各项政策法规监... 阅读全帖

G***G
发帖数: 16778

来自主题: DataSciences版 - 板上有人能介绍用大数据发现了什么吗？

给你一大数据，然后你运用大数据，发现了一个有意义的结论。
这个结论被证实。
这个结论不能用传统的小数据分析方法得到。
板上有人能给出一个实例吗？然后介绍用到的大数据的工具。
对不起，我实在不明白什么叫大数据，什么是大数据和小数据的不同。
我的理解是：你用个人电脑分析一个数据，需要1个月的时间，
你用大数据的工具，可能只需要1天的时间。但是1个月的分析也好，1天的分析也好，
两者得出的结论应该是一样的。
也就是说所谓大数据分析，就是省时，但是提高不了预测精度。
另外还有一点，如果数据庞大，如何验证得出的结论呢？
如果验证不了，没人能说你的大数据分析方法是正确的，或者错误的。
而实际上，很多医学数据，大也好，小也好，根本就没有结论。
同一个人在不同时间做的NGS数据，就会很大程度的不一样。数据本身就是不能重现的。
结论如何得出呢？小数据分析都得不出结论，大数据分析更不能了。
并行分布的程序，如何调试呢？不是调试语法错误，是调试数据正确与否。

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

大数据日报 2015-02-08
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-08/short.html
1) 【CIO Network: Making Use of Imperfect Big Data】 by @爱可可-爱生活
关键词：应用, Amy Braverman, 视频
[视频]《CIO Network: Making Use of Imperfect Big Data》 [1] NASA的Amy
Braverman博士访谈，讲#大数据#时代如何用不同的数据集，形成有意义的结论，应对
大数据的不完美。要想清楚最主要的问题、数据采集渠道，采用新的统计工具，分布数
据的处理是大问题云: [2]
[1] http://www.wsj.com/video/cio-network-making-use-of-imperfect-big-data/727E3... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-19
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-19/short.html
1) 【Spark RDD API详解(一) Map和Reduce】 by @ghosert
关键词：计算框架, Spark
【Spark RDD API详解(一) Map和Reduce】 RDD是Spark中的抽象数据结构类型，任何数
据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普
通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同
的机器上，同时可以被并行处理... [1]
[1] https://www.zybuluo.com/jewes/note/35032
2) 【Docker in Docker】 by @DockerOne
关键词：虚拟化, Docker, 容器, 张磊
【D... 阅读全帖

j**********n
发帖数: 7

来自主题: ChinaNews版 - [转]36 页详文分析谭久彬-哈工大国家发明技术一等奖得主数据造假

谭久彬教授宣传其“研究团队自主研制成功系列大型超精密测量仪器和专用加工/检测
装备50余台套，成功应用于航天和国防工业部门”。
而36页的祥文分析结果表明，谭久彬教授经过一系列数据伪造及数据篡改，其4纳米的
仪器精度只是10多纳米的精度。谭久彬教授的博士论文敢对数据如此大动大改，总算明
白为何其唯一能够面向社会公开检测的计量院这台无法对社会公开检定测试。而其他的
分布于航天国防的军用单位的纸面精度的仪器最终导致我最强洲际导弹有无法与先进国
家匹敌的制导精度
另外了解到，谭久彬教授在计量院的这台仪器派心腹专人把守，对上级部门开具精度等
证明材料可以，但是不承接任何社会公开的检测计量检定业务。因为一旦公开大批量检
定就会露马脚，根本达不到4纳米甚至国际比对的5纳米精度。所以只能用“用这仪器测
出的数据和国外的计量院测出的数据基本吻合，应该没问题。其关键技术在于主轴的重
复性和气浮轴上，这方面泰勒做得好。”等含糊言辞应付。而泰勒最高精度是5纳米甚
至更高，国际比对的精度指标是5纳米。谭久彬教授的仪器如果和国外的数据“基本吻
合”，那应同时满足：
1.比对数据指标5纳米左右。
2.主轴精度的重... 阅读全帖

u***r
发帖数: 4825

来自主题: Military版 - 媒体曝光民间和官方税负数据存巨大差距

http://biz.cn.yahoo.com/ypen/20111227/781864.html
——个人与企业的税负清单
《中国经济周刊》记者郭芳|北京、浙江报道
年末，五位嘉宾在中国收视率最高的国家电视台分别作主题演讲。很巧合的是，其中的
四位主讲嘉宾都重点提到了同一个问题：减税。
他们分别是刘明康、柳传志、樊纲、陈志武，角度虽有不同，但观点较为一致：当前，
中国的税负水平太高了，应当减税。
不过，这与有关部门的主流观点并不一致。尽管不同主管部门给出的数据并不一致，但
立场结论相同：中国目前的宏观税负水平并不高。
事实上，在牵涉到每一个人利益的税负问题上，民间感受与官方立场的相左一直存在，
但在2011年的一整年，这种矛盾和冲突的尖锐化多少令人有些意外。
12月11日，财政部刚刚公布，2011年前11个月的全国财政收入97309亿元。全年财政收
入超10万亿元已无悬念。
这必将在统计上推高早已招致颇多非议的宏观税负水平。
樊纲说，财税改革确实到了一个新的时候。刘明康主张，政策性、结构性的减税规模应
当有所扩大。
12月14日，中央经济工作会议宣布：财政政策要继续完善结构性减税... 阅读全帖

f****o
发帖数: 8105

来自主题: Talk版 - 习近平以“反腐大数据”曝江派官员丑闻 (转载)

【以下文字转载自 WoldMiscNews 俱乐部】
发信人: fuxeto (富士德), 信区: WoldMiscNews
标题: 习近平以“反腐大数据”曝江派官员丑闻
发信站: BBS 未名空间站 (Sun Nov 8 12:51:44 2015, 美东)
港媒披露，中南海已经在研究建立落马官员的“数据库”，其中以数据的方式公布的各
个案例都是江派官员触目惊心的贪腐。（Fotolia）
习近平当局的强势反腐矛头指向江泽民的迹象愈发显现。港媒披露，中南海已经在研究
建立落马官员的“数据库”，其中以数据的方式公布的各个案例都是江派官员触目惊心
的贪腐。分析认为，习近平当局明显准备追责江泽民。
“反腐大数据”公开几乎都是江泽民集团官员
中共“十八大”习近平掌权后，反腐风暴强劲，至今势头仍在持续。
中共新华社此前公布，今年开始截至2015年8月25日，中纪委网站已经通报了472名领导
干部的违法违纪案件，平均每周通报14人。在该时间段，被通报的官员中，省部级及以
上高官共38人。
“十八大”以来到2015年7月底，大陆总计有116名省部级（部队为军级）及以上官员因
为涉及贪腐等... 阅读全帖

T**d
发帖数: 824

来自主题: Arizona版 - 交友吧Arizona会员分布情况 (转载)

【以下文字转载自 Piebridge 讨论区】
发信人: pieatmitbbs (pieatmitbbs), 信区: Piebridge
标题: 交友吧Arizona会员分布情况
发信站: BBS 未名空间站 (Sat Jan 7 01:52:43 2012, 美东)
版主好心人给些包子吧,看我这么辛苦的份上
请转Arizona版
交友吧Arizona会员分布情况(个人想看看这个pool到底有多大),估计全美情况也差不离
其实是粗略分布:
我只对男女25 到35 查看了下:
个人结论是:
1. 男女比例318/132=2.4 , Phoenix的女青年们从数据上是有希望的,如果能一个萝卜对个
坑该多好,但现实怎么不是这样呢?
中国全总人口男女比117:100
http://zhidao.baidu.com/question/131584665
2. 男女都在29岁达到最大值, 25,26岁都很少
3. 女*2.4/男, 女在29岁前的相对数量要小于男的,反之男在29岁后的相对数量要小于
女的
女青年在29岁前需努力
[1] 0.8000000 0.7200000 0.48... 阅读全帖

c***j
发帖数: 483

来自主题: Statistics版 - 如何计算两个分布的相似度

比如有两个班的学生成绩在ABDE分数段的分布，
班级1：
A: 20%
B: 30%
C: 40%
D: 10%
班级2：
A: 25%
B: 20%
C: 35%
D: 20%
我想计算两个分布的相似度
可以用Kolmogorov-Smirnov Test么？
用t-test的话，要求分布服从normal distribution对吧？实际数据不符合
绝对外行，请多指教

T******y
发帖数: 14506

来自主题: Headline版 - 北京发飙了:空气质量测定数据不能看美国大使馆的眼色

而北京市环保局的空气质量监测点不仅分布于市区繁忙街区，也分布于郊区，其公布的
数据代表了郊区水平。

n****o
发帖数: 1167

来自主题: Military版 - 中国人月收入分布饼图

中国人月收入分布饼图
根据最近财政部个税法修改发布会宣布数据，
月收入高于3500元的有0.24亿人，
介于2000元到3500元之间的有0.60亿，
其余人月收入低于2000元。
这其余的人当然不是13亿，
而应当除去60岁以上20岁以下，
再减半以考虑夫妇非双职工，
按13亿的1/4，即3.25亿人口有能力挣钱，
减去高于2000元月收入的0.84亿，
得月收入低于2000元的人数约为
3.25亿 - 0.84亿 = 2.41亿。
总结
按13亿的1/4，即3.25亿计算有能力挣钱人口，其中
月收入高于3500元的有0.24亿人，占7.4%；
介于2000元到3500元的有0.60亿，占18.5%；
月收入低于2000元的人数约为2.41亿，占74.1%。
以上是本人估计，欢迎大家批评修改，
特别是个体户收入数据是否已经包括不清。谢谢。
饼图贴不上，老是“服务器发生故障”，希望在跟帖中本人能够补上。

f**********n
发帖数: 29853

来自主题: USANews版 - 来看看亚裔的收入分布吧

你得先给数据来源。
其实就算你给的数据是对的，一个很合理的解释是，低收入是老移民，高收入是新移民
。自从共和党尼克松出访中国，大批中国精英来美，人数成倍增加。收入偏向两头很正
常的事情。
你要不要接着研究美国日裔的收入分布？那个更加夸张。

a*********w
发帖数: 169

来自主题: JobMarket版 - 互联网公司招聘大数据工程师 - 工作地点杭州和湾区

互联网公司招聘大数据工程师 - 工作地点杭州和湾区
互联网公司新组建的大数据团队招聘数据和人工智能方向的岗位。
公司网址：www.PingPongX.com
公司性质：互联网支付，金融科技，电商服务，大数据
公司情况：2015年创立，C轮 venture backed by Fidelity等多家顶级的风险投资机构
，目前200人的团队，公司员工分布在杭州，深圳，旧金山，卢森堡，香港和东京
岗位名称：数据分析师，数据工程师，数据科学家各若干人
工作地点：杭州和旧金山，最好是杭州
联系方式：站内投条并简单介绍个人情况，或者联系email [email protected]
公司简介：
An innovative payment service provider for cross-border eCommerce sellers.
Our mission is to empower our customers to sell anywhere in the world. We
are committed to bring best-of-class services to ou... 阅读全帖

D*a
发帖数: 6830

来自主题: Joke版 - 北京环保局:空气质量不能看美国使馆所监测数据 (转载)

笑点不是这个么
记者了解到，设立空气监测的站点需要在整个区域具备代表性，且50米内不能有污染源
，否则将严重影响监测结果。但美国大使馆所在地区交通繁忙、人流密集，而北京市环
保局的空气质量监测点不仅分布于市区繁忙街区，也分布于郊区，其公布的数据代表了
全市整体水平。

e****e
发帖数: 677

来自主题: Computation版 - matlab如何画离散数据的概率分布？

比如有 10个数据
5个1，2个2，3个3
则画出来的分布为
1 0.5
2 0.2
3 0.3
怎么画出来？
谢谢

H*********S
发帖数: 22772

来自主题: Military版 - 让我信服的是明确可靠的数据，不是主观认为或道听途说

举个两个例子说明这是什么意思。
例子1：
有一次郎咸平大教授（也可能是有人借郎教授之名，网络水军无处不在）抨击中国烧煤发电污染环境，作为论据，郎教授拿美国做参照，说“美国害怕污染环境，已经不敢烧煤发电，电力来源基本都靠核电。。。”云云。
这些描述在我眼里就是“主观认为”，或者算“道听途说”，我不管他是郎教授或郎院士，甚至郎诺贝尔。
于是我查了一下，美国能源部gov域名的官方网站有最近几十年来非常详实的数据，列出每年美国电力来源的分布，烧煤，烧油，水力，核能都分别提供多少电力来源。这就是我说的“明确可靠的数据”。这些数据会自己说话，告诉你郎教授有没有胡扯，他胡扯得有多厉害。
例子2：
人民币购买力的问题。
不管你喋喋不休举几个例子，贴几张超市照片说中国物价多高或多低，一美元可以相当于中国1块人民币，2块，或10块，这都是“主观认为”或“道听途说”。
世界有几个权威性的金融机构，国际货币基金组织，世界银行等，它们给各国各地区都有基于名义汇率和基于可比购买力的GDP数据，对于中国，人民币对美元名义汇率已知，nominal GDP 和 PPP GDP 数据都有，可以计算出人民币相对于美元的实际... 阅读全帖

d******e
发帖数: 7844

来自主题: Faculty版 - Faculty本来是个很好的职业

工业界都是价值导向，赚钱是第一位的，所以谈business value能吸引投资者。
至于说Volume和Velocity，就是为了凑出V字头，而把scalability和efficiency改头换
面。CS里这么多年的算法复杂性研究，分布式计算，并行计算，诸多方向都是在致力于
提高这两个方面的表现。
你后面说的Variaty和Veracity也是对就概念的新包装。
Variaty可以认为是数据本身的complexity的复杂性度量，数据越多，数据分布其实越
复杂，需要更复杂的模型。过去数据量比较小的时候，不足够支撑得到可靠的复杂模型
。所以简单模型的表现很好，现如今数据足够多，复杂模型的优势就体现出来了。典型
的例子就是这些年的Deep Neural Network。还有Transfer Learning，需要想要对数据
来自不同domain做adaptation。
Veracity要对数据的可靠性进行检验。Crowd Sourcing，Outlier Detection，
Adversial learning都属于这一类问题。
这种N个V的归纳好处当然是很多的，是直观，容易抓住眼球... 阅读全帖

x**w
发帖数: 7947

来自主题: Soccer版 - zzC罗和老穆勒数据对比

新浪
http://sports.sina.com.cn/g/laliga/2017-06-09/doc-ifyfzfyz2718181.shtml
《马卡报》的文章这样写道：“梅西与C罗谁更强，这是一个仁者见仁、智者见智的问
题，不过，如果把C罗定义为一个射手，那认为他超出梅西也是合情合理的。”人们更
习惯于把如今的C罗视为一名射手，而提到梅西、马拉多纳、克鲁伊夫、贝利、迪斯蒂
法诺这些巨星的时候，更多可能想到的是得分能力极强的前场组织核心。因此在“杀手
”的比较当中，以上几位并不是C罗的比较对象。
进球是足球的硬通货，而进球也可以带来胜利和冠军。如果以至少3次进入金球奖
前三名为标准，结合进球效率和俱乐部、国家队以及个人荣誉，不难得出C罗要PK的三
尊大神：盖德-穆勒、范巴斯滕和罗纳尔多。
进球效率
盖德-穆勒效率惊人盖德-穆勒效率惊人
从进球效率上来说，结合俱乐部和国家队数据，场均进球0.94个（769场721球）的
盖德-穆勒无疑是最突出的。即便把他在诺德林根和拜仁踢低级别联赛的两个赛季以及
在美国踢比赛的时候去掉，仍然能够保持场均0.93球（实际上在美国的71场38球还拉低
... 阅读全帖

h*c
发帖数: 1859

来自主题: Military版 - 让我信服的是明确可靠的数据，不是主观认为或道听途说

你是5毛，。

煤发电污染环境，作为论据，郎教授拿美国做参照，说“美国害怕污染环境，已经不敢
烧煤发电，电力来源基本都靠核电。。。”云云。
院士，甚至郎诺贝尔。
列出每年美国电力来源的分布，烧煤，烧油，水力，核能都分别提供多少电力来源。这
就是我说的“明确可靠的数据”。这些数据会自己说话，告诉你郎教授有没有胡扯，他
胡扯得有多厉害。
当于中国1块人民币，2块，或10块，这都是“主观认为”或“道听途说”。
都有基于名义汇率和基于可比购买力的GDP数据，对于中国，人民币对美元名义汇率已
知，nominal GDP 和 PPP GDP 数据都有，可以计算出人民币相对于美元的实际购买力
。这是“明确可靠的数据”。

m****a
发帖数: 1

来自主题: CS版 - 如何模拟multimodal的时间序列数据？

如何模拟multimodal的时间序列数据？
1.这些时间序列是等间隔观测数据;
2.有数万类似的时间序列
3.每个时间序列长度36(每10天一个数据，一年的数据)
4.每个序列中峰形可能从1到4个
5.每个序列的具体峰个数事先不知道
6.每个峰的分布形态不清楚
想设计一个函数，比较好地模拟这些时间序列，以便提高时间分辨率（模拟每天的数据）
，用模拟好的函数得出没有观测期间的情况。
试着用polynomial函数模拟，每个序列的最佳维数由RMS确定。但是维数一高，提高时间
分辨率后，有些地方高频小振动很厉害。有什么好的函数形式么？
各位大虾，请多指点。
//bow

s******a
发帖数: 184

来自主题: Database版 - 一个关于big data 系统架构的设计问题

谢谢你的回复。项目大概的背景是这样，有不同的数据源，传统的会计数据，一般
都在SAP里。一些管理数据和市场销售数据分布在SQL 和SAP上。现在很多生产过程中
产生的实时数据也会存下来，这部分因为是新的所以肯定要放在 HADOOP ／SPARK系统
上。从供应链的角度，肯定希望有一个分析平台能够把所有这些数据都放在一起，支
撑可能会需要的全局分析。（确实有点象前面回帖中提到的先盖房子再去老婆）。现
在一个主要的问题就是是否需要把SAP和 SQL里的所有数据都物理性的存到HDFS上。这
种物理性的彻底备份会使得SAP team 和 SQL team 觉得他们的工作受到威胁。这个
转向 HADOOP／SPARK的proposal就很难通过。所以我们想找到一个message layer的设
计只把分析需要的data 实时传过来。不知道这样的想法是不是合理。

f*******i
发帖数: 8492

来自主题: Statistics版 - 请推荐一种适合的数据标准化的方法（data normalization）

我先在手头有这样一组数据，模拟一维空间下，分子互相碰撞，希望得到径向分布函数
的图形。
我现在手上有大约19000个数据，每个数据表示任意时间内，某一个分子，距离中心分
子的距离。
然后我利用excel中data analysis中的Histogram命令得到了在0-40（以0.1为步长）的
Bin值，以及在每个Bin值上的frequency。
用以上两组数据作图，虽然图形比较接近正规的radial distribution fuction的标准
图形，但是样子不是很满意。
请问，在这种情况下，应该用什么方法来使得数据标准化，得到比较优化的图形？

S********6
发帖数: 8

来自主题: DataSciences版 - 做个调查了解一下，有公司用HP Vertica 和 Hana 这些 data base的么？

抛下砖：
Vertica的前身是c-store(即column-oriented的RDBMS)，由mike stonebraker那帮人搞
出来的。相于传统的其他RDBMS，Vertica从数据存储的机构上发现改变，大大减少了IO
，从而提高了数据读取的效率，它可以支持数据分布到cluster上。其他的优点，有兴
趣的可以去了解相关资料。
Hadoop，即HDFS+MapReduce Framework (2.0版本还有YARN)，它是一个适用于大规模数
据处理的平台。现在它和Veritca有互通的接口，但它们不是一回事。
1 hadoop的数据一block的形式存在HDFS上，而Vertica有自己的数据存储结构，把
RDBMS 的数据partition存到一个或多个节点的disk。Hadoop存的一般是unstructured
data，而Vertica存的是structured data.
2 hadoop的execution engine 是MapReduce ,而vertica有自己的query engine，支持
transaction execution.
[在 SQy... 阅读全帖

p***e
发帖数: 3852

来自主题: _Hope版 - 一根数据曲线中，到底能作多少假？

被一家中国公司的产品数据给雷倒了，一根简单的曲线，似乎每多看几眼就发现新的破
绽，就花了些时间仔细研究了研究
1. 用全宽full width at half maximum（FWHM）代替行业默认的半宽half width at
half maximum（HWHM），横坐标宽了一倍，而且中文描述误导成半宽，数据一下比国际
国内领先指标好上一倍。
2. 乾坤大挪移，把整根曲线往上移。你问这怎么看出来的，一是数据too good to be
true；二是明明是高斯分布，横坐标趋向无穷时数据不往0收敛，而是收在30%，三是半
宽处对应的高度本来应该是50%，而它是60%多。。。往上平移30%之后的破绽，呵呵
3. 纵坐标采用对数坐标，这样从100降到10的高度差，和从10降到1的高度差是一样的
，这样整跟曲线看起来就很平缓。以前股市狂掉的时候，华尔街也喜欢用对数坐标来麻
痹股民
更牛叉的是这样的数据也堂而皇之地放在网页上忽悠客户，威武啊威武

C****o
发帖数: 1549

来自主题: Military版 - 白种人智商分布呈金字塔型，中国人智商分布呈枣胡

金字塔形不符合高斯分布你省省劲别瞎编数据了

s******y
发帖数: 1117

来自主题: EB23版 - 用PERM数据估算排期靠谱吗？

看了近几年的PERM数量：（因为看版上报绿的都是12财年的了，所以2012以前的就不看
了）
2012: 3879
2013: 2504
2014: 5107
2015: 7217
本人PD是14年4月（9.25事件受害人……），假设上述所有人批绿卡的日期按照PD顺序
均匀分布，而且PD也是均匀分布整个财年，再假设从2016年1月1号开始批2012年的那些
人，那我算了一下还要等20个月才能拿卡。
这个计算有很多误差：
（1）PERM里有withdraw的，而且也不一定所有这些PERM最后都排EB2EB3，所以上述数
据是over-estimate
（2）我算的每年EB2C+EB3C 5300人，假设每年这5300个名额都能用满。可能用不满，
那样这个算法就under-estimate
（3）批绿卡的时间均匀分布。这个我实在不知道该怎么做model，所以就用了最简单的
linear interpolation.
问题就是我也不知道这些误差里面哪些大哪些小，哪些能dominate最后结果。总之如果
真的两年之内拿卡的话感觉还可以。不知道如果算得过于乐观了的话乐观了多少……

l*******n
发帖数: 293

来自主题: NewYork版 - 纽约华人数量和居住分布情况

纽约总共近五十万华人，占纽约总人口的百分之六(6.0%)；在亚裔里面，华人几乎占一
半比例(47.3%)。华人实际人口数超过五十万不少，因为语言和流动性因素，使不少新
的移民无法统计在内。除了曼哈顿的中国城外，布鲁克林区，皇后区也都有华人集中
居住区。
纽约华人数量和分部:
纽约市
华人人口四十八万六千(486,463)，占市总人口6.0%。主要居住社区：曼哈顿的中国城
，布鲁克林七八大道附近，皇后区的新兴中国城法拉盛。皇后区在人口总数量和比例上
都超过了曼哈顿的老中国城。从2000年到2010年统计的增长数字是十二万(124,932)，
增长幅度34.6%
曼哈顿(Manhattan)，九万五千(94,877)，占该区人口6.0%。主要集中在Chinatown和
Lower East Side两个社区，占曼哈顿华人一半。人口增长不是很快，主要因为是老城
，受曼哈顿空间限制，但慢慢也向周围扩展，以至于小意大利(Little Italy)现在就只
剩下Mulberry一条街和几个饭馆商店。曼哈顿中国城的另一个特点是年龄老化，年龄中
间值39岁多。
布朗克斯(Bronx)，七千(6,74... 阅读全帖

l*******n
发帖数: 293

来自主题: NewYork版 - 纽约市华人居住分布情况图

纽约市华人居住分布情纽约市华人居住分布情
http://www.nyxing.com/html/chinatown/demographic.html
美国人口统计过程、方法、及数据类型：
http://www.nyxing.com/html/intro/demography.html

C*********l
发帖数: 10248

来自主题: Joke版 - 中国屌丝群体的行业分布调查。 (转载)

【以下文字转载自 Military 讨论区】
发信人: Closingbell (我一刀斩到你桃花开), 信区: Military
标题: 中国屌丝群体的行业分布调查。
发信站: BBS 未名空间站 (Thu Sep 12 19:31:29 2013, 美东)
中国屌丝群体的行业分布调查。媒体业占96.87%，公务员占9.43%。（来源：搜狐财经
研究数据）

p*********s
发帖数: 29

来自主题: Piebridge版 - 交友吧Arizona会员分布情况

版主好心人给些包子吧,看我这么辛苦的份上
请转Arizona版
交友吧Arizona会员分布情况(个人想看看这个pool到底有多大),估计全美情况也差不离
其实是粗略分布:
我只对男女25 到35 查看了下:
个人结论是:
1. 男女比例318/132=2.4 , Phoenix的女青年们从数据上是有希望的,如果能一个萝卜对个
坑该多好,但现实怎么不是这样呢?
中国全总人口男女比117:100
http://zhidao.baidu.com/question/131584665
2. 男女都在29岁达到最大值, 25,26岁都很少
3. 女*2.4/男, 女在29岁前的相对数量要小于男的,反之男在29岁后的相对数量要小于
女的
女青年在29岁前需努力
[1] 0.8000000 0.7200000 0.4800000 0.8516129 1.0909091 1.2000000 0.8275862
[8] 1.3090909 1.2387097 1.1250000 1.0838710
4.男女都在30,31达到了一个local minimal; 随后女青年数量逐步减少,而男青年数量
基... 阅读全帖

l***a
发帖数: 38

来自主题: CS版 - 大规模分布系统下的高效算法??

【以下文字转载自 Programming 讨论区】
发信人: lirpa (天空海洋山脉), 信区: Programming
标题: 大规模分布系统下的高效算法??
发信站: BBS 未名空间站 (Fri Mar 23 14:20:28 2007), 转信
最近在面试一些工作很多都提到要求能设计大规模分布系统下的高效算法，
以前算法就看过mit的那本introduction to algorithms, 了解一些基本的数据
结构算法，对于这种情况下的算法考虑没什么了解，有没有高手大概讲讲几个
基本point或者推荐些资料看看？

f*******y
发帖数: 988

来自主题: CS版 - 比较两组数据差异性用啥统计量来着的？

有很多统计量可以描述分布的差异的
nonparametric的最常用的就是K-S
如果你可以assume gaussian的话有更多的test
常用的一些分布也有对应的test
分布上来说1，2个outlier问题不大

c****a
发帖数: 37

来自主题: Mathematics版 - 请教一个二级分布的估计公式

各位朋友好，我有一个问题想请教大家帮忙，具体在附件里。大概是有一个两级的正态
分布，只能观测到最下一级的数据，但是想实时估计两级的分布参数。
查了很多资料，都没有实时的公式，网上也没能找到。所以想请教大家。如果你恰好知
道这样的公式，或者相关的文献，能够告诉我就太好了。多谢了。或者能告诉我去哪里
寻求帮助也好。
这是我自己鼓捣的一些东西中的一个，如果你有兴趣，咱们也可以合作，是关于经济方
面的论文，如果你对连续时间也熟就更好了。
祝大家一切顺利。

S******r
发帖数: 11

来自主题: Mathematics版 - 如何test两个Poisson分布的mean difference? 急 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: Superior (瘦歪歪~苏必列尔湖的夏天), 信区: Statistics
标题: 如何test两个Poisson分布的mean difference? 急
发信站: BBS 未名空间站 (Thu Oct 8 22:39:22 2009, 美东)
现在知道两年内某事件发生了50次，紧接下来的两个月发生了6次，假设两段时间内都
服从poisson分布，请问如何test whether the intensity difference between the
two time period is significant?
多谢。我的想法是用normal distribution来近似，但是好像有sample size的问题。请
问大家用上面观察到的数据如何进行test? 具体就是（1）如何做近似test (用CLT?) (
2)如何做基于精确distribution的mean test?
多谢！

s****l
发帖数: 10462

来自主题: Statistics版 - 急，比较两组数据，globally and individually, 包子！

Thanks for the reply.
～不过我"猜"你可能是要问两个分布是否一样.
对，基本上就是如果如下的结果就肯定是globally一样：
a 2 4
b 1 2
c 2 4
d 5 10
OR
a 2 5
b 1 2
c 2 5
d 5 11
也就是说，如果d在第一方法中最高，我也希望它在第二组也是最高的，到不一定都成
比例关系（想前一种情况的两倍，绝对就是globally the same，象后一种情况，两组
都是d->b/c->a这种排序，也可以说是globally the same）
～globally, 就是检验两组样本背后的两个分布, 是否一样. 当然两个分布是否一样有
不同的标准, 如果你只考虑均值, 那么就是2 sample t test, 当然你必须假设两个分
布本身都是正态分布等等.
只考虑均值的话，那不行，两个方法的得到的总和不一样啊，要不先都normalized to
the same sum?
Let's talk about the first question first, globally.

C******y
发帖数: 2007

来自主题: Statistics版 - 请教正太分布和普耳松分布。

哪位老师教你的 “因为数据是离散的（次数），这显然是普耳松分布”

site
NORMDIST(

w*******9
发帖数: 1433

来自主题: Statistics版 - 请教正太分布和普耳松分布。

1）同site不同周的observations独立吗？不独立的话如何刻画dependence?
2) 一共就过去10周的data, parametric 更可行。而且若是过去10周也有0出现，你
也不知道那个0是不是因为睡着了，笼统地Normal distribution 不太好，因为1）确实
有正的概率睡着，所以有正概率exactly 取值0，所以mixture还是更合理一些 2）即使
能很准确地估计normal 的mean and variance, P(X<=0) 表示的是中和了睡着和不睡着
后的出现0的概率，而不是你想要的“若不睡着，出现0的概率”。
3）同一个site数据太少，是否可以borrow strength from other sites using mixed
model? 比如不同site睡着的概率一样或服从某分布。
我瞎讲的。理论上讲讲大家都会，关键是有没有validation dataset 来评估。

Y****N
发帖数: 8694

来自主题: Military版 - 我觉得老中比老印更适合数据科学这个行业 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: phunter (程式猎人：LA摸机会资深成员), 信区: JobHunting
标题: 我觉得老中比老印更适合数据科学这个行业
发信站: BBS 未名空间站 (Tue Apr 28 18:07:59 2015, 美东)
感谢大家在前面一贴的讨论，我想起来之前思考的老中如何在IT业干掉老印。在美国工
作的老中的学历分布上多是硕士博士，而老印很多就是本科或者高中。按照现在码农面
试都要刷题的尿性，老印靠刷题靠裙带靠面经能混上各个码农的职位，老中在这些职位
上面试就比较吃亏。倒是现在数据科学这个比较新的行业，因为对数理背景和机器学习
知识的一些要求，还没有太多智力足够学历足够的老印挤占，也没有面试时候的各种恶
心事，倒是适合我们老中这样数理基础好的又诚实的。所以我建议如果犹豫是否要刷题
做码农的硕士或者PHD，可以自我评价一下自己的数理基础，然后上上coursera的
machine learning课看看自己适合不适合，数据科学领域欢迎你，不要等老印都占了再
来哟。
PS 数据科学领域倒是没码农那样230k base之类... 阅读全帖

C******y
发帖数: 3249

来自主题: Military版 - 不好了卡桑，上海共媒以大批数据对日本打脸

解放日报
不管日本有多发达，中国都能在5年内再造一个日本。
2015年中国GDP是10.5万亿美元，日本GDP是不到4.2万亿美元。从2016年到2020年，中
国保持6.6%的平均增速，经济总量会比2020年增长37%左右，增量为大约4.2万亿美元，
相当于在地球上新创造出一个日本这样的国家。
日本民族从明治维新以来100多年一代代人奋斗，不惜通过战争死亡上千万日本人，不
惜二战后过劳死一代人达到的成就，现在的中国5年就可以达到，这也表明现在中国的
实力达到了多么强大的程度。这也是中国领土，人口和资源对日本压倒性规模优势的体
现。
实际上五年再造一个日本并非只是个预测，在过去的五年，这已经真实的发生了，2010
年中国经济总量第一次超过了日本，而2015年，中国GDP总量已经是日本的2.44倍，过
去五年中国经济的增量等于1.44个日本。
如果是美国呢？美国2015年GDP大约17.9万亿美元，如果未来五年美国保持2.5%的增速
，8年就能再造一个日本。
要知道日本是世界前三的经济大国，中美两国都可以在8年内轻易的在地球上造出一个
世界第三。这也说明中国和美国已经把地球上的其他国家拉... 阅读全帖

Y****a
发帖数: 243

来自主题: JobHunting版 - 问一道(大)数据 algorithm

为什么发在这里？发在统计或者数据科学版更合适吧。
我的问题是，这样取样的原因是什么？这样就相当于假设停留的时间和结果(正负)之间
是无关的。可总觉得这样假设有风险。有可能把重要的因子忽略了。
如果确实可以这样假设，那停留的时间是有限的吗？如果有，先n遍历一下数据计算分
布，然后，再跟据正负数据的分布，从每个bin里随机取相应个数的数据。
我不是搞算法的，这个只是一个可能的思路。

l********k
发帖数: 14844

来自主题: Joke版 - 学术一个：不完全数据的统计怎么做？ (转载)

【以下文字转载自 Statistics 讨论区】
发信人: lunchbreak (考不上印度理工，才到麻省理工来), 信区: Statistics
标题: 学术一个：不完全数据的统计怎么做？
发信站: BBS 未名空间站 (Wed Apr 17 17:20:54 2013, 美东)
给一组数据，知道它是normal distribution，可以直接算mean, variance。假如这组
数据是被threshold过的，threshold已知，大于阈值（或者小于，或者边界值之外）的
数据都被砍掉，但是分布的大部分都在阈值（边界值）以内，只是被砍掉尾巴了。有没
有unbiased的算法直接给出mean和variance，而不用去对histogram作gaussian
fitting的？
多谢

w********h
发帖数: 12367

来自主题: ECUST版 - 中国一流大学地区分布（共23所） (转载)

综合排名华理比不过同济，这是数据一；
质量排名华理胜过同济若干次，这是数据二；
都是数据，而且不是我做的数据，不反对，不支持而已。
如果你有立场、观点，那我让你解释下数据而已。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天