第6页 - 关于数据量的讨论汇总 - 话题女王

全部话题 - 话题: 数据量

发帖数: 1

潘建伟：量子物理最美妙的地方是包容
点击：115 作者：潘建伟来源：南方人物周刊发布时间:2018-02-14 09:47:14
他培养出数位“操纵光子的巫师”，从三光子到十光子，一路保持世界领先，将
“量子纠缠”进行到底；他将“量子隐形传态”从科幻世界带进现实，实现距离和维度
的多次跨越。
前排左起：陈宇翱、潘建伟、徐飞虎，后排左起：陆朝阳、张强图 / 沈煜
在1992年的本科毕业论文中，绰号“阿尔伯特”的中科大近代物理系学生潘建伟，选择
站在“偶像”爱因斯坦一边，集中研究、总结了量子世界的各种佯谬。此后25年穷极探
索，从一张桌子的距离，到千公里级的“星地穿越”，他所有的实验数据证明：爱因
斯坦是错的。
他培养出数位“操纵光子的巫师”，从三光子到十光子，一路保持世界领先，将“量子
纠缠”进行到底；他将“量子隐形传态”从科幻世界带进现实，实现距离和维度的多次
跨越。
正是借助这些基础特性，量子保密通信正在中国率先从梦想王国迈入产业化轨道；量子
计算机和量子精密测量的基础研究，也日益成为大国“必争之地”。至少15年以上的长
远目光，令潘建伟团队在中国的... 阅读全帖

M******8
发帖数: 10589

来自主题: Military版 - 特辑：导弹打航母

原创：季默坚若尘坚若尘微信号 qs-1017
功能介绍
如尘土卑微，如星尘灿烂。
兽语（代题记）
第一、本文所有数据和资料均来自公开出版物或网络，不涉密，我一市井之徒也接受不
到任何国家机密。
第二、作者观点：描述自己不喜欢的人和事，在说优点的时候能客观承认，在说缺点的
时候不无限放大，在说自己的时候不吹嘘，那这个人今后一定能取得长足的进步。
以上观点，小到个人，大到民族，通用。
从“建军节说大国重器”到“大国重器要奋起直追，而不是奋起直吹”，已过去两个月
，两个月前就向读者许诺说要写“导弹打航母”，两个月来搜集资料的过程痛苦不堪，
网络上的瞎扯淡自不必说，连专业的军事期刊也一点儿都不客观：但凡美国、日本的，
都是垃圾，或者不好，或者有毛病，但凡咱自己的、俄罗斯的，都惊呆美国吓尿日本，
甚至连半岛三世祖都能打航母，咱在说军事啊，列位，不是说书，半岛三世祖自己都没
敢宣布他能打航母，军事发明家就替他发明了“事实”？
航母那文章，发了四次，让我备受打击，照这样下去，我估计只能去写“潘金莲醉卧葡
萄架”了，可那又不是我的兴趣所在——老男人总想找点儿“硬货”么。
我的码
1、几枚东风21... 阅读全帖

发帖数: 1

来自主题: ChinaStock版 - 楼市降价信号：今年土地流拍量已达历史高位！

2018年，房地产市场调控政策层层加码，中央继续坚持“房住不炒”总基调，地方
层面“四限”扩容。进入三季度，城市市场进一步分化，土地流拍现象也有所增多，企
业着力推盘回笼资金而谨慎投资的意图愈加明显。业内人士分析认为，四季度房地产市
场深度盘整概率进一步增大。
住宅销售市场疲态持续
今年前三季度，重点城市房地产市场成交普遍低迷，“金九银十”整体失色。近日
，易居房地产研究院公布的数据显示，2018年9月份，受监测的100个城市新建商品住宅
成交量为4379万平方米，环比减少14.2%。
今年9月份，很多房企有追赶年度业绩的意愿，地方政府在预售证发放方面也加快
了节奏，这使得新增供应表现活跃。9月份100个城市新建商品住宅月度新批准预售面积
为5608万平方米，环比增长25.7%，同比增长22.2%。综合历史数据来看，9月份房企推
盘节奏明显加快，为历史第二高水平。其中2016年4月份新批准预售面积为5612万平方
米，为历史最高水平。
不过综合供求市场数据，9月份市场走势弱于预期，“金九”成色不足。2018年9月
份，100个城市新建商品住宅供应... 阅读全帖

B*D
发帖数: 5016

来自主题: StartUp版 - 转载]Zynga大败局:数据控是如何把游戏做败的

社交游戏帝国的兴衰之谜－写在Zynga再次裁员之际

作者曹金明，2010年到2012年供职于Zynga，担任Facebook、腾讯平台发行的Zynga游戏
制作人和产品负责人

引言

早上7点刚过一点，就被手机微信的消息吵醒。在“离佳儿童联盟”（Zynga中国离职员
工的微信群）里有人率先爆出了Zynga裁员18％，新关闭三家工作室，股价大跌12％的
消
息，立刻引起群里一片唏嘘。有个刚离职不久的老员工叫到“昨天刚把股票挂出去卖，
今天就跌了这么多！”

这已经不是Zynga第一次大规模裁员，去年10月份曾经裁员100多人并陆续关闭了Boston
，Austin以及日本分公司等多个Studio，其股价更是从IPO的发行价10美元跌去70％。Z
ynga，曾经的社交游戏帝国，其他社交游戏公司的崇拜和效仿对象，何以走上如此之快
的衰落之路？相信很多人都对这个问题感兴趣。华尔街的分析文章中，大部分都是将Zy
nga的业绩下滑归咎于大量Facebook用户从页面转向移动，而Zynga没能在这个新的战场
占据优势。但在我看来，这只是促使Zyng... 阅读全帖

发帖数: 1

来自主题: Stock版 - 楼市降价信号：今年土地流拍量已达历史高位！

s******y
发帖数: 28562

来自主题: Joke版 - 算了，我还搞点学术普及把

这个真的不扯。大数据到底是什么，我想我可能比博导更清楚一点，虽然我自己不是亲
自做这个的，倒还是认识不少人做这个的。
其实因为现代的计算机速度极快，所以对于比较单纯算法的处理，比方说就是求个平均
值，算个方差，然后看哪个数据落在多少个sigma之外，就算数据量再大，现代的计算
机也能轻松处理。粒子物理这个学科，那么早期的计算机都能处理，难道现代的计算机
反而搞不了?这不开玩笑么？
但是为什么现在提出一个大数据的概念？其实这个要从计算机对算法为止的数据的处理
有关。对于一组数据，如果你根本不知道他们的关系如何，甚至不知道每个数据是不是
都可靠，但是你必须对这些数据的相关关系下一个结论的话，你该怎么办？如果用计算
机来处理的话，因为计算机没有所谓的直觉和头脑风暴这些创造性的东西，它就必须把
各种可能性都试一遍，而且因为不知道每个数据是否都可靠，所以就必须做很多种猜想
以及验证然后反复的调整一些参数。而且如果一开始选的算法是错的话，花了一大堆时
间调整参数之后，发现根本不是参数的问题而是需要重新选算法，所以一切推倒重来。
最终结果就是，即使那个数据的量并不大，但是为了分析它们，计算机需要做... 阅读全帖

l**n
发帖数: 7272

来自主题: Apple版 - 喜欢忽悠4G的可以看看 TD—LTE

目前ATT和Verison无线的pricing structure是基于数据月总流量的。相比之下，固定
data service的pricing structure 基本上是基于数据上下行速度的。
upload的观点是我们从网上获取的数据总量是固定的。所以无所谓用3G还是4G。
我的原话是：At current level, 4G is just too expensive if we
really use it most of time.
我的浅见是使用高速服务的用户一定会比使用低速服务的用户消费更大量的数据。
两个例子：
1）3G 平均用户数据消费月总流量：
06/2011：ATT526MB，Verizon513MB
这里不知道有没有人记得GPRS/EGPRS的平均用户数据用量。
upload可以说数据流量增长跟很多因素有关。比如：
- GPRS时代WAP，EMAIL数据量小。新涌现的数据服务video，audio数据量大。
- GPRS时代数据价格高 (几分钱1KB)。现在价格低（几分钱1MB）。
。。。
我要说呢。。。价格只是我列出的几个因素之一。它跟其他几个因素有关联。如果非... 阅读全帖

g****t
发帖数: 31659

来自主题: Programming版 - [bssd]wdong,lightroom....来猜个东西

假如我有个数据集A.其丰富程度用r来测量。
有个DL来分成x类。假如数据足够，所以
工作完成的很好。
现在要分成n*x类。为了避免over fitting,
那需要多少的数据丰度？我猜是 sqrt(n)*r
更具体的说。例如一个数据集一万个数据。
你很好的找出了2个features.
那要多少数据才可以找出8个features.
我猜2万个就可以了。一定是小于8/2=4的。
你们猜呢？简言之，要训练好一个模型，我猜
需要数据量和模型复杂度的关系是平方根。
从经验出发，Data工作者们，
你们同意这个数据增长比模型复杂度慢就可以的
假设吗？
我的理由是，5个数之间的关系是5的指数。
数据多于模型参数，数据之间的关系也多于
可能的模型之间的关系。所以数据量大到一定程度，
会发现非常多的复杂模型都可以被训练出来--with a
good robustness margin.
这样的话，人类大脑确实在某天就赶不上趟了。
除了连接不够，人的大脑处理信号的频率其实也是
非常有限的。
话说回来，假如说人类还有未来。那AI就必须导致人类不创造丰富的数据或者知识。人
类需要只往外输出贫乏但是量
不小的数... 阅读全帖

s********e
发帖数: 425

来自主题: EE版 - 想了解一下实际工作中需要解决的 NP-complete 问题？

我感觉你想了解的问题可以归于科学计算范畴。科学计算在物理、机械工程，医学等多
个应用领域都需要。例如物理或天文里计算多个天体相互之间的作用力的问题(N-body
problem)，天体数量可以达到几万到几十万；又比如医学中有医学图像重构问题（比如
backprojection），需要把多幅机器拍摄的原始图像以某种组合方式重构成医生能看懂
的图像，图像像素数可以是几千乘几千。
虽然可能处理三五个数据所使用的算法极其简单，但是由于数据量巨大，算法复杂度随
着数据量的增长迅速增加，于是同样简单的算法就无法使如此庞大的数据量在可接受时
间内算完，于是就构成了NP-complete问题。
这些都是需要超级计算机（supercomputer）来运算，也就是cluster或multiprocessor
。根据问题所需数据量的大小，运算时间从几小时到几天都有，一两个月也有可能。
运算方法概括来说叫做并行计算。具体就是尽可能编出并行性（Parallelism）高的程
序，使得庞大数据能够并行处理，比如一万个天体分给八个cpu同时运算，每个cpu算
1250个；1024x1024的图像分给16个cpu，每... 阅读全帖

D*V
发帖数: 3096

来自主题: ChinaNews2版 - 2010年中国惊人的工业生产数据

这是2010年中国基础工业产量及占世界份额，反映了当今中国强大的生产能力和国家实
力。
而2011年中国工业产值已全面超越美国，结束了美国100多年来世界工业霸主的地位。
这个就是中国改革开放的历史意义。
一、基础工业数据：
1、粗钢产量： 6.27亿吨，同比增长9.3%，占世界总产量的44.3%，超过第2-第20名
的总和；
2、钢材产量： 7.98亿吨，同比增长14.9%
3、水泥产量： 18.68亿吨，同比增长15.53%，占世界总产量的60%；
4、电解铝产量：1565万吨，同比增长21.4%，超过世界总产量的65%；
5、精炼铜产量；457万吨，同比增长10.6%，占世界总产量的24%；进口429万吨，消
费当量达880万吨，超过世界总产量的50%；
6、煤炭产量： 32.4亿吨，同比增长8.9%，占世界总产量的45%；
7、原油产量： 2.02亿吨，同比增长6.9%；进口2.39亿吨，同比增长17.4%；表观消
费量达4.39亿吨；
8、乙烯产量： 1418.9万吨，同比增长31.7%，世界第二（美国第一）；当量消费
2400万吨，... 阅读全帖

t*c
发帖数: 6929

来自主题: Military版 - 2010年中国惊人的工业生产数据

k*******l
发帖数: 698

来自主题: Military版 - 香港货柜量上月急跌13.5% 连续下跌九个月

http://finance.takungpao.com/dujia/2015-04/2974001.html
大公财经4月16日讯香港港口吞吐量延续去年的颓势，连续第九个月录得下跌，上月更
急跌13.5%至163万箱，拖累首季本港港口吞吐量累跌8.1%至488.2万箱。业内人士分析
指，内地3月出口同比跌15%，加上有船公司更改航线，故今年首季整个华南地区港口表
现均欠佳。/大公报记者林静文
香港港口发展局昨日公布最新港口吞吐量数据，上月葵青货柜码头吞吐量急跌16.2
%至129万箱，中流作业、公众卸货区和内河运输货柜量跌1.5%至34万箱，拖累整体货柜
量跌13.5%。累计今年首季，葵青货柜码头吞吐量跌9.8%至389.5万箱，中流作业、公众
卸货区和内河运输货柜量亦跌0.7%至98.6万箱，使整体货柜量跌8.1%。
连续第九个月下跌
香港港口吞吐量已是连续第九个月录得下跌。香港付货人委员会执行总干事何立基
回应本报查询时指出，上月中国出口录得大幅下跌，加上有越来越多的船公司将华南和
华北航线分隔开，即经过华北地区的航线无需再停靠华南港口，对本港和深圳赤湾港转
口货量造成影响。... 阅读全帖

F*Q
发帖数: 3259

来自主题: Faculty版 - 请各位发考题指点一下

前不久自己做了一些东西，似乎有可能推翻目前普通认定的一个机制，很想赶紧发文章
。但因为那不是老板熟知的领域，本人以前也没做过这方面的东西，老板既不愿意自己
查阅文献又不愿意听我介绍，而是逼我找了一个该方面的专家讨论。老板给的条件是如
果有该方面的知名专家参与发表我的结果，他就同意我发表。我把少量具有代表性的数
据发给了一个专家参谋，他认定了本人数据的高质量，但是说数据量不够多，尤其对于
本人数据体现出来的一些新颖的东西除了简单地点评“不能解读”外没做更多评论。对
于本人的询问“本人的数据似乎揭示了一个新的机制”所做的回应是“你不能仅仅根据
你的数据就争辩说那个普遍认定的机制不正确”。现在本人把所有的数据整理完了而且
又新增加了一些数据。数据量是我发给那个人的三倍了（每个代表数据给配了两个辅助数据）。本人觉得数据量已经足够论证本人的观点了。问题是本人是否有必要把更新的数据发给那个人参谋（当然观点还是那个观点）？由于本人想发表的观点很可能导致那个被普遍认定的机制的坍塌（找的那个人显然是那个观点的支持者之一），所以遭遇的阻力是难以预料的。如果本人自己直接投稿，是否会引起他的不快？尤其是如果他... 阅读全帖

T********r
发帖数: 6210

来自主题: PhotoGear版 - 【坑爹器材】买到第三个才知道。。。

上回起了这个标题，被人猜中要说三脚架了。这可不行，故事还没开头，怎么就能让人
猜到结尾呢？所以，我这次讲的虽然还是另类器材，但却不是三脚架了。
网络时代，家里的电脑数量越来越多，数据量也水涨船高。毕业那年，所有的东西一两
张光盘就放下了。可惜，好日子一去不复返了。自从有了DSLR，数据量就成指数级增长
。我的习惯是保存所有的RAW文件，300D/20D的一个RAW文件有6-8MB，还算过得去吧。
自打把20D淘汰了以后，各种新相机（1Ds2、5D2、1D3、1D4）的每个RAW文件的大小就
比以前翻了一倍多，以至于最近几年单照片就刻了上百张DVD备份了。不信？请看附图
，注意第一台数码相机是04年买的。下载的音乐电影，就更别提了，以前下载的都是
MP3/DVDRip，现在要求高了，都是APE/1080p了。虽然硬盘容量越来越大，也还是敌不
过数据增长的速度。夸张点说，经过多年的更新换代，手头的攒的大大小小的硬盘已经
多得可以用来盖房子了。硬盘多了，访问是个问题，最近一段时期我都是用个硬盘dock
，把上面的硬盘不停地换来换去。次数多了，就想再搞个文件服务器，装上大容量硬盘
，把常用数据... 阅读全帖

M****o
发帖数: 4860

来自主题: Faculty版 - 又一牛人： 9个offer，12家公司，35场面试，从微软到谷歌，应届

【以下文字转载自 JobHunting 讨论区】
发信人: chump (chump), 信区: JobHunting
标题: 又一牛人： 9个offer，12家公司，35场面试，从微软到谷歌，应届计算机毕业生的2012求职之路
发信站: BBS 未名空间站 (Fri Jan 11 21:59:21 2013, 美东)
转自
http://www.cnblogs.com/figure9/archive/2013/01/09/2853649.html
9个offer，12家公司，35场面试，从微软到谷歌，应届计算机毕业生的2012求职之路
1，简介
毕业答辩搞定，总算可以闲一段时间，把这段求职经历写出来，也作为之前三个半月的
求职的回顾。
首先说说我拿到的offer情况：
微软，3面->终面，搞定
百度，3面->终面，口头offer
搜狗，2面，悲剧
腾讯，1面，悲剧
布丁移动，3面，搞定
涂鸦游戏，3面，搞定
友盟，3面->CEO面，搞定
雅虎，4面->终面，搞定
微策略，2面，悲剧
人民搜索，3面->终面，搞定
人人，2面+终面+Special面，搞定
Google，7面，搞... 阅读全帖

c***p
发帖数: 221

来自主题: JobHunting版 - 又一牛人： 9个offer，12家公司，35场面试，从微软到谷歌，应届计算机毕业生的2012求职之路

转自
http://www.cnblogs.com/figure9/archive/2013/01/09/2853649.html
9个offer，12家公司，35场面试，从微软到谷歌，应届计算机毕业生的2012求职之路
1，简介
毕业答辩搞定，总算可以闲一段时间，把这段求职经历写出来，也作为之前三个半月的
求职的回顾。
首先说说我拿到的offer情况：
微软，3面->终面，搞定
百度，3面->终面，口头offer
搜狗，2面，悲剧
腾讯，1面，悲剧
布丁移动，3面，搞定
涂鸦游戏，3面，搞定
友盟，3面->CEO面，搞定
雅虎，4面->终面，搞定
微策略，2面，悲剧
人民搜索，3面->终面，搞定
人人，2面+终面+Special面，搞定
Google，7面，搞定
求职经历分为定位、准备、简历、笔试和面试这五个部分，大家挑感兴趣的看就成。
我的求职经历适用但不限于码农，不适用与企事业单位（据说是完全不同的考察标准和
流程）。废话比较多，大家耐心忍受，有什么问题可以跟帖提问。
2，定位
教育经历：本科在大连某工科院校，由于GPA比较惨烈+挂科，所以没保成研，毕业后修
了一年英语双学位，然... 阅读全帖

u***r
发帖数: 4825

来自主题: Stock版 - 关于页岩油气我们应该知道的(zz)

夺标按：最近经常与朋友讨论冬季到来后，德国与俄国之间的关系为何会突然进入冰点
，因为从德国一向奉行的实用主义外交政策来讲是难以诠释的，而俄国不仅是德国天然
气的传统供应国，同时也是世界上页岩油气储备最多的国家，虽然默大娘大力推行德国
的“新能源”政策，但貌似从技术与供应链层面讲，德国还没有腰杆硬到能在能源上对
俄罗斯说“不”的地步。应朋友们的再三邀请，我抽时间利用手边资料写了这份科普作
为自己新一期专栏文章（尚未发表）。今天我们就先从了解页岩油开始。
2013年6月，美国政府公布史上第一份各国页岩油蕴藏评估报告，俄罗斯的蕴藏量居世
界之冠，全球页岩油估计可支应至少十年的石油消耗。
美国能源资讯局（EIA）估计，全球42个国家的页岩油可开采蕴藏量达3,450亿桶，可使
目前全球石油蕴藏量增加11%至3兆3,570亿桶。　　报告也估计，各国的页岩天然气资
源相当于7,299兆立方呎，也可使全球天然气蕴藏量提高47%。
十年前美国率先发明水平导向与水力压裂钻勘后，全球掀起油页岩开采热潮，使页岩油
产量大增。但EIA说，只有美国和加拿大利用油页岩量产石油与天然气。
报告指出，俄国的可开采页岩... 阅读全帖

m***a
发帖数: 476

来自主题: CanadaNews版 - [JNPT]投资移民等8年港积压量冠全球

本报取得独家数据根据一项最新的关于联邦投资移民申请情况的数据显示，亚洲各地联
邦投资移民申请审查仍然缓慢，驻香港签证办事处堆积的申请个案，更高达1370宗，占
全球积压的42%，全球称冠。由于香港每年审理投资移民的工作目标额只有165宗，余此
类推，向香港办事处递表的投资移民申请人，有可能要等上8年之久。
目前，香港签证办事处所处理的案件，主要是来自华南地区的申请人。
移民律师王仁铎从移民部取得今年1月1日至9月1日的联邦投资移民申请数据显示，
从积压量来看，香港有1370宗积压，是全世界累积最多投资移民的地方，香港签证办事
处所收的申请，其实绝大多数是来自中国南部省分，包括居住在香港的大陆人，申请数
量是全球最多，积压情况更占了全球的42%；其次是首尔的681宗，台北则是560。
由于每个地方的签证办事处均设有年度完成案件审核的目标量，以香港为例，全年
目标量为165，现在积存达到1370宗，等于要等8.3年才能完成审查，而台北年度目标量
为115宗，目前的积存则为560宗，等于要约5年时间，才能完成审查。
数据又显示，包括北京、香港、首尔在内的亚洲签证办事处，都出现投资移民被拒
率

l******a
发帖数: 3339

来自主题: WaterWorld版 - 关于360，大家帮忙顶，一定要进来看一眼！！！

首先声明，本人既不用qq，也不用360，纯属看客，这个帖子跟qq也没有任何关系，完
全是针对360。
这阵子大水已经过去了，本来不应该再发关于360的帖子了，不过刚才用一个软件（星
际管家，用户群比较有限的小软件），居然说升级就必须卸载360。弄的我一头雾水，
不知道这个软件的作者想干什么，qq都河蟹了，你一个小软件折腾啥啊，找灭吗？搜了
一下，终于发现360网络黑社会的内幕了。另外360宣称qq上传用户隐私，其实他自己才
是真正的在窃取用户隐私。另外最可恨的是，360的杀毒技术非常差，而很多被查杀的
木马其实都是他自己造的！！！
这是星际管家作者的原帖，关于为什么不兼容360，相信应该不是枪手：
http://bbs.sc2manager.net/showtopic-390.aspx
这是360内幕的原帖，1年前的老帖，所以肯定不是3q大战的网文：
http://bbs.duowan.com/viewthread.php?tid=15223322
打不开的朋友，我帖子转载如下：
解密360安全卫士黑幕：离职奇虎360老员工的告白0
解密360黑幕：离职奇虎360老员工的告白
从372... 阅读全帖

kx
发帖数: 16384

来自主题: Economics版 - 朱家祥：計量经济分析的陷井

发信人: yoyoyo (悠游), 信区: Economics
标题: 朱家祥：計量经济分析的陷井
发信站: 南京大学小百合站 (Thu Jan 11 10:59:21 2007)
朱家祥：計量经济分析的陷井一般而言，計量经济学家的统计功底不如统计学家，但是比
他们多懂了些经济学。另一方面，計量经济学家的经济功底也不如经济学家，但却比他们
多懂了些统计学。自大的说，計量是身兼两家之学（不可一世的模样）；自卑来看，
計量
则是边缘专业（弱势族群的谦逊气质，不在话下）。所以我遇见统计学家时，赶紧称
自己
是经济学家；在经济学家面前，也忙着标榜自己是学统计的。至于“計量是企业里搞财务
会计”这类完全在状况外的评论，我内心颇有 “士可杀，不可辱”的反应，另加上高
处不
胜寒的落寞。
計量经济学本身就是用数据来检验经济论点合理性的工具。計量经济学应该知道统计学可
以骗人（用以偏概全的数据说谎），也应该知道很多经济理论常禁不起数据的考验（滥芋
经济学家惯于将简单事实复杂化）。以一个全球暖化的议题来说，历史数据的分析并不能
充分支持暖化与二氧化碳排放量的关系。同时，要预测百年后的全球平均温

m***a
发帖数: 13878

来自主题: Military版 - 一群时代大幕后的“隐形者”

一群时代大幕后的“隐形者”——标数据的人。
甲子光年 2018/02/23 15:28浏览 38.2W字体：宋
5到10年后，当人工智能全面普及，科技先驱和新一代商业巨子注定会被时代的聚光灯
铭记。
但今天，「甲子光年」却想说一个关于人工智能“从未被讲出”的故事，写一群时代大
幕后的“隐形者”——标数据的人。
智能时代滚滚巨轮之下，一批批用于“人脸识别”“自动驾驶”“自然语言处理”的标
注好的数据，正是出自这些学历不高，每天对着电脑工作8到10小时的人手中——他们
是“人工智能背后的人工”。
「甲子光年」采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士
估计，中国全职的“数据标注者”已达到10万人，兼职人群的规模则接近100万。
他们中有职高学生，有尝试过40份工作的聋哑人，有从工地辗转而来的新生代农民工…
…他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架
下，数据量越大，质量越好，算法模型就表现越好。可以说，数据决定着整个人工智能
行业的发展态势。
但标注工作本身是一个劳动密集型工种，收入并不高。随着技术的进一步发展，未来还
有被取代的可能... 阅读全帖

z****u
发帖数: 241

来自主题: JobHunting版 - 纽约时报：大数据时代降临

老土早就指出: 懂数据会分析哪都要,钱不少活的好干到老.
English version on New York Times: The Age of Big Data
By STEVE LOHR
Published: February 11, 2012
http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impac
纽约时报：大数据时代降临
导读：《纽约时报》网站今天刊载文章称， “大数据时代”已经降临，在这一领域
拥有专长的人士正面临许多机会。文章指出，“大数据”正在对每个领域都造成影响。
举例来说，在商业、经济及其他领域中，决策行为将日益基于数据和分析而作出，而
并非基于经验和直觉；而在公共卫生、经济发展和经济预测等领域中，“大数据”的预
见能力也已经崭露头角。以下是这篇文章的全文。
你在数字方面很拿手？数据令你感到着迷？那么你听到的声音是机会正在敲门。
作为一名刚刚毕业的耶鲁大学MBA(工商管理硕士)，周默(音译)在去年夏天被IBM抢
聘，加入了该公司迅速增长中的数据顾问团... 阅读全帖

d********e
发帖数: 925

来自主题: Collectibles版 - 现代金银币实铸量和补铸情况的探讨(黄瑞勇) zz

http://yuzhoumao.blog.hexun.com/61659031_d.html
实铸量，一般是针对于计划发行量而言的一个数字。顾名思义，实铸量的意思就是一款
币章的实际铸造量。对新中国贵金属币而言，实铸量的意义重大，因为它非常鲜明地反
映了整个新中国金属币的发行史。大家知道，新中国贵金属币最早的主要功能是换取外
汇，与此同时在世界上宣扬中国的政治和文化。在2000年以前，除了某些重大的政治事
件之外，有相当多的币是通过各个海外经销商找到人民银行来立项、颁布发行公告，然
后找上海造币厂、沈阳造币厂和国宝造币厂生产，最后通过他们进行销售的。比方说，
历史人物系列金银币是德国MDM公司所经销；8克生肖、12边形飞禽系列金银币为香港北
京金币公司经销；桂林山水金银币为大洋钱币公司所经销；古代科技发明系列币由美国
熊猫公司经销；早期观音菩萨系列金银币由美国天坛钱币公司经销；麒麟系列币由
Assets Marketing 公司经销；丝绸之路金银币由比利时ING公司经销……所幸在2000年
之后，我国的贵金属币经销开始变得正规。基本上所有项目都由中国金币总公司总经销
，然后再分配给国... 阅读全帖

b********r
发帖数: 620

来自主题: Programming版 - Workflow design请教

谢谢大牛们的指教！
更多的背景：我们知道workflow和处理大量数据是相关但是不一样的东西。我们现在有
2个console app，小app的数据量不大，大app的数据量可以超过300m。我们想从小app
入手，先改成workflow based的。如果效果不错，再处理大量数据的。在这其中，因为
大app的数据量大，我们想尽量找到一个比较支持处理大数据量的workflow产品。
比如说，如果一个workflow支持并行的create和run至少几十万甚至上百万的workflow
item/instance，我们就会比较倾向这样的workflow。如果只能并行的支持一千个左右
的item/instance我们就会另外考虑。
目前还没有horizontal partition，数据库也没有sharded。

a***n
发帖数: 404

来自主题: Mathematics版 - 请教：表征数据集中度的统计量~~

比如从一段时间采集来的数据，有些数据是集中在一段时间内出现的，有些数据是长时
间均匀分布的。
举个例子：
walmart卖的牙膏的日销售量就是常年基本均匀分布的，但是圣诞树就一般是集中在12月
左右这个时间段销售量比较大。
什么统计量比较适合表征这两种数据的这种特性呢？就是说数据的locality特性。注
意，不一定是集中在一个范围内，如果在多个离散的范围内有很强的集中性，这个统计
量要求也要有很强的表达，所以用standard deviation估计不行。比如某个商品夏天和
冬天销量都很强，其他时候没人买，这样的商品也要能区别于牙膏这样的均匀态的商品。
有啥统计量可以搞定这个么？
谢谢。

t*******a
发帖数: 4055

来自主题: Military版 - 宁南山：从2017年数据看超过美国还要多久

宁南山：从2017年数据看超过美国还要多久？
当前位置：主页 > 百家争鸣 > · 2018-02-05 · 来源：未知 · 浏览数：2659次
字体：大 / 中 / 小
1月18日，国家统计局公布了中国2017年的经济情况，全年国内生产总值827122亿元，
比上年增长6.9%。
第一产业增加值65468亿元，比上年增长3.9%；第二产业增加值334623亿元，增长6.1%
；第三产业增加值427032亿元，增长8.0%。
这个数字，超过了我的预期，因为2016年我国GDP经过调整后是743585亿元，这个名义
增速达到了11.2%，可以说是非常好的数字。
为什么说超出了预期呢？
2008年中美经济总量美元名义值差距首次开始缩小，我们看下从那时起中国GDP的增量，
2008年中国GDP为319516亿元，比2007年的270232亿的增加49284亿
2009年中国GDP为349081亿元，增量为29565亿元
2010年中国GDP为413030亿元，增量为63949亿元
2011年中国GDP为489301亿元，增量为76271亿元
2012年中国GDP为540367亿元，增量为5... 阅读全帖

g**1
发帖数: 10330

来自主题: Military版 - 三四线城市吃鹅肝喝葡萄酒成生活方式廊坊鹅肝订单量增幅超过400%

报告：三四线城市消费升级速度高于一二线城市吃鹅肝喝葡萄酒成生活方式
2018-09-30 04:54 来源：侨报网综合编辑：高三字号
【侨报网综合讯】时值中国国庆前夕，饿了么发布的《2018年本地生活消费升级报告》
显示，餐饮、商超便利、医药服务等的消费水平、消费结构都呈现全新升级。该报告一
扫先前的“中国年轻人消费降级”言论。
首先从消费品来看，高端产品越来越得到了中国人民的青睐。
根据饿了么今年前8个月的数据，瓶装水、二锅头、方便面这些看似“低端”的消费品
在饿了么平台上的消费每笔单价分别同比增长36%、20%和18%。同时，越来越多消费者
开始在饿了么上购买国内外高价位瓶装水，其中挪威的芙丝(VOSS)天然矿泉水订单同比
增幅接近400%，圣培露、波多和依云等高价位瓶装水订单增幅也均超过100%。
if84wct432at08ig!1200
高价位瓶装水订单增长情况
类似的，饿了么数据显示，高档龙虾、鹅肝等高品质商品2018年订单增长显著，且增幅
高于小龙虾等大众商品。
w6gokc6817f5jnzu!1200
大众与高档商品消费需求双速增长
驱动食品消费高端化的重要因素... 阅读全帖

h******e
发帖数: 908

来自主题: Collectibles版 - 我所剽窃的金银币数据，仅供娱乐

1.上一次金银币大暴跌是1997年7月份前后，当时97银猫炒到了2000元（现价450
左右），后来金银币市场连续跌了4年，从2001年年底开始回暖开始一轮上涨，上涨大
概持续到2003年（后面的数据我就不知道了）。如果历史是简单重复，那么这轮下跌从
2011年7月份开始，要持续到2015年年底才能回暖，但历史肯定不是简单重复的。
2. 02-03年那波上涨，是从彩金开始的，具体路线似乎是彩金-金-彩银-银。
3. 大盎司的各种熊猫币展银章，现在的价格回落到跟2009-2010年差不多的水平
，大规格熊猫币展章国内普遍缺货。
4.彩金币的龙头贵妃醉酒，2003年价格是2万出头，现在裸币4万拿下来肯定没问
题。
5.冷门币，比如动物系列，政治题材系列，体育系列，除非特别出彩的（比如磨
砂排球足球），2010年到现在的涨幅基本为零。
6.按照赵涌在线的数据，最近一年低点的数据如下：
2013年夏天银币是最近的低点。
金币的低点似乎还没有出现。
各种币的低点普遍达到了高点价格的一半。
7. 彩... 阅读全帖

h******u
发帖数: 80

来自主题: Quant版 - 互联网金融（三）：超级账户和征信

今年是我第一次在大洋彼岸经历美国的购物季，尽管我对购物并不敏感，依然不得
不感叹这里的消费服务将中国远远甩在身后。同时我也发现了一个有趣的现象，很多商
店或品牌专卖店会不惜给你较大的优惠，争取你将自己的信息录入他们的系统，成为他
们的会员，尽管成不成为会员似乎与我眼下是否要买一件他家的衣服没什么必然联系。
同样的事情发生在我的健身中心，他们记录下来我每次到来和离开的信息，似乎和国内
直接发给我一张标明到期日和照片的年卡没有什么效果上的不同。做到极致的就是信用
卡公司，美国的新信用卡申请好处是如此之多，以至于每个人都恨不能申请个十张八张
的，尽管经常使用的只有一两张。
他们在争夺什么？除了看不见抓不着的品牌忠诚度，还有你的账户，记录着信息的
账户。每个互联网公司，现在不会谈一年的利润是多少，张口闭口都是我们一年又增加
了多少账户数量，目前公司活跃的账户有多少。如果说之前风险投资人还纠结于盈利模
式的话，现在看的更明白了：账户本身就是财富，盈利模式可以留待来日慢慢开发。
如果两年前我说我是做金融的，互联网思想我不懂，这说明我放更多的精力在我的
专业领域。但今天，如果... 阅读全帖

n***p
发帖数: 7668

来自主题: Automobile版 - 车安全不安全看每百万司机死亡率。

真是顽固啊. 关于没有保险的车的车祸问题,鉴于每年500多万起事故,就算其中40%的
事故卷入了没保险的车,每年300多万起事故的数据量也够大了.然后每年死于事故的是三
四万人,也就是说只有三四万起事故会死人.
对于保险公司的数据来说,Personal injury 是在no-fault州才有的，是无论谁的责
任，都是自己的保险公司赔医疗费。 17个州是no-fault,就算这17个州的人出的事故占
全国总事故量的20%，有Personal injury coverage的司机还是会有每年60万，每两
年还是有100多万。
所以，如果只看Personal injury,我认为这数据量已经够大，够客观。而且，IIHS的数据
里对于那些数据不充分的车型，就不给出结果，这还不够客观么？
骗保的数量我无法估计，但是，鉴于personal injury是自己的保险公司出，而不是肇事
方出，如果向自己的保险公司骗保，那是冒着涨保费的风险的。就像我前面的帖子里
说过的一样，我不相信大多数小车的司机和某几个中型车的司机闲着没事就去骗保，特别
是广大的Camry驾驶员们。
Medical paymen... 阅读全帖

C********n
发帖数: 6682

来自主题: HiFi版 - 为什么电脑/硬盘做音源，比CD好(zz)

http://www.av199.com/thread-178902-1-1.html
1.为什么电脑/硬盘做音源，比CD好？
因为人比较懒，早就看CD不舒服了，一直梦想成千上万的曲目，坐沙发上不动就能随便
换着听。前一阵子心血来潮准备动手一试电脑做音源。一开始期望值很低，希望音质和
中低端CD机差不多或稍差就可以。结果经过一个月的实践，我的结论是硬盘APE做音源
，音质绝不比CD差，也许更好（理论上是硬盘比CD转盘更好，但是我听不出来区别）
我现在的玩法是无损压缩的APE、FLAC或WAV由Foobar播放（有时44.1/16直出，有时用
SRC foobar插件软升频到96/24，比较中），接DAC USB口，DAC平衡输出到功放。CD机
的模拟输出接功放，数字输出接DAC的同轴口。
1. CD的模拟输出跟同价位DAC的输出比：不管在解析力还是全频段的平衡响应，DAC都
明显胜出。也就是说我的DAC里的DAC比我的CD里的DAC强得多。不难理解啦，因为CD里
面是转盘+DAC，转盘也是成本的啊，CD机当然比不上同价的外置DAC啦。
2. CD转盘跟硬盘比：用我DAC上的USB输入（... 阅读全帖

t****r
发帖数: 66

来自主题: Biology版 - 一个著名物理学家说过

如果要求数学模型可以完全描述模拟生物系统，
在现阶段不可能，一个很重要的原因是没有足够的数据来支撑这样的模型。
现在动不动就说高通量产生了大量的数据，
那是相对以前的生物数据量来说的，
跟别的学科为建立模型所产生的数据量不是一个级别。
更别说系统越复杂，需要的数据量越大。
现在数学模型的尝试是看看，利用现有的非常有限的数据，
是不是能从看似非常复杂的体系中总结出一些简单（但不直观）的规律。
同时建模的尝试，可以指导方法学的发展方向，
明确什么样的数据对理解系统最有用。
至于理想状态，那难道不是科学研究的经典方法？
中学学物理时，分析的都是理想状态，
就像很多重要的生物学发现，都是从简单模式生命体的研究中取得的。
只有对理想状态研究明白了，才有可能研究更复杂的系统。
就像物理的量化是循序渐进的，生物的量化也必须经过一个由简入繁的过程。
现在的生物学因为和医学紧密相连，所以要求研究的实用性立杆见影，
很难容忍一个积累的过程。那还是大规模的筛选最有效，
什么机理构造都没什么用了。
另外数理背景的人，来趟水的不要太多。

p********t
发帖数: 1219

来自主题: GeoSpace版 - 光谱遥感小知识－从眼睛谈起(3)

高光谱遥感带来两个最大问题，一个是数据量过多。前面说了，同样空间分辨率的光谱仪
器，数据量和波段数目成正比。在很多基本的分类算法中，要计算数据的协方差矩阵，计
算量
要平方。另外一个问题就是所谓的Hughes Phenomenon。在分类时通常要已知一些地面上
的
“纯” 的象素，这些象素都代表地面上同一类物质，由这些象素的光谱来决定这一类象
素的光谱特征，如平均值，协方差。这些数据就是training data。当波段数提高时，需
要的“纯”数据随其平方数增加。而一副图像里面很难找到那么多“纯”的数据(如果事
先就知道那么多，就不用遥感了)。所以通常要对这些数据进行处理。一个波段的输出对
应一个特征（feature)。有些特征是没有用的，通过一些算法可以去除没有用的特征 (
selection)，通过一些另外的算法并不去掉某些特征而是从中提取有用的部分(
extraction)，比如MNF，相当于去噪声滤波。这就好比要分别一个人是男人女人，光谱仪
器可能给你100个特征，什么身高体重三围衣着文化程度等等，大部分是没用的。如果看

Q*K
发帖数: 3464

来自主题: _SeattleStartup版 - 推荐零售网商们关注的4个数据

推荐零售网商们关注的4个数据
上周末和Hetbert在零售电子商务年会上聊电子商务的数据和用户体验，稀里糊涂聊了
不少很具体的东西，聊的比较投机也比较随意。回来看媒体整理出来的资料，偏差不少
。故自己整理了一份回顾如下：（现场并非这么说的，但我肚子里要表达的东西就是这
些）
1，用户体验的阶段性
前面两年有一些网商的会议邀请我分享用户体验，基本上我都没参加。原因挺简单，我
认为这两年分享也没什么用，因为大家都不是很关心；再过一两年，不分享大家都抢着
到处找着问，因为到了不得不关注的时候。
这次来分享，一是因为陪Herbert讨论网商在用户体验上的数据布局，二是可以在网商
们正式关注用户体验之前先做个铺垫。
网商们现在普遍对用户体验不是很关注。这很正常，因为在现在这个野蛮生长期最应该
关注的本就不能是窄意的“用户体验”。我们把用户体验体验分成“有用》能用》
好用》爱用》品牌”几个层次，往往大家嘴里说的用户体验比较窄，仅仅是“好用
”。而，现在网商们大部分都只发展到“有用》能用”的阶段。
现在还有很多很多的电子商务网站，服务没别人好、产品没别人好，价格没别人便宜，
只是拥... 阅读全帖

w*********g
发帖数: 30882

来自主题: Military版 - 上半年经济数据揭示中国经济结构快速恶化

上半年经济数据揭示中国经济结构快速恶化
2017年经济数据陆续公布，虽然GDP增速回升，但各项主要数据揭示出中国经济结
构不但没有丝毫改善，而且快速恶化。
一、GDP增长主要靠政府投资拉动
7月17日，国家统计局发布了上半年宏观经济数据，上半年国内生产总值38.1490万
亿元，同比增长6.9%，经济增长好于预期。2017上半年，全国固定资产投资(不包括农
户)28.0605万亿元，同比增长8.6%，几乎占到了同期GDP总量的3/4；其中基础设施投资
5.9422万亿元，同比增长21.1%。
根据上面数据，可以得出第一个结论，上半年经济增长主要靠投资来拉动。下面我
会用数据说明，投资又主要依靠新增货币和信贷扩张的政府投资模式来推动。这在各地
稍有经济效益的投资项目过去20多年都已经完成，投资拉动经济的边际效应越来越差的
情况下，不但政府盲目投资扩张难以持续，且将带来沉重的债务负担，快速累积巨大的
金融风险。
2017年上半年全国铁路货运总发送量继续保持高速增长。国家铁路局7月17日公布
数据显示：全国铁路货运总发送量达18.17亿吨，同比增长15.3%。铁路货运量远超过
GDP的增速，... 阅读全帖

w*********g
发帖数: 30882

来自主题: Returnee版 - 上半年经济数据揭示中国经济结构快速恶化 (转载)

【以下文字转载自 Military 讨论区】
发信人: wayofflying (小破熊), 信区: Military
标题: 上半年经济数据揭示中国经济结构快速恶化
发信站: BBS 未名空间站 (Wed Jul 26 10:07:55 2017, 美东)
上半年经济数据揭示中国经济结构快速恶化
2017年经济数据陆续公布，虽然GDP增速回升，但各项主要数据揭示出中国经济结
构不但没有丝毫改善，而且快速恶化。
一、GDP增长主要靠政府投资拉动
7月17日，国家统计局发布了上半年宏观经济数据，上半年国内生产总值38.1490万
亿元，同比增长6.9%，经济增长好于预期。2017上半年，全国固定资产投资(不包括农
户)28.0605万亿元，同比增长8.6%，几乎占到了同期GDP总量的3/4；其中基础设施投资
5.9422万亿元，同比增长21.1%。
根据上面数据，可以得出第一个结论，上半年经济增长主要靠投资来拉动。下面我
会用数据说明，投资又主要依靠新增货币和信贷扩张的政府投资模式来推动。这在各地
稍有经济效益的投资项目过去20多年都已经完成，投资拉动经济的边际效应越来越差的
情... 阅读全帖

b*****d
发帖数: 61690

来自主题: Military版 - 美媒邪恶：称英国大量参与美监控计划比美国更邪门

新华网北京7月2日电 (记者张免) “棱镜门”监视计划是否仅由美国主导？其真正
目的在于反恐？美国《全球策略信息》周刊6月28日刊文称，英国大量参与到美国的监
控计划中。文章披露了英国的“颞颥”监视计划，称其帮助英国情报机构政府通信总部
获取了海量“个人敏感信息”，并与美国国家安全局共享。文章还分析了英美在监视领
域建立起的“特殊关系”，指出两国的监控计划并非意在破坏恐怖袭击。文章全文如下：
近日，美国中央情报局前雇员爱德华？斯诺登泄露的“棱镜”监控计划揭示了英国
情报机构政府通信总部与美国国家安全局合作密切。与此同时，关于英国对美国重要情
报部门的掌控以及英国人与美国安局是否对美国民众进行监视的问题再次被提及。
结合英荷对美国及全球金融系统的统治来看，人们不禁思考另一个根本性问题——
当 “背信弃义的阿尔比恩”(意指英格兰)坚定不移地想瓦解美国时，美国却成为大英
帝国的合作伙伴，那么美国还能自诩为一个主权独立的国家吗？
对那些所谓的美国总统来说，尤其是主张帝国政策的乔治·W·布什和巴拉克·奥
巴马，这又表明什么呢？
接下来的疑问是，政府如何监管这样一个大部分由国外控制的监控计划？此... 阅读全帖

s*********y
发帖数: 6151

来自主题: Military版 - 来来都学习学习有中国特色的大数据机器学习 (转载)

【以下文字转载自 Programming 讨论区】
发信人: sunshineboy (阳光男孩), 信区: Programming
标题: 来来都学习学习有中国特色的大数据机器学习
发信站: BBS 未名空间站 (Fri Oct 6 23:13:35 2017, 美东)
马列毛指导的有中国特色的大数据机器学习
原标题：（人民日报）：不能让算法决定内容
随着大数据、人工智能的广泛应用，一些商业网站、移动新闻客户端，包括直播平
台、浏览器、搜索引擎、影音软件等，都在运用算法这个“读心术”，为用户量身打造
信息，创造出一种新的个性化阅读体验，信息获取已经从“大海捞针”进入“私人定制
”模式。然而，技术往往是一把冷冰冰的双刃剑，在价值和利益的天平上，所谓的算法
成为了利益的砝码，一切围着流量转，唯点击量、转发量马首是瞻，“标题党”泛滥，
价值取向跑偏，内容沦为附庸。
在“网红爆款”刷屏的网络世界，人的注意力是最稀缺资源，“10万+”的阅读、
百亿量的点播成为竞相追逐的“眼球经济”。一些平台打着定制服务、精准推送的幌子
，让算法变成了打擦边球的工具。侵权盗用原创作品、违规... 阅读全帖

发帖数: 1

来自主题: Military版 - 全球共享新冠毒株数据库揭示的真相(图)

首先，这是一篇科普文章。是介绍或翻译陈述各国实验室上传的新冠病毒基因组图谱信
息。这里不存在作者自己所下的结论。如果已经抱有主观结论的人，不愿意面对客观事
实的人，为甩锅不择手段的人，逢美必骂的人，建议可以绕道了，免得会让你老心情不
美。到北京时间3月24日中午左右，"下一个病毒株”网站数据库GISAID已增加到1111个
COVID-19新冠病毒基因组（ https://nextstrain.org/ncov/zh）。比一周前增加了约
一倍。。现在网站展示的病毒系统发育树，几乎每天都有一些变化。虽然树形图基本仍
然延续了原来的大组（L）和小组（S）两个亚型布局，但是现在越来越趋向于形成三个
大的分支，加上众多数据量还不多的小分支。第一个大变化，原来位于大组里的欧洲主
爆发族与原来S组被互换了位置。这显示对根部分支的判断还不是十分牢固，正象那个
“荷兰独立支”最初在不同的两个位置摇摆不定类似。第二个比较大的变化，原来L组
的许多分支的探源路径越来越清晰，而聚合成一个更大簇，小编暂时称之为全球簇吧，
这个簇里包括欧洲、亚洲、大洋洲、北美和南美巴西等基因组数据。被放进大组里的原
来S型组就... 阅读全帖

t******g
发帖数: 1136

来自主题: Military版 - 生物版有高人？来看看不知道删除没有

不是我写的我跟生物没有半毛钱关系。为什么这样的帖子被删除？
http://www.mitbbs.com/mwap/forum/article.php?board=Biology&groupid=32106037&content_type=all&page=1
首先，这是一篇科普文章。是介绍或翻译陈述各国实验室上传的新冠病毒基因组图谱信
息。这里不存在作者自己所下的结论。如果已经抱有主观结论的人，不愿意面对客观事
实的人，为甩锅不择手段的人，逢美必骂的人，建议可以绕道了，免得会让你老心情不
美。到北京时间3月24日中午左右，"下一个病毒株”网站数据库GISAID已增加到1111个
COVID-19新冠病毒基因组（ https://nextstrain.org/ncov/zh）。比一周前增加了约
一倍。。现在网站展示的病毒系统发育树，几乎每天都有一些变化。虽然树形图基本仍
然延续了原来的大组（L）和小组（S）两个亚型布局，但是现在越来越趋向于形成三个
大的分支，加上众多数据量还不多的小分支。第一个大变化，原来位于大组里的欧洲主
爆发族与原来S组被互换了位置。这显示对根部分支的判断还不是十... 阅读全帖

发帖数: 1

来自主题: Stock版 - 全球共享新冠毒株数据库揭示的真相(图)

全球共享新冠毒株数据库揭示的真相(图)
首先，这是一篇科普文章。是介绍或翻译陈述各国实验室上传的新冠病毒基因组图谱信
息。这里不存在作者自己所下的结论。如果已经抱有主观结论的人，不愿意面对客观事
实的人，为甩锅不择手段的人，逢美必骂的人，建议可以绕道了，免得会让你老心情不
美。到北京时间3月24日中午左右，"下一个病毒株”网站数据库GISAID已增加到1111个
COVID-19新冠病毒基因组（ https://nextstrain.org/ncov/zh）。比一周前增加了约
一倍。。现在网站展示的病毒系统发育树，几乎每天都有一些变化。虽然树形图基本仍
然延续了原来的大组（L）和小组（S）两个亚型布局，但是现在越来越趋向于形成三个
大的分支，加上众多数据量还不多的小分支。第一个大变化，原来位于大组里的欧洲主
爆发族与原来S组被互换了位置。这显示对根部分支的判断还不是十分牢固，正象那个
“荷兰独立支”最初在不同的两个位置摇摆不定类似。第二个比较大的变化，原来L组
的许多分支的探源路径越来越清晰，而聚合成一个更大簇，小编暂时称之为全球簇吧，
这个簇里包括欧洲、亚洲、大洋洲、北美和南美巴西等... 阅读全帖

g*****g
发帖数: 34805

来自主题: Java版 - 请教一个multi key hashmap的问题

你要深度优化，就得说明你的数据量大小，读写的频度，读写latency分别的要求。既
然你在考虑ConcurrentHashMap，我猜想数据量并不算太大，单机能放得下。经验上
ConcurrentHashMap足够了。你需要的是个benchmark test，然后调试一下
ConcurrentHashMap constructor上那三个不同参数，以及hashcode的算法。虽然你要
维护3个map，但性能瓶颈不会在这里，你甚至可以起3个线程同时进行3个map的维护。
如果并行读写很频繁，你多半会发现瓶颈在CPU上。如果不够快，你需要一个cluster。
如果数据量太大，你需要的是像Cassandra的DB。即便到Pegabytes数据量，每秒一万次
读写的级别，也可以把读写控制在几个ms，Twitter就是那么做的。
我不知道你说得是哪个MultiKeyMap的实现，Apache Commons的那个不thread safe。多
半不是你想要的。

g*****g
发帖数: 34805

来自主题: Java版 - 请教一个multi key hashmap的问题

y******8
发帖数: 1764

来自主题: Biology版 - 旧金山宣言

也不一定的。
例如在比较成熟的领域，大部分文章还是聚焦在一个小问题上。
这时候引用量大部分来自于数据的直接参考，而不是概念的借用。那么，数据的质与量
，直接决定今后引用率的高低。这其中，数据量甚至比质更有影响。
所以，并不缺少这样的例子。一篇文章现在CNS上出现，一篇类似的文章在更专业化的
期刊上几乎同时出现。一年多以后，基本都是数据量大的，数据质量好的引用率高。
当然，Nature对这个关系心知肚明。所以相比较Science，Nature对于数据的多寡也更
看重。

发帖数: 1

来自主题: Biology版 - 全球共享新冠毒株数据库揭示的真相(图)

c*******h
发帖数: 1096

来自主题: Faculty版 - hypothesis testing 快过时了

且不说 hypothesis testing 在各个具体背景下的重要意义，就这一概念而言，它本身
是一个严谨的科学态度，不应该有异议。Hypothesis testing 跟大数据这两个概念，
本身就是 apples and oranges，没有可比性。如果非要从科学观去评论，我倒要批评
一下趋之若鹜的大数据研究。就像 Michael Jordan 说的，大家看到大数据、深度学习
等热门课题一下子造就了很多应用，提高了很多预测准确率，却忽略了数字背后的可靠
性，没有一个好的理论框架去解释为什么一个方法 work 或者不 work，这是极端危险
的。
举一个具备理工背景的人都懂的例子，线性回归。我们看 Wikipedia 的这张图：
https://en.wikipedia.org/wiki/Linear_regression#/media/File:Anscombe%27s_
quartet_3.svg
线性回归做的事情就是给你一堆点，你把大致通过这堆点的直线斜率和截距算出来。现
成的软件到处都有，最傻瓜的只需要你按一下按键结果就出来了。但是很明显，上面这
张图只有左上角的那个情况最 ... 阅读全帖

G******i
发帖数: 5226

来自主题: JobHunting版 - [合集] 来来来贴个励志篇：一问三不知也能拿offer

☆─────────────────────────────────────☆
lanmao (懒猫) 于 (Sat Jul 9 11:29:24 2011, 美东) 提到:
（坑已经够大了，只管挖不管填不道德，俺自个合集了。）
看了芙蓉的减肥照片和凤姐的励志围脖，也想来跟个励志潮流。满版上都是google
amazon facebook，搞得不是编程熟手不会脑筋急转弯就没好工作似的。俺来贴个BSO
的Java面经吧，来鼓励一下正在奋斗着的童鞋们。认识俺的都不要说啊，俺那么低调~~~
个人背景：人工智能方向的，学校算top 50吧，9月答辩，读了整整八年的老博士马上
就要新鲜出炉啦！
先低调的说一下amazon经历。amazon给俺发信三四次，要求俺去面试，没理。HR打电话
过来说为啥不理，俺说你们招聘职位太entry level，没兴趣。HR说那给你找个高层次
点的职位。过两天打电话来，说有个高级程序员的活，能不能给我们的hiring manager
一个向你展示我们项目产品的机会。俺心想，说得好听，还不是又要问那种脑筋急转弯
问题，反正答不出，没必要耽误时间。于是很彪... 阅读全帖

z****e
发帖数: 54598

来自主题: Zhejiang版 - 关于微软重组的感想

传统db有一个最大的问题
就是结构化存储，比如你要把员工数据放到一个db里面去
那么每个员工的数据都会归类
比如身高放在同一个地方，体重放在另外一个地方
姓名放在一个地方，籍贯放在另外一个地方
结构化存储有很大好处，这个自然，是个人都明白
尤其是做报表的时候，一拉就出来了，一目了然
但是有个很大的问题，就是对于精度要求不高的数据
结构化存储带来了巨大的资源浪费，因为要管理这些数据
本身就有各种开销，比如对于每一个字段是空还是不空，这个要记录
放在哪里，要记录，这些记录就是索引，随着数据量上去
索引本身也带来了巨大的开销，那这种开销一旦大到一定程度
就变得无法接受，太大了
比如google，把网页资源存起来，这个如果结构化做起来
那所带来的开销是十分巨大的，甚至是不可接受的
那怎么办？简单，我先找个地方，存了再说
等到要用的时候，再做处理模糊查询处理
比如我要找张三的数据，那么系统会派发一堆的线程
我通俗点解释就是一个程序变成一堆子程序
然后这些子程序各自独立去寻找数据
那么张三这个关键字可能匹配到身高，也可能匹配到体重
甚至匹配到张三在某征婚网站上的广告
不管是什么，只要是张三的数据，... 阅读全帖

z****e
发帖数: 54598

来自主题: Zhejiang版 - 关于微软重组的感想

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天