m******a 发帖数: 77 | 1 物理其实是 DATA SCIENCE 的祖宗
想想当初孕育经典力学的行星运动三定律是怎么来的
以及后来催生量子力学的各个光谱线系是怎么来的就清楚了
统计中以及机器学习中的很多方法最初都是从物理中偷过去
特别是和Monte Carlo模拟有关的,原始文献都是一些物理文章
现在有很多人以为只有学统计或机器学习,数据挖掘的人才能作 DS
其实物理这帮人几百年前都开始并一直在干这活
CERN, FERMILAB, SLAC 那帮作Monte Carlo模拟, 粒子 Tracking, 识别,本底,
误差分析, 以及模型 Fitting 的其实是世界上最好的一帮 DS, 他们多少年前都在玩
比如今所谓的大数据更大的数据了,看看CERN 的LHC 单位时间里产生的数据量以及相
对应的Monte Carlo模拟事例数据量就知道他们玩的才叫大数据。 |
|
r**********e 发帖数: 194 | 2 你需要去读一下相关的材料,理解Gradient Descent,Stochastic Gradient Descent
和Batch Gradient Descent的区别和联系。一般来说,计算梯度如果在数据量很大的时
候根本算不了,就算内存足够大计算速度也很慢,随机梯度下降法减少了每一步计算梯
度所需要的数据量,大大加快了计算速度。尽管需要的iteration增加了指数级别但总
的计算时间缩短了。在很多real-world online learning的问题中SGD很好的解决了由
于数据进来的方式是sequential的导致GD不能work的情况,而且通过增加iteration的
次数来有效减少每一次iteration所需要的计算量,是一个非常有效的算法。 |
|
z**********e 发帖数: 22064 | 3 【 以下文字转载自 Military 讨论区 】
发信人: zhonghangyue (中行说), 信区: Military
标 题: [原创]伪造数据和伪造历史的李宏志
发信站: BBS 未名空间站 (Sun Jun 5 18:06:34 2016, 美东)
扫煤才子 于 2008-4-16 23:36:12 发布在 凯迪社区 > 猫眼看人
伪造数据和伪造历史的张宏志──《“大跃进饿死三千万人”纯属捏造》分析
一
看到这篇文章很久,实际上,在网络上一搜,轻易就能搜到不少的网页。对于这篇
文章,对“三年饥荒”感兴趣的朋友不会陌生,但是这篇文章,除了各种谎言和假设外
,并没有什么实质意义,但是,却是广大毛卫兵同志最喜欢引用的文章。这里,在下对
文章做个简单的分析,并且指出张宏志同志可笑但全无用处的伪造数据和若干制造假象
,隐瞒真相的地方,以雪亮你们的双眼。
在分析的开始,我先给大家看一张表:
│ │年末总数人口 │ 出生率 │ 死亡率 │自然增长率 │
│年份 │ (万人) │ (‰) │ (‰) │ (‰) │
│1957 │ 64,653 │ 3... 阅读全帖 |
|
m**a 发帖数: 1840 | 4 【 以下文字转载自 EE 讨论区 】
发信人: mola (Super Baby), 信区: EE
标 题: 为极解密:如何看待华为拿下5G“短码”方案?
发信站: BBS 未名空间站 (Thu Dec 8 12:21:31 2016, 美东)
朋友大作,发在知乎。欢迎点赞和转发。
https://www.zhihu.com/question/52732376
美国当地时间11月17日凌晨0点45分,在刚刚结束的3GPP RAN1 87次会议的5G信道编码
方案讨论中,经过艰苦卓绝的努力和万分残酷的竞争,以中国华为公司主推的Polar
Code(极化码)方案,成为5G控制信道eMBB场景编码方案。
编者按
“华为极化码事件”内幕:
极化码获得的并非之前大肆炒作的“短码”。
极化码打败的对手并不是LDPC,而是在控制信道上取代4G现有技术TBCC。
若非极化码最终靠非技术手腕挤进控制信道,华为投资几十亿的5G“三神器”在5G NR
第一阶段业已全部打水漂。
整个5G信道编码又经历一番怎样波澜壮阔的争斗,这背后又隐藏着多少暗流汹涌的阴谋
诡计。“为极解密” 为您最全方位的解析。
为极解... 阅读全帖 |
|
发帖数: 1 | 5 英特尔公司CEO Brian Krzanich认为未来大数据将会对世界产生重大的影响,有可能会
给世界带来巨大的变革。Krzanich很喜欢谈论自己对未来的展望。他预计,未来大数据
将会改变每一个行业,以及每一个人的生活。
Krzanich表示:“上世纪90年代的时候,石油改变了世界。它为汽车提供了动力,为整
个化学产业提供了原料。而在我看来,数据将会在未来起到石油曾经起到的作用。它将
会改变这个世界上大多数的行业。”
5年前,Krzanich成为了英特尔公司的CEO,自此以后,他就一直努力带领这家公司朝着
新的方向前进,他将这个方向称为“数据中心战略”。这意味着英特尔开始将它们的业
务范围变得更加多元化,它们这几年相继进入了人工智能、无人驾驶和物联网等行业。
而这些行业有一个共同点,那就是它们都需要以大量的数据作为依托,英特尔要用自己
生产的各种原件来利用这些数据。英特尔的这个新战略对于它们来说还有另外一个影响
,那就是对于自己赖以成名的看家本领——个人电脑处理器——它们的专注度有所降低。
好在它们的这个战略为它们带来了不错的效果。去年,尽管PC的出货量进一步降低,但
是英特尔的营收... 阅读全帖 |
|
f*******1 发帖数: 59 | 6 做一下广告:一家以省政府牵头,有30亿启动资金的民营银行要在上海建立科技和业务
中心。银行以互联网为主,做支付,借贷,理财,境内外转账,etc。
诚征拥有海外多年互联网金融工作及学习的背景,熟悉海内外互联网金融发展趋势,具
有创新理念,致力于归国投生于科技金融事业的人士
公司氛围将秉承创业精神,股权激励,以技术团队为主,占到60%或以上。公司主管将
于四月中旬来美现场招聘。
有意者或者有认识的朋友感兴趣 请与[email protected]/* */联系, 谢谢
招聘岗位:
业务类
资产管理产品设计
工作职责:
1、负责资产项目的引入、流程设计、机构、产品及项目准入、协议签署、除外部渠道
产品引入以外的商务谈判等工作;
2、协助配合持续期管理室和综合财务室与业务的相关工作;
3、牵头完善资管产品部资产引入的有关制度、办法、流程;
工作要求:
1、国外重点院校本科及以上金融相关学历;
2、有资产管理产品设计相关经验5年以上,了解市场客户需求和市场产品动态,具有产
品创新精神;
3、有较强的沟通能力和执行力,有高度的责任心和团队协作精神,能承受较强的工作
压力;
4、热爱移动... 阅读全帖 |
|
m**a 发帖数: 1840 | 7 【 以下文字转载自 EE 讨论区 】
发信人: mola (Super Baby), 信区: EE
标 题: 为极解密:如何看待华为拿下5G“短码”方案?
发信站: BBS 未名空间站 (Thu Dec 8 12:21:31 2016, 美东)
朋友大作,发在知乎。欢迎点赞和转发。
https://www.zhihu.com/question/52732376
美国当地时间11月17日凌晨0点45分,在刚刚结束的3GPP RAN1 87次会议的5G信道编码
方案讨论中,经过艰苦卓绝的努力和万分残酷的竞争,以中国华为公司主推的Polar
Code(极化码)方案,成为5G控制信道eMBB场景编码方案。
编者按
“华为极化码事件”内幕:
极化码获得的并非之前大肆炒作的“短码”。
极化码打败的对手并不是LDPC,而是在控制信道上取代4G现有技术TBCC。
若非极化码最终靠非技术手腕挤进控制信道,华为投资几十亿的5G“三神器”在5G NR
第一阶段业已全部打水漂。
整个5G信道编码又经历一番怎样波澜壮阔的争斗,这背后又隐藏着多少暗流汹涌的阴谋
诡计。“为极解密” 为您最全方位的解析。
为极解... 阅读全帖 |
|
m**a 发帖数: 1840 | 8 朋友大作,发在知乎。欢迎点赞和转发。
https://www.zhihu.com/question/52732376
美国当地时间11月17日凌晨0点45分,在刚刚结束的3GPP RAN1 87次会议的5G信道编码
方案讨论中,经过艰苦卓绝的努力和万分残酷的竞争,以中国华为公司主推的Polar
Code(极化码)方案,成为5G控制信道eMBB场景编码方案。
编者按
“华为极化码事件”内幕:
极化码获得的并非之前大肆炒作的“短码”。
极化码打败的对手并不是LDPC,而是在控制信道上取代4G现有技术TBCC。
若非极化码最终靠非技术手腕挤进控制信道,华为投资几十亿的5G“三神器”在5G NR
第一阶段业已全部打水漂。
整个5G信道编码又经历一番怎样波澜壮阔的争斗,这背后又隐藏着多少暗流汹涌的阴谋
诡计。“为极解密” 为您最全方位的解析。
为极解密
作者:见南山
第一章 极之澄清
第一章 第一节 5G到底哪一部分码会考虑使用极化码?
第一章 第二节 极化码在长码上真的是几票惜败于LDPC么?
第一章 第三节 5G NR 极化码到底打败了谁?
第二章 极化之源
第二章 第一节 前5G -- 毫... 阅读全帖 |
|
b*****d 发帖数: 61690 | 9 北京房产新政首日二手房网签量降八成
http://www.sina.com.cn 2011年02月19日01:20 北京晨报
晨报讯(记者 赵阳)2057套和248套,这就是16日、17日连续两天全市二手房的网
签量,北京新政的落地直接导致了二手房网签进入低谷。
17日零时开始,北京楼市全面开始执行严格的限购政策,在第一天,北京二手房住
宅网签套数仅248套,相比之前16日的2057套,下降超过87%,而商品房住宅总成交也仅
141套,均有明显下降。
中原地产分析师张大伟告诉记者,根据中原地产的统计,17日当天各交易大厅实际
过户人数比16日下跌超过7成。据介绍,居民家庭再买房,以后将首先需要进行资格确
认,大部分新购房居民家庭,目前只能递交网签申请,待相关部门对其购房资格核验并
通过后,才能办理网签程序。整个审核过程,会在5个工作日内完成。17日的部分网签
数据是因为已经完成了合同签订等程序但还未完成网签的购房人。而预计随后的几天网
签数据可能降至两位数,最近几天本市的房产网签量将非常少。她表示,预计在新政执
行以后市场将明显地趋向冷淡。限购等政策的效果将逐渐明显。 |
|
w*********g 发帖数: 30882 | 10 (组图)中国天链数据中继卫星。
来源: 看个乐 于 2014-09-19 16:21:11 [档案] [旧帖] [给我悄悄话] 本文已被阅读
:1322 次 (12863 bytes)
字体:调大/重置/调小 | 加入书签 | 打印 | 所有跟帖 | 加跟贴 | 当前最热讨论主题
本文内容已被 [ 看个乐 ] 在 2014-09-19 16:53:28 编辑过。如有问题,请报告版主
或论坛管理删除.
天鏈一號的戰略意義
“天鏈一號01星”的定點成功意味著,中國航太器開始擁有天上數據“中轉站”。不僅
可以使我國航太測控網覆蓋率大幅提升,同時還將增強航太器測控及星地數據傳輸的實
時性,能有效降低航太器咝酗L險、提高地面測控指揮決策效率。尤其是對航太器出現
異常情況下及時實施故障分析和太空搶救具有重要意義。
“天鏈一號01星”將在三個方面得到應用並將產生巨大效益:一、中國目前擁有的6艘
遠望號測量船隊加上10余個地面站,才能為神舟飛船提供12%的全球測控覆蓋率。而一
顆天鏈中繼衛星即可覆蓋衛星或飛船50%的飛行弧段,無論是經濟效益還是使用效率都
有了質的提高。二、航太器在太空中出現故障,搶救... 阅读全帖 |
|
w*********g 发帖数: 30882 | 11 看完这篇文章,求求你们别胡吹中国大数据云计算已经超过美国了。美国对于大数据、
云计算技术的理解和掌握,不是国内那些专家能够企及的。
==============================================
分享到:
时间:2017-03-31 10:42
•来源: 中华元智库
作者: 吴裕彬
浏览:241
评论:0
字号: 大 中 小
仅仅用美国人民的觉醒和黑天鹅般的奇迹来解释特朗普的当选,就无法看清美国政治版
图已经发生了一个根本性的转变,无法看清其将对美国政治的动向,乃至世界格局产生
极其深远的影响。特朗普奇迹的背后有深刻的金融本质,而金融本质最终决定政治。在
揭示特朗普革命金融本质之前,让我们先来看看一场发生在华尔街的技术革命,而这技
术革命在很大程度上奠定了特朗普革命的金融和科技基础。
特朗普背后神秘金权力量:大数据这样改变总统选举!
1.关于特朗普的美国,你们全错了
至今特朗普的当选依然被许多人认为是美国人民自我觉醒的一场革命,因为几乎所有的
观察家都一致认为特朗普在竞选的时候是被所有的美国富豪和主流媒体... 阅读全帖 |
|
l*****k 发帖数: 5933 | 12 哇哈哈哈哈~~~
随便说几句大数据哈,抛砖印雷~~
这个这个大数据个人理解,个人理解哈,说直白一点儿,就是马上即将要进入的数据化
时代的具备前瞻性的课题。再说简单一点,个人认为就是基于“海”量数据的统计分析
和预测。
这玩意其实说白了跟原来炒作的人工智能也有异曲同工之妙。反正就是利用计算机课着
劲儿的忽悠。这个忽悠的方式方法再扣上一个大胸罩,左边写着科学和统计科学,右边
写着HIGH TECH”高潮技术“,于是就以一种势不可挡的气势出现在我们的现实生活里。
当然人类对于大数据一直都在搞,从生产上的丰田生产线和摩托罗来的六西格玛再到精
细生产等等等等把其实都是最初的大数据应用。但是当数据的尺度到了恒河里面的沙子
的级别的时候,就会出现一种微妙的量变到质变的改观。
打个比方,现在所有各个国家的PI都在热情大搞特稿的纳米材料,当材料的生产加工尺
度越小,越来越精密终于精密到了纳米级就是10个原子那么大,或者几百个原子那么大
的时候,材料的原来的物理属性就发生了飞跃性的改观一样。
那么数据大到了一定程度,甚至是人类所能想象的程度之后,也会出现这种飞跃性的改
观。这种改观个人理解,主要表现在的”... 阅读全帖 |
|
h******y 发帖数: 67 | 13 PS:::买买提上了两年多,第一次发帖,没想到竟然被版主推荐到了热门,受宠若惊~~
转念一想,看到的人多了,万一有朋友认出我,还请一笑而过~
今年博士毕业面临选择,各种纠结。先跪谢各位高人,求指点。
本人男,28岁,今年生物博士毕业,本科国内十几名学校,硕士国内某研究所,博士香
港top3大学(就是港中科其中一个)。做的方向很基础,小鼠模型研究疾病的分子机制
基因调控。今年博士毕业,有一篇小文章打算投(plos one 或jbc那种3~5分的小文章)
,同时开展的另一个课题还要大概两年才能做完,到时候应该也就是10几分的水平。
对于科研,从小有科学家情节,但是现实很残酷,自己做的并不好,从硕士开始就想过
转行,但总是犹豫不决。自己中学的时候是那种很内向不愿跟人打交道的人,但是随着
年龄增加越来越外向,现在是那种亲和力比较强,比较能活跃气氛的人,朋友圈也很广。
刚开始读博士的时候还是很玩命的,每天11点多下班回家,地铁上都可以看文献,包括
周六和周天都一样。
但是这种生活坚持了半年,感觉整个人精神就不行了,空虚寂寞冷,觉得生活无聊没意
思。后来想想就是精神生活全被科研占据,没有其他的娱乐... 阅读全帖 |
|
发帖数: 1 | 14 原标题:手机导航第一之争:百度、高德互撕背后的“中国式第三方数据”
阿里宣称,高德地图手机客户端的每日活跃数据已经超越百度地图,成为行业内排
名第一的手机地图应用。
百度地图和高德地图为“手机地图导航”的头把交椅撕起来了。
10月15日上午,阿里移动事业群总裁兼高德集团总裁俞永福在杭州云栖大会上发表
演讲时宣布,高德地图手机客户端的每日活跃数据已经超越百度地图,成为行业内排名
第一的手机地图应用。
高德方面援引艾瑞mUserTracker的最新监测数据称,高德地图手机客户端(不包含
高德导航、苹果地图)的最新每日活跃设备数约为2983.19万,在地图导航类目中排名
第一,“排名次席的百度地图每日活跃设备数据则为2808.87万”。
高德方面还宣布,在每日使用频度和时长方面,高德同样排名行业第一:高德地图
手机客户端人均(单机)每日总使用次数为2.48次,人均(单机)每日总有效使用时间
为17.08分钟,百度地图则分别只有2.06次和8.04分钟。
高德地图宣称其总用户量超过7亿。
俞永福公开“喊话”百度地图,出于对自己成绩的充分自信,“我们也开始允许另
一家大数据服务商QuestMob... 阅读全帖 |
|
c***s 发帖数: 70028 | 15 新年伊始,中国航天科技集团公司八院狠抓今年各项型号产品研制工作措施的落实,做到早启动、早策划、早安排,确保开好局,起好步,实现“开门红”。
中国远望六号航天测量船交付将执行神七任务
新年伊始,中国航天科技集团公司八院狠抓今年各项型号产品研制工作措施的落实,做到早启动、早策划、早安排,确保开好局,起好步,实现“开门红”;
国家测绘局在中国测绘创新基地组织召开“国产卫星遥感影像压缩质量评价技术研究及应用”科技成果鉴定会。国家测绘局李维森副局长出席会议。会议由国家测绘 局科技与国际合作司武文忠司长主持。
影像压缩是对影像数据按照一定的规则进行变换和组合,用尽可能少的数据量来表示影像,形象地说,就是对影像数据“瘦身”。由于遥感卫星影像数据量巨 大,受限于星上存储能力的大小和卫星下行链路的带宽,几乎所有的卫星影像都要进行星上压缩后才能下传。因而卫星影像压缩质量直接关系到卫星影像的应用能力 和应用范围,对于卫星研制和应用有着深远的影响。
该项目由中国测绘科学研究院承担。本项目从我国资源卫星的实际应用出发,针对我国卫星传感器的实际特点,提出了一套面向土地、测绘和地质等重要卫星行 业应用的遥感影像压缩 |
|
c***s 发帖数: 70028 | 16 一则“用牛肉膏制造假牛肉”的新闻,让25岁吴恒突然意识到,自己也成了食品安全问题的受害者。5月11日,复旦历史地理研究中心研究生吴恒开始在网上征集志愿者,挑出关于食品安全问题的2107篇报道,编写出“中国食品安全状况调查”。
吴恒在复旦校园
厦门大学门口的海滩,一身黑色背包客行装。这是吴恒在微博的头像照。清华大学副教授刘瑜、学者贺卫方等都在他的“关注”之列。从他的微博看,他常评论、转发一些国际新闻和社会热点,偶尔也对社会问题的发发牢骚。
他在个人简介中称自己为“悲观的乐观主义者”、“因为懒得放弃而选择坚持”、“信仰心中准则和头顶星空”、“每天读一卷《资治通鉴》”,因为“读史早知今日事”。
正如这些个人简介所呈现的,吴恒热爱历史人文学科,目前在复旦大学历史地理研究中心攻读硕士。但就在最近,吴恒做了一件不普通的事――6月17日凌晨,他和志愿者团队一起发布了一个名为“掷出窗外”(www.zccw.info)的网站,并同时发布了《中国食品安全问题新闻资料库》、《易粪相食:中国食品安全状况调查(2004-2011)》和《掷出窗外――面对食品安全危机,你应有的态度》等报告。一经人人网、新浪微博等网... 阅读全帖 |
|
N*******g 发帖数: 370 | 17 随着以Hadoop为代表的大数据分析技术的普及,大数据的商业价值得到深入挖掘,并开
始在互联网、零售、医疗、物联网等多个行业里成为商业变革的主导力量。Facebook最
近就发布了名为Graph Search的新型社交搜索产品,基于海量的社交关系网络及“
Likes”行为数据,为用户提供个性化的社交搜索服务,该产品被认为将是Google搜索
业务的重要竞争对手。在电子商务领域,淘宝的数据魔方就是一个基于大数据分析的典
型产品。数据魔方基于淘宝所掌握的大量消费数据提供各种各样的分析服务,例如展示
消费者的购物习惯,地域分布,年龄分布,热销排名等,为淘宝卖家提供了非常有价值
的分析数据。然而,这些现有的大数据分析技术处理的主要对象仍集中于文本数据,例
如社交图谱,搜索关键字,商品数目,店铺、商品浏览记录,成交、收藏、评价记录等
等,却没有涵盖一类非常重要的数据:多媒体。
实际上,多媒体数据的数据不仅规模远远超过文本数据,其商业价值也毫不逊色。以全
球流量最大的网站Youtube为例,它在07年一年所消耗的网络带宽就等同于整个互联网
在2000年的全部流量。另一方面,多媒体数据的来源也是异常... 阅读全帖 |
|
|
g******t 发帖数: 18158 | 19 就算“成千上万的患者的基因数据是大数据里面的小”
这个数据量已经远远超过围棋定式及其所有变化的数据量了,围棋定式更小 |
|
y*****3 发帖数: 1914 | 20 http://news.sohu.com/20150714/n416723097.shtml
董程越来越觉得孤单,早晨一起锻炼的人越来越少。30多年前一起进厂的伙伴,现在大
部分都离开了,有的几年前就到北京、天津、深圳重新找工作,还有很多人去“关内”
给孩子带下一代。
“原来小区周围好多饭馆,干得好的,吃饭时都挤不进去,这两年人少了,饭馆关
了不少。”董程是齐重数控(原齐齐哈尔市第一机床厂)的职工。该厂鼎盛时号称万人
大厂,近些年经过系列调整现在只有1000多人。他所住的顺意小区,今年以来周围关掉
的饭馆就有八九家。在房产交易网站上,这一带二手房平均价格也从去年的5500元降到
今年的4800元左右。
“人少了。老人都各自想办法走了,年轻人来得也少了。”董程的同事有管厂里宿
舍的,十多年前,大学毕业生分来的时候,五六百人把宿舍挤得住不下,现在少多了,
只剩100多人。
位于黑、吉、内蒙三省区交汇处的齐齐哈尔是我国重要的老工业基地,也是商品粮
、畜牧业基地。包括第一机床厂、第二机床厂、一重、车辆厂等在内的“七大厂”造就
这座老工业城市的辉煌,如今只有一重和车辆厂效益尚可。董程的工资也从2... 阅读全帖 |
|
发帖数: 1 | 21 英国《金融时报》中文网编辑 史书华 东京报道
2017年3月19日,距离东京市区约40分钟的车程,百年学校日本国立电气通信大学。
一个不算大的教室空间,零星放了几张长桌。桌子上,没有华丽的器材,只有一台台朴
素的笔记本或台式电脑,却静悄悄的上演一场全球最前沿的人工智能(AI)大战。
这天傍晚,由电气通信大学举办的第十届UEC杯世界计算机围棋大赛(简称UEC),正式
画下句点。一如在场选手的普遍预测,来自腾讯的“AI棋手”——绝艺,一举拿下冠军。
这是腾讯第一次参赛,也是腾讯AI Lab(人工智能实验室)部分成员第一次公开露面(
封面图的左上角团队)。但有趣的是,这半年来,绝艺已在腾讯竞技平台野狐围棋上获
得不少优胜战绩,在场选手早已久闻大名。比赛前,腾讯团队仍对比赛结果保守看待,
但第一天预赛进行不到一半,不少选手已私下讨论,“这次(冠军)应该就是绝艺。”
“看绝艺下棋,有时已比AlphaGo更成熟了,”我问起在现场讲解棋局的日本九段棋士
王铭琬,身为职业最高段的棋士,他怎么评价绝艺的表现?王铭琬给了相当正面的回应。
AlphaGo是谷歌旗下公司DeepMind的AI软件,去年3月曾与... 阅读全帖 |
|
发帖数: 1 | 22 韩国船企厉害了!5月接单量再夺全球第一!
今年以来,韩国造船业在接单量方面持续领先,5月韩国船企接单量再次位居全球第一
。今年前5个月,韩国船企总体接单量也排名全球第一。
根据克拉克森的最新数据,今年5月,韩国船企获得的新船订单量共计15艘、550000
CGT,相当于5月全球新船订单量(35艘、100万CGT)的一半以上。
5月接单量排名第二的是中国船企,共计13艘、250000 CGT;虽然中韩两国接获的新船
订单艘数相差不大,但按CGT计算韩国船企却远超中国。德国船企接单量排名第三,共
计90000 CGT。日本船企接单量为零。
今年1至5月,韩国船企接单量同样排名全球第一,共计410万CGT。中国船企位居第二,
共计359万CGT。日本排名第三,共113万CGT。
5月,全球新船订单量共计100万CGT,仅为上个月148万CGT的三分之二左右。不过,前5
个月,全球新船订单量共1000万CGT,这一数字在近三年来稳步上升,从2016年的608万
CGT增至2017年的864万CGT。 |
|
发帖数: 1 | 23 【 以下文字转载自 DataSciences 讨论区 】
发信人: hydrophobic (茶茶), 信区: DataSciences
标 题: 我在美国当猎头
关键字: 数据科学,猎头,面经
发信站: BBS 未名空间站 (Wed Aug 15 17:11:51 2018, 美东)
在美国做猎头和职业培训两年多了,专攻数据科学家(Data Scientist),审了一千多
份简历,面了几百人,简单说说一些个人的经验和感受。数据科学是一门新兴行业,对
专业的要求比较高,我经手的candidate基本都是个各个领域的PhD,最后加入的团队也
都是在数据行业肯投资,发展快的一线技术公司。有些经验可能不适合其他行业,请自
行斟酌。
1. 招人难,招数据科学家更难
先说说什么是数据科学吧。2010年左右,硅谷几大发展势头迅猛的公司(我不说你们也
知道,不外乎Facebook, LinkedIn, Twitter,Apple, Amazon几家,这里不提Google因
为G家早几年就自己闷头发展Google X了,数据科学对他们来说太小儿科了)意识到数
据堆里有黄金,简单作几个模型预测就可以... 阅读全帖 |
|
f*******e 发帖数: 1061 | 24 央视网5月31日报道,中国陆地观测卫星数据全国接收站网建设项目今天通过国家验收
,这标志着我国陆地观测卫星数据接收站网全面建成。该站网使我国直接接收卫星数据
的范围覆盖了我国全部疆土和亚洲70%的区域,填补了我国西部和南海等重要战略区域
的空白,显著增强了我国遥感应用的数据服务能力。
陆地观测卫星数据全国接收站网项目自2004年中国科学院批准先期启动、2007年发改委
正式批复启动以来,经过多年的研究、建设、运行和发展,现已全面形成了北京密云站
、新疆喀什站、海南三亚站和北京总部组成的全国卫星数据接收站网格局。
这一站网项目边建设、边运行,承担着我国全部国家对地观测卫星等数据接收任务。建
设过程中实现了多项技术创新和突破,取得一系列卫星地面系统发展里程碑性质的重要
成果,开创了我国卫星遥感事业的新局面,对利用空间信息保障国家利益具有重要的意
义。
我国在拥有自己的遥感卫星地面站之前,只能通过购买国外的卫星数据获取相应的资料
,难度大、时效性差、数量又极其有限。为满足我国遥感事业发展的迫切要求,1986年
12月,以邓小平同志与美国卡特总统签订的“中美科技合作协定”为基础,我国建成了
自... 阅读全帖 |
|
l****o 发帖数: 924 | 25 版上码工题多,architect面试题没怎么见过,把最近遇到的题发上来给大家做做参考
。这种题没有标准答案的,大家见仁见智。思路比答案重要。刚毕业的童鞋们可能这个
稍微困难些。
某投资银行,要建立向用户推荐相关信息的系统。用户是管理各种基金的基金经理。数
量大概几百一千人。
当前信息包括三个来源:公司内部研究报告,外部研究报告,会议日程安排。内部研究
报告是普通文件结构,可以理解成类似于word文件格式,有文字有图有排版。外部研究
文件是存在FTP server上的,需要系统自己去取。会议日程安排是存在数据库里的,需
要一个数据库接口。数据量大概是每天1000篇文件,要挑出很少的一小部分(十个八个
?)推荐给用户。注意当前信息三个来源,将来可能会增加,所以系统需要scalable.
来源于用户的信息有两种,一个是显性的,用户到某定制页面上去设置自己感兴趣的东
西,比如科技股,比如进出口数据,等等。另一个是隐性的,每个用户有不同的投资模
式(比如大公司,小公司,海外投资等等)和不同的基金holding(比如微软,苹果,
壳牌等等),隐性数据用户自己都不一定aware,但服务器数据库知道。... 阅读全帖 |
|
h*****a 发帖数: 1718 | 26 随便抛块砖。
如你所说,没有标准答案,不同面试官心里可能装着不同的答案,你要尽可能顺着对方
思路走。多问问题澄清假设,给出多种选择让对方决定详细说哪一个。
其实因为用户的状态更新一旦提交,在整个生命周期就是只读状态,(如果允许删除状
态更新的话会增加复杂性,这里暂不考虑)所以处理起来相对复杂性并不高。我觉得需
要考虑的有以下几点:
1)确定需要处理的数据规模。假定FB有10亿用户,里面有1亿每天登陆的活跃用户需要
看到update,平均每个人每天看到50条更新。10亿用户中平均每两周有5000万会发布状
态更新,平均每人每周10次,每条更新需要50个字节的存储和传送(内容+timestamp+
uid+updateId)。这些都是我的假设,需要对方confirm。
如果对方认可,那每天需要传送到活跃用户wall上的数据是50Byte * 100M * 50 =
250G bytes , 约为 3MB/second。考虑到要能处理spike,可以设计传输的capacity为
10MB/second.
存储系统只需存储过去两周的数据,50M * 10 * 50byte = 25GB,考虑p... 阅读全帖 |
|
h*****a 发帖数: 1718 | 27 随便抛块砖。
如你所说,没有标准答案,不同面试官心里可能装着不同的答案,你要尽可能顺着对方
思路走。多问问题澄清假设,给出多种选择让对方决定详细说哪一个。
其实因为用户的状态更新一旦提交,在整个生命周期就是只读状态,(如果允许删除状
态更新的话会增加复杂性,这里暂不考虑)所以处理起来相对复杂性并不高。我觉得需
要考虑的有以下几点:
1)确定需要处理的数据规模。假定FB有10亿用户,里面有1亿每天登陆的活跃用户需要
看到update,平均每个人每天看到50条更新。10亿用户中平均每两周有5000万会发布状
态更新,平均每人每周10次,每条更新需要50个字节的存储和传送(内容+timestamp+
uid+updateId)。这些都是我的假设,需要对方confirm。
如果对方认可,那每天需要传送到活跃用户wall上的数据是50Byte * 100M * 50 =
250G bytes , 约为 3MB/second。考虑到要能处理spike,可以设计传输的capacity为
10MB/second.
存储系统只需存储过去两周的数据,50M * 10 * 50byte = 25GB,考虑p... 阅读全帖 |
|
g*********n 发帖数: 119 | 28 事情过了一段时间了,分享出来也许对有些人有帮助。
我前个帖子说了Amazon recruiter找到我,说我挺适合他们供应链组Senior OR
Scientist的职位,要电话interview。我想好吧,虽然没打算换工作,借此也领教一下
大公司雇人的招数。于是定了时间。
电话那头是一个老印,年纪应该不大,口气倒是不小。先让我go through 我的简历,
问我为什么觉得适合他们。我之前仔细看了发给我的job description,他们实际想要
的是有数据分析和预测建模经验的统计分析师来处理那些OR分析师制造出的数据。我就
说,我是OR科班出身的,现在又有数据建模的实践经验,看起来确实挺适合这个职位。
于是他开始提问。很明显他是纯OR背景,没有多少统计方面的知识。先问我,如果现在
运输费用平均是三毛钱,他们费了死命的劲做出一个算法,把运费降低到两毛七分钱,
请问如何知道这个算法是不是有用。我就跟他解释这是要test这两个data sample是不
是服从同样的分布,统计上可以这样做,blahblah。于是他问,如果发现改善不大怎么
办?我想,那很可能就是你的算法不好嘛。不过我还是... 阅读全帖 |
|
s*******h 发帖数: 3219 | 29 【 以下文字转载自 JobHunting 讨论区 】
发信人: getitforfun (4fun), 信区: JobHunting
标 题: Amazon被拒,初次领教阿三
发信站: BBS 未名空间站 (Thu Oct 31 10:29:00 2013, 美东)
事情过了一段时间了,分享出来也许对有些人有帮助。
我前个帖子说了Amazon recruiter找到我,说我挺适合他们供应链组Senior OR
Scientist的职位,要电话interview。我想好吧,虽然没打算换工作,借此也领教一下
大公司雇人的招数。于是定了时间。
电话那头是一个老印,年纪应该不大,口气倒是不小。先让我go through 我的简历,
问我为什么觉得适合他们。我之前仔细看了发给我的job description,他们实际想要
的是有数据分析和预测建模经验的统计分析师来处理那些OR分析师制造出的数据。我就
说,我是OR科班出身的,现在又有数据建模的实践经验,看起来确实挺适合这个职位。
于是他开始提问。很明显他是纯OR背景,没有多少统计方面的知识。先问我,如果现在
运输费用平均是三毛钱,他们费了死命... 阅读全帖 |
|
b*****o 发帖数: 16 | 30 本人注册了一个1000分钟的家庭套餐,最多可以5个人分享。如果是五个人的话每个月
每个人只有20刀不到。周六周日以及平时晚上9点以后免费畅打。
如果iPhone或其他SmartPhone用户也可以另外加入数据套餐,而且这个套餐是
Unlimited数据量的,还是4G的网络, 费用只需要加额外20元每月。
附件:
iPhone 套餐之比较:
iPhone用户用T-mobile家庭套餐,每月只有40元,而AT&T至少是99,还是有限的数据量
,3G的网络。但iPhone要用T-Mobile必须是unlocked的裸机(好像是599元),但比较
一下2年的AT&T合同,总的付出是99×24=2376 而如果是T-Mobile套餐40×24=960
省了2376-960=1416 可以买2.3个iPhone。
运营商的数据套餐比较:
AT&T:
- $20/month for 300MB data with a $20 charge for each additional 300MB
- $30/month for 3GB data with a $10 charge for each... 阅读全帖 |
|
a********m 发帖数: 15480 | 31 gpgpu需要组织数据,dma上下,然后分析数据,占用系统总线还要避开正常显示处理。
不必要的等待太多,数据量小比较合适。但是多媒体和游戏都是数据量很大,没什么帮
助。 |
|
|
w***f 发帖数: 903 | 33 现在主要是Data Mining 那帮人在折腾吧。说来说去就是数据量大了,挑战就大了,机
会也大,诸如此类。这个东西搞到最后肯定是新瓶装旧酒,但是我觉得关键是新瓶怎么
装还是很重要的。当数据量大到一定程度,数据的预处理,数据的存储都有很多新的工
作要做。这些工作的质量直接决定了最后的效果。 |
|
s********i 发帖数: 17328 | 34 正是这样,以前家里有一两台计算机笔记本,数据最多一两份,现在动辄三四个计算机
,三四个mobile devices,如果数据不统一管理,很快就乱套了,这就是需求。数据量
小没有安全性要求网盘就行了,数据量大有安全性要求,就得自己有强功能的NAS,其
他要求都介于这两者之间。 |
|
s***1 发帖数: 343 | 35 分别用randomForest,e1071做random forest和svm,用ipred做cv。
刚开始的时候用iris练了RBF条件下的SVM,挺顺利的。但是上了实际基因数据就出问题
了。observation虽然只有不到200个,但是predictor var有差不多几万个(
microarray得到的数据)。
问题一:
老板要求试一下linear SVM,可是我发现ipred package里的errorest.SVM function好
像不能用于linear。 没有kernel="linear"的argument。
我于是后来只好用e1071的svm function(cross=10),然后用它自带的accuracies,
并平均一下这10个error值来看error rate,这种方法是不是不对?(我出来的结果很
奇怪,20个cost值各跑了一遍,error rate有10多个是一模一样的,但是想不明白问题
出在哪里)
有什么function可以直接算linear SVM的cv error rate吗?
问题二:
randomForest function当读入几万个... 阅读全帖 |
|
c****t 发帖数: 19049 | 36 从数据中找到有用信息,发现其中的矛盾与无常、并且知道如何处置,就和在物理实验
室学习仪器操作一样,是一种动手能力。
——格雷格·
威尔逊
莎拉·利奥布曼(Sarah Loebman)是华盛顿大学天文学系一名研究银河系演化的博士
生。和她一同工作的两个团队,一个负责夜观天相,另一个进行高分辨率计算机模拟。
两个团队都在与浩如烟海的数据搏斗。"从前,我每天大部分时间都在往电脑上传数据。
”她说道。当物理系同事从NASA得到一笔经费,研究怎样将数据库技术应用到天文学时
,莎拉和计算机系的同仁加入了他的项目。她想看看自己还能拿那堆不听话的数据怎么
办。萨拉做的第一件事情,是报读了一门研究生的《数据库管理系统》。这改变了她对
自己工作的看法。“数据库使我不再只拘泥于某一个时刻的模拟结果。”很快,她开始
帮助其他同事处理数据,并优化他们的工作程序。2009年,莎拉发表了论文《Pig/
Hadoop和关系型数据库管理系统能帮助我们分析巨量的天体物理学数据吗?》。她即将
在密歇根大学安娜堡分校开始博士后研究,在她看来,是跨学科的研究成果帮她得到了
这个机会。
埃德·拉佐沃斯卡(Ed Lazowska)... 阅读全帖 |
|
w****2 发帖数: 12072 | 37 根据联合国人口基金会(UN Population Fund)和柬埔寨政府的抽样调查,截至1998年12
月底,柬埔寨的总人口估计数为1100万人(根据世界银行的估计,截至1995年底为1 025
万人)。综合柬埔寨的历史和不同时期的人口统计,让我们算算,如果真有200万人被屠
杀是个什么情况:1962年574万,1970年656万,人口增长率不变情况下,1978年大概
750万。1970-75年100万死亡,1975-78年200万死亡,1979年50万死亡,剩下多少?
400万。17年以后就成了1 025万人,这得每年生多少孩子?不可能呀。何况1970年后的
柬埔寨连年战乱,四处饥荒,这种环境下人口增长率肯定会下降,饥饿和疾病也会夺去
很多人的生命,大量难民会背井离乡逃往国外。所以,1978年柬埔寨人口数肯定不可能
达到750万,要想达到网上流传的”屠杀”数字,还得保证1990年代中期人口达到1000
万左右,估计起码得给柬埔寨空降个两三百万人口。所谓两百万人大屠杀,实在是个不
看数据的低端黑。
==========================================
最... 阅读全帖 |
|
|
b*****d 发帖数: 61690 | 39 统计局公布房价统计新方案 不再发布涨幅平均数
http://www.sina.com.cn 2011年02月16日16:40 新华网
新华网消息 国家统计局决定从2011年1月起开始实施新的房价统计制度方法。《住
宅销售价格统计调查方案》已于16日公布了,并将于18日发布依据《新方案》统计的今
年1月份70个大中城市房价数据。
此次新房价统计调查方案作出四方面调整,包括数据采集方式的调整、调查指标的
调整、指数计算方法的调整、以及数据发布方式和时间的调整。
其中,房屋销售价格指数调整为新建住宅销售价格指数和二手住宅销售价格指数。
新建住宅类下设保障性住房和商品住宅两个类别。商品住宅类和二手住宅类均设90平方
米及以下、90—144平方米、144平方米以上三个基本分类。
从本次改革开始,国家统计局就不再发布全国70个大中城市房价涨幅平均数。国家
统计局将重点发布各个城市不同对比基期的分类指数和总指数。数据发布时间调整为月
后18日,比原发布时间延后一周左右。
网签数据代替房企直报数据
基础数据来源渠道的调整是这次房价统计改革的重要内容。
《新方案》规定,直辖市、省会城市、自治区首府城... 阅读全帖 |
|
S**********8 发帖数: 5 | 40 (直接google tanjiubin flickr) 你懂的
36页详文分析谭久彬教授-哈工大国家技术发明一等奖得主数据造假
http://pan.baidu.com/share/link?shareid=483744&uk=2520026659
摘要:哈工谭久彬教授技术发明一等奖号称4纳米的高精尖仪器实际比对精度只有14纳
米(详细分析见36页详文分析),而国际上用来比对的同类精度指标都在5纳米。
14纳米和4纳米的差别直接影响导弹命中误差扩大三倍。而中远程导弹如果不能精确打
击易被拦截(如朝鲜金三胖的导弹),更何况洲际导弹。
耳闻的谭久彬教授博士论文数据造假一直因为未能看到第一首资料而未能详查。最近同
事间接到一份<<哈工史上唯一发明一等奖数据造假>>的邮件,随附36页详细分析。谭久
彬教授给人的印象是谦和有礼之人,没想到敢如此明目张胆伪造数据。
名不见经传的圆度/圆柱度(谭久彬教授伪造数据的国家发明一等奖项目所属领域)用
在导弹制导上。仅有数枚的中国最强洲际导弹-东风5导弹 仍沿用传统惯性制导系统。
采用“惯性三轴静压气浮陀螺及空间计算机”。精度(CEP):500-2000米
... 阅读全帖 |
|
b******3 发帖数: 4385 | 41 转自环球网
于2014年3月10日启动报名的首届阿里巴巴大数据竞赛开赛一个月以来,报名队伍数突
破6400支,已经成为目前全球最大的算法类竞赛之一。截止4月10日,阿里巴巴大数据
竞赛总参赛人数近1.5万人。其中港澳台参赛队伍超过120支,海外队伍超过80支。
此前,从1997年开始已举办了15届的KDD CUP一直以来是世界范围内最大规模的数
据竞赛,该竞赛依附于美国计算机协会数据挖掘及知识发现专委会主办的ACM SIGKDD国
际会议(简称KDD)。作为数据挖掘研究领域的顶级年会,2012年的KDD CUP数据竞赛曾经
吸引了国内队伍参加,但全球范围内参加的队伍数不超过1000支。
据悉,阿里巴巴大数据竞赛是由阿里巴巴集团主办,在阿里巴巴大数据科研平台—
—“天池”上开展的,基于天猫真实推荐业务场景与海量真实用户的访问数据的推荐算
法大赛。整个竞赛过程持续九个月,将于十一月中旬结束。参赛选手不仅可以通过大赛
接触到真实的天猫用户行为数据,还有机会被邀请到天猫,与天猫推荐算法团队的工程
师们一起设计双11的个性化推荐产品。
阿里巴巴天池项目负责人王一婷对面向学术界免费开放天池平台的目... 阅读全帖 |
|
|
c*********d 发帖数: 9770 | 43 https://wxn.qq.com/cmsid/CUN2018112500807400
人民日报2018-11-25 19:25:02
原标题:泉港碳九泄漏:实际泄漏量69.1吨 瞒报为6.97吨
通报泉港化学品泄漏事故调查及处置情况
2018年11月25日
泉州市人民政府新闻办
4日起,泉港区陆续通报有关事故处置进展情况,8日起泉州市、泉港区均作了后续通报
。事故发生后,泉州成立由市安监会同环保、海洋渔业、公安、港口管理等部门组成,
并邀请监委、检察院等单位参加的事故联合调查组,对事故的性质和发生、经过、责任
进行深入调查。今天重点通报事故调查和后续处置情况。
一、通报泄漏事故发生经过的调查情况
经调查,2018年11月3日下午16时左右,宁波舟山通州船务有限公司“天桐1号”油轮(
以下简称“天桐1号”)靠泊东港石化公司码头,拟接运东港石化公司工业用裂解碳九
;晚上18时30分左右,岸上人员开始对东港石化码头输油管道进行裂解碳九装船作业的
准备工作。在码头吊机长期处于故障状态下,操作员违规操作,人工拖拽,用输油软管
把岸上和船舶联系起来,并用绳索固定软管;19时12分,后方油库通过... 阅读全帖 |
|
发帖数: 1 | 44 6月23日,美国海军又在南海海域投放2个APEX型剖面浮标观测海洋数据。自2000年来,
美军已累计在南海投放100多个,而中国至今仅布放10个。对南海战场环境数据的掌握
,说美军十倍于中国,也不为过。(红色为中国浮标轨迹,灰色为美军浮标轨迹,触目
惊心)
1、海洋环境信息很重要
南海面积广阔,水深动辄数千米,不仅是中国战略导弹核潜艇的“堡垒区”,也是潜艇
活动的天堂。而无论是反潜还是潜艇活动,都离不开对海洋环境信息的掌握,因为海水
不是透明一块,不仅有复杂的水下地形信息,不同位置和不同深度的海水里还有复杂的
盐度、温度、密度和内波变化,就像气象变化多段的天空一样。
这些对于探潜声纳的工作,潜艇的航行,水中兵器的使用都会带来巨大的影响。
形象地说,海战必须掌握海洋环境信息,就像陆战必须掌握山河地形信息,空战必须掌
握天气信息一样重要。
2、ARGO浮标是获取水下盐温密信息的重要手段
但对水下盐度、温度、密度、内波的信息获取,向来是个难题。ARGO剖面浮标则是一种
利器:
这是一种自动沉浮浮标,通过内置电池控制一个“鱼鳔”一样的浮囊,改变自身浮力,
就可以从海面慢慢下沉到水下2000米处... 阅读全帖 |
|
s*********r 发帖数: 58 | 45 本文系转帖——微信公众号:油气投资调查
油市惊人异数再现(独家解读EIA奇异数据)
2016-05-12 油气君 油气投资调查
(市场参与者不要忘记查看本文最后的“先睹为快”栏目)
提醒:在《今日头条》《搜狐财经》《东方财富网》《新浪》《东方头条》等十余家媒
体平台发布油气君文章的有关人等请注意,你们似乎忘记作者是“油气君”而非他人,
同时似乎忘记注明出处为微信公众号“油气投资调查”。油气君知道你们在这些平台积
累声望不易,因此今天只是善意提醒,未公开公布你们的具体情况,请及时将有关文章
删除。如果各位下次再出现此类行为:please be prepared。
今日美国能源局(EIA)的每周报告再次引发原油市场的大震荡,原油在EIA报告出来后数
秒内强势暴涨,并以超过3% 的涨幅收盘,全天振幅接近5%,见下图代表美国原油走势
的USO的价格曲线。油气君希望这篇独家文章能够帮助投资者和交易员对EIA的本周的奇
异数据有一个比较深入的理解。
场内人士最为关注的EIA库存数据初看是这样的:
今日,2016年5月4日,周三。EIA库存数据显示其原油... 阅读全帖 |
|
|
S**********8 发帖数: 5 | 47 (直接google tanjiubin flickr) 你懂的
36页详文分析谭久彬教授-哈工大国家技术发明一等奖得主数据造假
http://pan.baidu.com/share/link?shareid=483744&uk=2520026659
摘要:哈工谭久彬教授技术发明一等奖号称4纳米的高精尖仪器实际比对精度只有14纳
米(详细分析见36页详文分析),而国际上用来比对的同类精度指标都在5纳米。
14纳米和4纳米的差别直接影响导弹命中误差扩大三倍。而中远程导弹如果不能精确打
击易被拦截(如朝鲜金三胖的导弹),更何况洲际导弹。
耳闻的谭久彬教授博士论文数据造假一直因为未能看到第一首资料而未能详查。最近同
事间接到一份<<哈工史上唯一发明一等奖数据造假>>的邮件,随附36页详细分析。谭久
彬教授给人的印象是谦和有礼之人,没想到敢如此明目张胆伪造数据。
名不见经传的圆度/圆柱度(谭久彬教授伪造数据的国家发明一等奖项目所属领域)用
在导弹制导上。仅有数枚的中国最强洲际导弹-东风5导弹 仍沿用传统惯性制导系统。
采用“惯性三轴静压气浮陀螺及空间计算机”。精度(CEP):500-2000米
... 阅读全帖 |
|
|
|