w********m 发帖数: 1137 | 1 大数据就是门槛太高
首先大数据是分布式计算. 单机的简单算法搞到cluster上, 要考虑各个node之间的
shuffle开销. 就变得很麻烦. 学校教不了这些, 也没条件教. 所以面试的角度很难找
人, 以前的OO design现在都改到现在system design, 就是希望筛到一点人.
第二知识更新太快. 各大公司在hadoop上面开发了自己的一套, 没法对接spark. 相反
小公司有后发优势, 比如wdong的生物信息学平台. |
|
N*n 发帖数: 456 | 2
涉及分布式计算,总有特殊情况要考虑。
Acid mq 简单的话,你展开说说怎么实现?
性能很重要啊。 |
|
d******e 发帖数: 2265 | 3 Spark:
Java, C++ 没有repl,出局。
python性能差,出局。
底层分布式计算没有AKKA的出局。没有AKKA搞毛RDD
你还能上什么,scala唯一选则。
scala虽然烂也主要集成了java的下水。
你们这些老古董,不懂数据工程的需求,就死报java C++高电传统的东西得了。
Perl |
|
d***a 发帖数: 13752 | 4 "由于这么多次的惨痛经历,我不再想为 startup 公司工作,除非是作为 founder。我
尊敬一些成熟低调的大公司,比如 IBM,Intel,AMD,微软,Oracle(Sun)…… 对
Google 和 Tesla 这样年轻浮躁的公司不感兴趣。我感兴趣的领域包括系统平台,数据
库,程序语言,编译器,运行时系统(比如 JVM),并行和分布式计算,硬件设备,以
及一切跟性能相关的问题。"
这是系统架构师的位置。不客气地说,要培养一个好的系统架构师,至少要好几年的时
间(genius除外)。王垠的背景主要在程序语言方面,和这些差得比较远啊。
他去Intel/AMD做什么呢?去微软还行,但别人不会给他一个架构师的位置,虽然他对
这感兴趣。去Oracle做Java相关的工作也不错。
他找工作的问题,是只看到自己的“天赋才能”,想的是自己的兴趣。却不想对方要什
么样的人,他能为对方做什么。 |
|
h*i 发帖数: 3446 | 5 函数compose的方式是有限制的,两个函数通过传参数来compose。数据compose是没有
限制的,两个数据结构如何compose是完全任意的。
data oriented programming就是把程序的逻辑用数据结构表达。这其实在分布式计算
已经用得很多了,各种逻辑可以变成数据结构在节点间传来传去。而Clojure社区现在
意识到,其实单机程序也可以这样写。一个逻辑,能用数据机构表达的,就用数据结构
表达,这样更灵活。
这个关于data的地位的问题,Alan Kay(就是因为Smalltalk拿图灵奖那位)与Rich
Hickey(就是发明Clojure的那个民科)还在hackernews上有一个争论https://news.
ycombinator.com/item?id=11945722)。前者认为"Data is a bad idea", 因为data总
是需要一个interpreter。后者认为Data是客观存在的,是第一位的,如何interpret是
第二位的。搞计算机技术,要以第一位的东西为中心。
显然,我是同意Rich Hickey的观点的。因为其实最终的i... 阅读全帖 |
|
h*i 发帖数: 3446 | 6 面向数据的编程(data oriented programming)就是把程序的逻辑用数据结构表达。
这其实在分布式计算
已经用得很多了,各种逻辑可以变成数据结构在节点间传来传去。而Clojure社区现在
意识到,其实单机程序也可以这样写。一个逻辑,能用数据机构表达的,就用数据结构
表达,这样更灵活。
这个关于data的地位的问题,Alan Kay(就是因为Smalltalk拿图灵奖那位,面向对象
的编程的祖师爷)与Rich
Hickey(就是发明Clojure的那个民科)还在hackernews上有一个争论https://news.
ycombinator.com/item?id=11945722)。前者认为"Data is a bad idea", 因为data总
是需要一个interpreter。后者认为Data是客观存在的,是第一位的,如何interpret是
第二位的。搞计算机技术,要以第一位的东西为中心。
显然,我是同意Rich Hickey的观点的。因为其实最终的interpreter,是在人的脑子里
面。就算再多的type checking, proof, blah ... 阅读全帖 |
|
w***g 发帖数: 5958 | 7 马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop. |
|
发帖数: 1 | 8 有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾 |
|
n******g 发帖数: 2201 | 9 大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop. |
|
w**z 发帖数: 8232 | 10 数据量大于单机的存储量,单机怎么搞?
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 |
|
w***g 发帖数: 5958 | 11 现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理? |
|
w********m 发帖数: 1137 | 12 大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。 |
|
w**z 发帖数: 8232 | 13 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD, |
|
c******n 发帖数: 16666 | 14 最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便 |
|
g****t 发帖数: 31659 | 15 我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。 |
|
m******r 发帖数: 1033 | 16 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块? |
|
|
d*******r 发帖数: 3299 | 18 比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过. |
|
w**z 发帖数: 8232 | 19 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
|
d*******r 发帖数: 3299 | 20 嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵 |
|
i*****9 发帖数: 3157 | 21 话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
|
w***g 发帖数: 5958 | 22 马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop. |
|
发帖数: 1 | 23 有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾 |
|
n******g 发帖数: 2201 | 24 大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop. |
|
w**z 发帖数: 8232 | 25 数据量大于单机的存储量,单机怎么搞?
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 |
|
w***g 发帖数: 5958 | 26 现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理? |
|
w********m 发帖数: 1137 | 27 大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。 |
|
w**z 发帖数: 8232 | 28 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD, |
|
c******n 发帖数: 16666 | 29 最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便 |
|
g****t 发帖数: 31659 | 30 我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。 |
|
m******r 发帖数: 1033 | 31 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块? |
|
|
d*******r 发帖数: 3299 | 33 比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过. |
|
w**z 发帖数: 8232 | 34 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
|
d*******r 发帖数: 3299 | 35 嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵 |
|
i*****9 发帖数: 3157 | 36 话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
|
g*********9 发帖数: 1285 | 37 "Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛. |
|
h**********c 发帖数: 4120 | 38 狗家那种数据中心如果开始老化的话,PC服务器也就是3年的寿命,
成批量资产更新也要很大一笔钱,
optimistic planning是不考虑depreciation 问题的 |
|
n******g 发帖数: 2201 | 39 您的观点呢?
[在 groundhog09 (衰哥) 的大作中提到:]
:"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
:***********************
:*********************** |
|
l******n 发帖数: 9344 | 40 你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到
让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极
少数行业,基本不可能用。
现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进
步? |
|
m*****n 发帖数: 3575 | 41 金融管它叫
garbage in, garbage out. |
|
r***s 发帖数: 737 | 42 不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。 |
|
r***s 发帖数: 737 | 43 不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。 |
|
m*****n 发帖数: 3575 | 44 是不是这样理解
goroutine只能做到支持单机多核
例如8核还好用,32核效率就一般,再多了就扯了
分布式计算必须得换map reduce?
cpp |
|
发帖数: 1 | 45 兄弟, 你说的这个就是 proof of stake啊(我前面的帖子提到过的), 是从 proof of
work进化来的。你不能因为一个demo 就觉得这个是全新的东西。你得看到本质的东西。
(1)proof of work是真正去中心化的东西。 但是代价太大。
(2)proof of stake其实是一个中心化的东西, 尽管这里的中心不是一个单个个体,
而是一群。这个东西其实是个分布式计算。这个东西其实有更有效的解决方式:就用
公钥让一群固定小圈子里的人来互相认证, 然后轮流说话(和更新数据)来得直接。
(3)区域块就是比特币搞起来的。 在比特币之前有区域块吗? 因为比特币成功了,
所以人就想复制到别的应用。 结果发现玩不转。 就改头换面 来搞proof of stake。
所以说区域块是个鸡肋技术, 一点都不过分。 |
|
O*O 发帖数: 2284 | 46 完全可行
下达政治任务给腾讯
蛋白解析软件和QQ捆绑
全国网民的电脑
分布式计算
[发表自未名空间手机版 - m.mitbbs.com] |
|
j******x 发帖数: 383 | 47 看了关于CS前景的讨论的贴,小弟还有很多事情不甚明了,想继续请教各位大大
我现在在念BME的PHD,期间想辅修一个master
目前大概有这么几个感兴趣的方向:一个是Computer System Architecture。这个其实
目前我比
较感兴趣,而且感觉课程和CS的比较接近。而且有门分布式计算的课在这个方向里面。
那门课需要一门
prerequisite,也在这个方向。
另一个是信号处理,这个感觉比较数学点,或许以后有机会转去金融?而且感觉这个方
向不容易速成,
所以学成以后不会面对太大的竞争压力?
还有可能是修一个CS的master。我现在的research对写代码的要求非常高,所以感觉这
个会比较有
用。但是因为以前修过EE的几门课,所以要修cs的ms估计要比拿EE MS多修2门课
我现在的phd方向不是很好找工作,但是因为整天写代码,所以估计找码工的会容易些
。但是对算法之类
的没有研究,而且写的代码看起来很丑。修CS的课是否能磨练一下?
关于CS前景的讨论贴上说CS老了以后就没有前途了,EE的这几个方向老了以后会如何?
听同学说EE的工
程师如果不升成主管一样会悲剧?回... 阅读全帖 |
|
s*****V 发帖数: 21731 | 48 abc猜想(abc conjecture)最先由Joseph Oesterlé及David Masser在1985年提出。
它说明对于任何ε>0,存在常数Cε> 0,并对于任何三个满足a+ b= c及a,b互质的正整
数a,b,c,有:
rad(n)在此表示n的质因数的积。[1]
截止2005年,此猜想仍未证明,却衍生一BOINC项目名为“ABC@Home”。
1996年,爱伦·贝克提出一个较为精确的猜想,将rad(abc)用
取代,在此ω是a,b,c的不同质因子的数目。[2]
2012年9月,日本京都大学数学家Shinichi Mochizuki(望月新一)公布了有关abc猜
想(abc conjecture)长达500页的证明。虽然尚未被证实整个证明过程是正确无误的
,但包括陶哲轩在内的一些著名数学家均对此给出了正面评价。
美国哥伦比亚大学数学家Dorian Goldfeld评价说:“abc猜想如果被证明,将一举
解决许多著名的Diophantine问题,包括费马大定理。如果Mochizuki的证明是正确的,
这将是21世纪最令人震惊的数学成就之一。”
abc猜想的证明... 阅读全帖 |
|
发帖数: 1 | 49 国内顶级私募基金诚聘英才
本公司是一家专业从事低延迟程序化交易的私募,总部位于北京地标性建筑内。公
司核心成员均毕业于斯坦福、清华、北大、人大、科大等海内外著名大学数学或计算机
相关专业,并曾就职于Morgan Stanley、IMC等世界一流程序化交易机构。我们致力于
通过深度观察分析市场微观数据来研究市场规律,并利用数学、统计、机器学习等方法
开展程序化交易,涉猎期货、期权、股票等多个国内外市场。公司自成立以来,依靠团
队强大的研发平台和专业的开发能力取得了持续多年的优异业绩(主要策略Sharpe
Ratio高于30
公司以顶尖人才为第一生产力,坚持扁平化管理,遵循平等互助原则,使每位员工
在团队中均承担重要角色,并能在轻松有趣的工作氛围中尽情发挥个人才能。除了极富
竞争力的薪酬体系和标准的五险一金外,公司提供的福利如下:
- 免费三餐(聘请了专职的私厨)和snacks
- 地标建筑办公,环境舒适、风景宜人,自有健身房、娱乐休闲区
- 可升降办公桌,可以站着办公(非常重要!)
- 各种节日大餐和节日礼物(iPhone级别)
- 商业补充医疗 + 高端私立医院报销
-... 阅读全帖 |
|
发帖数: 1 | 50 本公司是一家专业从事低延迟程序化交易的私募,总部位于北京地标性建筑内。公
司核心成员均毕业于斯坦福、清华、北大、人大、科大等海内外著名大学数学或计算机
相关专业,并曾就职于Morgan Stanley、IMC等世界一流程序化交易机构。我们致力于
通过深度观察分析市场微观数据来研究市场规律,并利用数学、统计、机器学习等方法
开展程序化交易,涉猎期货、期权、股票等多个国内外市场。公司自成立以来,依靠团
队强大的研发平台和专业的开发能力取得了持续多年的优异业绩:
Sharpe Ratio高于30
持续600天以上无日亏损记录
公司以顶尖人才为第一生产力,坚持扁平化管理,遵循平等互助原则,使每位员工
在团队中均承担重要角色,并能在轻松有趣的工作氛围中尽情发挥个人才能。除了极富
竞争力的薪酬体系和标准的五险一金外,公司提供的福利如下:
- 免费三餐(聘请了专职的私厨)和snacks
- 地标建筑办公,环境舒适、风景宜人,自有健身房、娱乐休闲区
- 可升降办公桌,可以站着办公(非常重要!)
- 各种节日大餐和节日礼物(iPhone级别)
- 商业补充... 阅读全帖 |
|