n******g 发帖数: 2201 | 1 实际有用的 都是小数据 大数据其实是大垃圾
然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢 |
w***g 发帖数: 5958 | 2 马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
t*****n 发帖数: 2578 | 3 有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾 |
n******g 发帖数: 2201 | 4 大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop. |
w**z 发帖数: 8232 | 5 数据量大于单机的存储量,单机怎么搞?
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 |
w***g 发帖数: 5958 | 6 现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理?
【在 w**z 的大作中提到】 : 数据量大于单机的存储量,单机怎么搞? : : :马上industry又要重新发现单机模式了. : :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
|
w********m 发帖数: 1137 | 7 大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。 |
d******c 发帖数: 2407 | 8 这完全是个成本问题。
MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
当初google的问题超过了单机的容量,必须用大量pc拼起来。
现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
限了。
分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
w**z 发帖数: 8232 | 9 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD, |
c******n 发帖数: 16666 | 10 最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便
【在 w**z 的大作中提到】 : 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。 : : :现在服务器内存可以上3TB, CPU 2x16 core是标配。 : :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
|
|
|
g****t 发帖数: 31659 | 11 我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。
【在 w***g 的大作中提到】 : 马上industry又要重新发现单机模式了. : Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 : 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
|
m******r 发帖数: 1033 | 12 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块? |
g****t 发帖数: 31659 | 13 很难赢国内的年轻人。
【在 m******r 的大作中提到】 : 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱? : 当然,配置低了,跑得时间长。 配置高了, 我也买不起。 : 所以我只需要知道个大概 几百还是几千块?
|
d*******r 发帖数: 3299 | 14 比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.
【在 d******c 的大作中提到】 : 这完全是个成本问题。 : MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。 : 当初google的问题超过了单机的容量,必须用大量pc拼起来。 : 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。 : 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理 : ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极 : 限了。 : 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。
|
w**z 发帖数: 8232 | 15 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
d*******r 发帖数: 3299 | 16 嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵
【在 w**z 的大作中提到】 : 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。 : : :比较同意这个, 互联网公司堆廉价Linux机器, : :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
|
i*****9 发帖数: 3157 | 17 话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
f*******t 发帖数: 7549 | 18 一堆性能一般的硬件:性能有损失,需要更多开发人员
高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本
做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移
到码工手里。楼主可能是一个悲愤的硬工。 |
n******g 发帖数: 2201 | 19 实际有用的 都是小数据 大数据其实是大垃圾
然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢 |
w***g 发帖数: 5958 | 20 马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
|
|
t*****n 发帖数: 2578 | 21 有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾 |
n******g 发帖数: 2201 | 22 大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop. |
w**z 发帖数: 8232 | 23 数据量大于单机的存储量,单机怎么搞?
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 |
w***g 发帖数: 5958 | 24 现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理?
【在 w**z 的大作中提到】 : 数据量大于单机的存储量,单机怎么搞? : : :马上industry又要重新发现单机模式了. : :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
|
w********m 发帖数: 1137 | 25 大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。 |
d******c 发帖数: 2407 | 26 这完全是个成本问题。
MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
当初google的问题超过了单机的容量,必须用大量pc拼起来。
现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
限了。
分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
w**z 发帖数: 8232 | 27 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD, |
c******n 发帖数: 16666 | 28 最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便
【在 w**z 的大作中提到】 : 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。 : : :现在服务器内存可以上3TB, CPU 2x16 core是标配。 : :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
|
g****t 发帖数: 31659 | 29 我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。
【在 w***g 的大作中提到】 : 马上industry又要重新发现单机模式了. : Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 : 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
|
m******r 发帖数: 1033 | 30 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块? |
|
|
g****t 发帖数: 31659 | 31 很难赢国内的年轻人。
【在 m******r 的大作中提到】 : 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱? : 当然,配置低了,跑得时间长。 配置高了, 我也买不起。 : 所以我只需要知道个大概 几百还是几千块?
|
d*******r 发帖数: 3299 | 32 比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.
【在 d******c 的大作中提到】 : 这完全是个成本问题。 : MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。 : 当初google的问题超过了单机的容量,必须用大量pc拼起来。 : 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。 : 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理 : ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极 : 限了。 : 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。
|
w**z 发帖数: 8232 | 33 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
d*******r 发帖数: 3299 | 34 嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵
【在 w**z 的大作中提到】 : 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。 : : :比较同意这个, 互联网公司堆廉价Linux机器, : :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
|
i*****9 发帖数: 3157 | 35 话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?
:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. |
f*******t 发帖数: 7549 | 36 一堆性能一般的硬件:性能有损失,需要更多开发人员
高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本
做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移
到码工手里。楼主可能是一个悲愤的硬工。 |
g*********9 发帖数: 1285 | 37 "Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
h**********c 发帖数: 4120 | 38 狗家那种数据中心如果开始老化的话,PC服务器也就是3年的寿命,
成批量资产更新也要很大一笔钱,
optimistic planning是不考虑depreciation 问题的
【在 d*******r 的大作中提到】 : 比较同意这个, 互联网公司堆廉价Linux机器, : 因为公司启动的时候便宜, 然后能 incrementally scale out 扩展. : 如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.
|
n******g 发帖数: 2201 | 39 您的观点呢?
[在 groundhog09 (衰哥) 的大作中提到:]
:"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
:***********************
:*********************** |
l******n 发帖数: 9344 | 40 你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到
让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极
少数行业,基本不可能用。
现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进
步?
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
|
|
h**********c 发帖数: 4120 | 41 前面说过depreciation的问题,现在一些关键设备,计算设施换到云端的,3,5年之后
depreciation, 可靠性差带来的outage,这些成本估计就不是今天的报价了。
有些系统,比如电力,民航,折腾出去了就不好再折腾回来了。
倒时候,LAXIGILE MANAGERS换了好几茬,估计又是纳税bail out.
【在 l******n 的大作中提到】 : 你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到 : 让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极 : 少数行业,基本不可能用。 : 现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进 : 步?
|
m*****n 发帖数: 3575 | 42 金融管它叫
garbage in, garbage out. |
m*****n 发帖数: 3575 | 43 有的算法需要推演很大量,例如Alpha Go的算法
有的算法是模糊判断,例如判断猫脸
计算能力提升了,的确可以实现算法
传统统计规律能揭示的规律毕竟是有限的。 |
r***s 发帖数: 737 | 44 不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
r***s 发帖数: 737 | 45 不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。
【在 n******g 的大作中提到】 : 实际有用的 都是小数据 大数据其实是大垃圾 : 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI : 为啥技术倒退的这么彻底呢
|
f*********r 发帖数: 30 | 46 超算确实非常贵,相对于普通商业数据中心,特别是跟风上了专业gpu的。超算应该是
拉不下脸用价廉物美的游戏卡的。
但是另一个方面基本上超算都是接近满负荷在运行,而商业数据中心包括云计算公司,
平均负载只有15-20%。所以究竟哪个性价比高还不好说。商业数据中心的低负载是商业
面试的周期性决定的,也是云计算的起因之一
: 不是退步的问题,是用途问题
: mpi 门槛太高。用着费劲。
: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据
,是自
: 己找事。
: 等你真有几百个pb的数据的话单机就没戏了。
【在 r***s 的大作中提到】 : 不是退步的问题,是用途问题 : mpi 门槛太高。用着费劲。 : 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自 : 己找事。 : 等你真有几百个pb的数据的话单机就没戏了。
|
g*********9 发帖数: 1285 | 47 把Big Data和MPI比,这个不可思议。两个解决不同的问题,哪有可比性?
Big data是侧重处理数据, MPI是侧重计算。数据量一大,MPI怎么用?
MPI能做的,Big data肯定能做,只是没那么优化。
【在 n******g 的大作中提到】 : 您的观点呢? : [在 groundhog09 (衰哥) 的大作中提到:] : :"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛. : :*********************** : :***********************
|
y**b 发帖数: 10166 | 48 是的完全不可比较。
其实人类超算那点计算能力也很小很可怜的。 |