分布式计算大数据啥的我咋觉得是倒退？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

相关主题
● 这版上有用hadoop的么？	● 联票问题是非常简单的问题
● 分布式文件存储系统，以及此基础上的分布式计算，大家有何推荐的？	● 假设一台机器处理能力是100QPS
● 好虫，看看你的东东有没有问题？	● 静态计数器和订票系统的区别
● 看来以后要把春运买票网设计当做面试考题了	● 老魏的所谓hot standby就是上个世纪的solution
● 本着负责的态度最后说几句	● 谁给讲讲FP咋火起来的
● 真是搞笑。还在争呢	● wei和好虫打的什么赌，吧好虫搞自杀了？
● 分布式分票算法	● 问个mpi的问题
● zhaoce你要做skynet的话最好跟我学	● 迷惑了

相关话题的讨论汇总
话题: 单机话题: ssd话题: hadoop话题: 数据话题: mpi

进入Programming版参与讨论

(共1页)

n******g
发帖数: 2201

实际有用的都是小数据大数据其实是大垃圾
然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢

w***g
发帖数: 5958

马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

【在 n******g 的大作中提到】

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

t*****n
发帖数: 2578

有道理。
搞不好oracle又复活了，现在花大钱搞cloud就是瞎折腾

n******g
发帖数: 2201

大牛和我想法不谋而合！
[在 wdong (万事休) 的大作中提到：]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

w**z
发帖数: 8232

数据量大于单机的存储量，单机怎么搞？

：马上industry又要重新发现单机模式了.
：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w***g
发帖数: 5958

现在服务器内存可以上3TB， CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB，甚至还有十几个TB的SSD，
做成raid，I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据，清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据，完了直接读入内存算。
一般公司能有多大数据要处理？

【在 w**z 的大作中提到】

: 数据量大于单机的存储量，单机怎么搞？
:
: ：马上industry又要重新发现单机模式了.
: ：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w********m
发帖数: 1137

大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天，中间还可能断。
所以没办法才要分布。

d******c
发帖数: 2407

这完全是个成本问题。
MPI只有super computer上用，都是政府出钱的计算中心，企业用是不合算的。
当初google的问题超过了单机的容量，必须用大量pc拼起来。
现在单机的能力很强了，很多人的数据也远没有那么大，搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的，另外就是一个scale问题，你现在单机能处理
，但可能希望数据大了你仍然能处理，用分布式的话可以scale up，用单机很快就到极
限了。
分布式，并行都是需要完全不同的计算模式，只有必须要用的时候才应该用。

【在 n******g 的大作中提到】

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

w**z
发帖数: 8232

你让 ec2 帮着攒一个？现在基本没公司自己买服务器了。

：现在服务器内存可以上3TB， CPU 2x16 core是标配。
：SSD storage很容易插进去十几个TB，甚至还有十几个TB的SSD，

c******n
发帖数: 16666

最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下当然ec2方便

【在 w**z 的大作中提到】

: 你让 ec2 帮着攒一个？现在基本没公司自己买服务器了。
:
: ：现在服务器内存可以上3TB， CPU 2x16 core是标配。
: ：SSD storage很容易插进去十几个TB，甚至还有十几个TB的SSD，

相关主题
● 真是搞笑。还在争呢	● 联票问题是非常简单的问题
● 分布式分票算法	● 假设一台机器处理能力是100QPS
● zhaoce你要做skynet的话最好跟我学	● 静态计数器和订票系统的区别
进入Programming版参与讨论

g****t
发帖数: 31659

我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降，沦为奴隶工人。

【在 w***g 的大作中提到】

: 马上industry又要重新发现单机模式了.
: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

m******r
发帖数: 1033

那你们给说说，要是自己弄个机器，能跑kaggle比赛的，大概得什么配置，多少钱？
当然，配置低了，跑得时间长。配置高了，我也买不起。
所以我只需要知道个大概几百还是几千块？

g****t
发帖数: 31659

很难赢国内的年轻人。

【在 m******r 的大作中提到】

: 那你们给说说，要是自己弄个机器，能跑kaggle比赛的，大概得什么配置，多少钱？
: 当然，配置低了，跑得时间长。配置高了，我也买不起。
: 所以我只需要知道个大概几百还是几千块？

d*******r
发帖数: 3299

比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架，没有这种易启动易扩展的特性，还是竞争不过.

【在 d******c 的大作中提到】

: 这完全是个成本问题。
: MPI只有super computer上用，都是政府出钱的计算中心，企业用是不合算的。
: 当初google的问题超过了单机的容量，必须用大量pc拼起来。
: 现在单机的能力很强了，很多人的数据也远没有那么大，搞分布式肯定是不需要的。
: 但是会有一些问题还是单机处理不了的，另外就是一个scale问题，你现在单机能处理
: ，但可能希望数据大了你仍然能处理，用分布式的话可以scale up，用单机很快就到极
: 限了。
: 分布式，并行都是需要完全不同的计算模式，只有必须要用的时候才应该用。

w**z
发帖数: 8232

单机的 HA 始终是个问题。当然你可以赌，机器五年不会坏。

：比较同意这个, 互联网公司堆廉价Linux机器,
：因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

d*******r
发帖数: 3299

嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

【在 w**z 的大作中提到】

: 单机的 HA 始终是个问题。当然你可以赌，机器五年不会坏。
:
: ：比较同意这个, 互联网公司堆廉价Linux机器,
: ：因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

i*****9
发帖数: 3157

话说现在直接面向用户的网站，一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1，2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机？

：比较同意这个, 互联网公司堆廉价Linux机器,
：因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

f*******t
发帖数: 7549

一堆性能一般的硬件：性能有损失，需要更多开发人员
高性能硬件：性能强到一定程度后费用大概会几何级增长，failover难，而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子，搞这些分布式计算的技术，当然是因为能降低成本。以更低的成本
做到了同样的事，怎么看都是技术进步吧。附带的效果是硬工需求和收入降低，钱转移
到码工手里。楼主可能是一个悲愤的硬工。

n******g
发帖数: 2201

实际有用的都是小数据大数据其实是大垃圾
然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢

w***g
发帖数: 5958

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

相关主题
● 老魏的所谓hot standby就是上个世纪的solution	● 问个mpi的问题
● 谁给讲讲FP咋火起来的	● 迷惑了
● wei和好虫打的什么赌，吧好虫搞自杀了？	● 我要做一个Java演示系统，用哪些前台技术比较好？
进入Programming版参与讨论

t*****n
发帖数: 2578

有道理。
搞不好oracle又复活了，现在花大钱搞cloud就是瞎折腾

n******g
发帖数: 2201

w**z
发帖数: 8232

数据量大于单机的存储量，单机怎么搞？

：马上industry又要重新发现单机模式了.
：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w***g
发帖数: 5958

: 数据量大于单机的存储量，单机怎么搞？
:
: ：马上industry又要重新发现单机模式了.
: ：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w********m
发帖数: 1137

大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天，中间还可能断。
所以没办法才要分布。

d******c
发帖数: 2407

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

w**z
发帖数: 8232

c******n
发帖数: 16666

最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下当然ec2方便

【在 w**z 的大作中提到】

g****t
发帖数: 31659

m******r
发帖数: 1033

相关主题
● 对哦，老姜，别人说的提醒了我	● 分布式文件存储系统，以及此基础上的分布式计算，大家有何推荐的？
● 大胆预测一下下一个风口	● 好虫，看看你的东东有没有问题？
● 这版上有用hadoop的么？	● 看来以后要把春运买票网设计当做面试考题了
进入Programming版参与讨论

g****t
发帖数: 31659

很难赢国内的年轻人。

【在 m******r 的大作中提到】

d*******r
发帖数: 3299

w**z
发帖数: 8232

d*******r
发帖数: 3299

嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

【在 w**z 的大作中提到】

i*****9
发帖数: 3157

f*******t
发帖数: 7549

g*********9
发帖数: 1285

"Hadoop spark 也不如 MPI"，LOL, 你只知道个皮毛.

【在 n******g 的大作中提到】

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

h**********c
发帖数: 4120

狗家那种数据中心如果开始老化的话，PC服务器也就是3年的寿命，
成批量资产更新也要很大一笔钱，
optimistic planning是不考虑depreciation 问题的

【在 d*******r 的大作中提到】

: 比较同意这个, 互联网公司堆廉价Linux机器,
: 因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
: 如果大型机, 或者牛逼单机构架，没有这种易启动易扩展的特性，还是竞争不过.

n******g
发帖数: 2201

您的观点呢？
[在 groundhog09 (衰哥) 的大作中提到：]
:"Hadoop spark 也不如 MPI"，LOL, 你只知道个皮毛.
:***********************
:***********************

l******n
发帖数: 9344

你知道super computer多贵吗？使用维护有多花钱吗？更不要说软件开发了，周期长到
让人绝望。应用范围基本都是关系国家安全或者民生的大问题，商业公司除了银行等极
少数行业，基本不可能用。
现在是个小startup就可以用很少的资金，做到以前有钱都做不到的事情，这还不是进
步？

【在 n******g 的大作中提到】

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

相关主题
● 看来以后要把春运买票网设计当做面试考题了	● 分布式分票算法
● 本着负责的态度最后说几句	● zhaoce你要做skynet的话最好跟我学
● 真是搞笑。还在争呢	● 联票问题是非常简单的问题
进入Programming版参与讨论

h**********c
发帖数: 4120

前面说过depreciation的问题，现在一些关键设备，计算设施换到云端的，3，5年之后
depreciation, 可靠性差带来的outage,这些成本估计就不是今天的报价了。
有些系统，比如电力，民航，折腾出去了就不好再折腾回来了。
倒时候，LAXIGILE MANAGERS换了好几茬，估计又是纳税bail out.

【在 l******n 的大作中提到】

: 你知道super computer多贵吗？使用维护有多花钱吗？更不要说软件开发了，周期长到
: 让人绝望。应用范围基本都是关系国家安全或者民生的大问题，商业公司除了银行等极
: 少数行业，基本不可能用。
: 现在是个小startup就可以用很少的资金，做到以前有钱都做不到的事情，这还不是进
: 步？

m*****n
发帖数: 3575

金融管它叫
garbage in, garbage out.

m*****n
发帖数: 3575

有的算法需要推演很大量，例如Alpha Go的算法
有的算法是模糊判断，例如判断猫脸
计算能力提升了，的确可以实现算法
传统统计规律能揭示的规律毕竟是有限的。

r***s
发帖数: 737

不是退步的问题，是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB，单机处理其实没有问题。非要嚷嚷着要上大数据，是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。

【在 n******g 的大作中提到】

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

r***s
发帖数: 737

: 实际有用的都是小数据大数据其实是大垃圾
: 然后分布式计算远不如单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

f*********r
发帖数: 30

超算确实非常贵，相对于普通商业数据中心，特别是跟风上了专业gpu的。超算应该是
拉不下脸用价廉物美的游戏卡的。
但是另一个方面基本上超算都是接近满负荷在运行，而商业数据中心包括云计算公司，
平均负载只有15-20%。所以究竟哪个性价比高还不好说。商业数据中心的低负载是商业
面试的周期性决定的，也是云计算的起因之一

: 不是退步的问题，是用途问题

: mpi 门槛太高。用着费劲。

: 另外绝大部分人只有几十个TB，单机处理其实没有问题。非要嚷嚷着要上大数据
，是自

: 己找事。

: 等你真有几百个pb的数据的话单机就没戏了。

【在 r***s 的大作中提到】

: 不是退步的问题，是用途问题
: mpi 门槛太高。用着费劲。
: 另外绝大部分人只有几十个TB，单机处理其实没有问题。非要嚷嚷着要上大数据，是自
: 己找事。
: 等你真有几百个pb的数据的话单机就没戏了。

g*********9
发帖数: 1285

把Big Data和MPI比，这个不可思议。两个解决不同的问题，哪有可比性？
Big data是侧重处理数据， MPI是侧重计算。数据量一大，MPI怎么用？
MPI能做的，Big data肯定能做，只是没那么优化。

【在 n******g 的大作中提到】

: 您的观点呢？
: [在 groundhog09 (衰哥) 的大作中提到：]
: :"Hadoop spark 也不如 MPI"，LOL, 你只知道个皮毛.
: :***********************
: :***********************

y**b
发帖数: 10166

是的完全不可比较。
其实人类超算那点计算能力也很小很可怜的。

(共1页)

进入Programming版参与讨论

相关主题
● 迷惑了	● 本着负责的态度最后说几句
● 我要做一个Java演示系统，用哪些前台技术比较好？	● 真是搞笑。还在争呢
● 对哦，老姜，别人说的提醒了我	● 分布式分票算法
● 大胆预测一下下一个风口	● zhaoce你要做skynet的话最好跟我学
● 这版上有用hadoop的么？	● 联票问题是非常简单的问题
● 分布式文件存储系统，以及此基础上的分布式计算，大家有何推荐的？	● 假设一台机器处理能力是100QPS
● 好虫，看看你的东东有没有问题？	● 静态计数器和订票系统的区别
● 看来以后要把春运买票网设计当做面试考题了	● 老魏的所谓hot standby就是上个世纪的solution

相关话题的讨论汇总
话题: 单机话题: ssd话题: hadoop话题: 数据话题: mpi

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天