由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 分布式计算 大数据啥的 我咋觉得是倒退?
相关主题
这版上有用hadoop的么?联票问题是非常简单的问题
分布式文件存储系统,以及此基础上的分布式计算,大家有何推荐的?假设一台机器处理能力是100QPS
好虫,看看你的东东有没有问题?静态计数器和订票系统的区别
看来以后要把春运买票网设计当做面试考题了老魏的所谓hot standby就是上个世纪的solution
本着负责的态度最后说几句谁给讲讲FP咋火起来的
真是搞笑。还在争呢wei和好虫打的什么赌, 吧好虫搞自杀了?
分布式分票算法问个mpi的问题
zhaoce你要做skynet的话最好跟我学迷惑了
相关话题的讨论汇总
话题: 单机话题: ssd话题: hadoop话题: 数据话题: mpi
进入Programming版参与讨论
1 (共1页)
n******g
发帖数: 2201
1
实际有用的 都是小数据 大数据其实是大垃圾
然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢
w***g
发帖数: 5958
2
马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

t*****n
发帖数: 2578
3
有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾
n******g
发帖数: 2201
4
大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
w**z
发帖数: 8232
5
数据量大于单机的存储量,单机怎么搞?

:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
w***g
发帖数: 5958
6
现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理?

【在 w**z 的大作中提到】
: 数据量大于单机的存储量,单机怎么搞?
:
: :马上industry又要重新发现单机模式了.
: :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w********m
发帖数: 1137
7
大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。
d******c
发帖数: 2407
8
这完全是个成本问题。
MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
当初google的问题超过了单机的容量,必须用大量pc拼起来。
现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
限了。
分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

w**z
发帖数: 8232
9
你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。

:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
c******n
发帖数: 16666
10
最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便

【在 w**z 的大作中提到】
: 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:
: :现在服务器内存可以上3TB, CPU 2x16 core是标配。
: :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,

相关主题
真是搞笑。还在争呢联票问题是非常简单的问题
分布式分票算法假设一台机器处理能力是100QPS
zhaoce你要做skynet的话最好跟我学静态计数器和订票系统的区别
进入Programming版参与讨论
g****t
发帖数: 31659
11
我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。

【在 w***g 的大作中提到】
: 马上industry又要重新发现单机模式了.
: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

m******r
发帖数: 1033
12
那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块?
g****t
发帖数: 31659
13
很难赢国内的年轻人。

【在 m******r 的大作中提到】
: 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
: 当然,配置低了,跑得时间长。 配置高了, 我也买不起。
: 所以我只需要知道个大概 几百还是几千块?

d*******r
发帖数: 3299
14
比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.

【在 d******c 的大作中提到】
: 这完全是个成本问题。
: MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
: 当初google的问题超过了单机的容量,必须用大量pc拼起来。
: 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
: 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
: ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
: 限了。
: 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

w**z
发帖数: 8232
15
单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
d*******r
发帖数: 3299
16
嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

【在 w**z 的大作中提到】
: 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:
: :比较同意这个, 互联网公司堆廉价Linux机器,
: :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

i*****9
发帖数: 3157
17
话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
f*******t
发帖数: 7549
18
一堆性能一般的硬件:性能有损失,需要更多开发人员
高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本
做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移
到码工手里。楼主可能是一个悲愤的硬工。
n******g
发帖数: 2201
19
实际有用的 都是小数据 大数据其实是大垃圾
然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢
w***g
发帖数: 5958
20
马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

相关主题
老魏的所谓hot standby就是上个世纪的solution问个mpi的问题
谁给讲讲FP咋火起来的迷惑了
wei和好虫打的什么赌, 吧好虫搞自杀了?我要做一个Java演示系统,用哪些前台技术比较好?
进入Programming版参与讨论
t*****n
发帖数: 2578
21
有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾
n******g
发帖数: 2201
22
大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
w**z
发帖数: 8232
23
数据量大于单机的存储量,单机怎么搞?

:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
w***g
发帖数: 5958
24
现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理?

【在 w**z 的大作中提到】
: 数据量大于单机的存储量,单机怎么搞?
:
: :马上industry又要重新发现单机模式了.
: :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w********m
发帖数: 1137
25
大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。
d******c
发帖数: 2407
26
这完全是个成本问题。
MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
当初google的问题超过了单机的容量,必须用大量pc拼起来。
现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
限了。
分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

w**z
发帖数: 8232
27
你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。

:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
c******n
发帖数: 16666
28
最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便

【在 w**z 的大作中提到】
: 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:
: :现在服务器内存可以上3TB, CPU 2x16 core是标配。
: :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,

g****t
发帖数: 31659
29
我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。

【在 w***g 的大作中提到】
: 马上industry又要重新发现单机模式了.
: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

m******r
发帖数: 1033
30
那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块?
相关主题
对哦,老姜,别人说的提醒了我分布式文件存储系统,以及此基础上的分布式计算,大家有何推荐的?
大胆预测一下下一个风口好虫,看看你的东东有没有问题?
这版上有用hadoop的么?看来以后要把春运买票网设计当做面试考题了
进入Programming版参与讨论
g****t
发帖数: 31659
31
很难赢国内的年轻人。

【在 m******r 的大作中提到】
: 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
: 当然,配置低了,跑得时间长。 配置高了, 我也买不起。
: 所以我只需要知道个大概 几百还是几千块?

d*******r
发帖数: 3299
32
比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.

【在 d******c 的大作中提到】
: 这完全是个成本问题。
: MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
: 当初google的问题超过了单机的容量,必须用大量pc拼起来。
: 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
: 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
: ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
: 限了。
: 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

w**z
发帖数: 8232
33
单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
d*******r
发帖数: 3299
34
嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

【在 w**z 的大作中提到】
: 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:
: :比较同意这个, 互联网公司堆廉价Linux机器,
: :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

i*****9
发帖数: 3157
35
话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
f*******t
发帖数: 7549
36
一堆性能一般的硬件:性能有损失,需要更多开发人员
高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本
做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移
到码工手里。楼主可能是一个悲愤的硬工。
g*********9
发帖数: 1285
37
"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

h**********c
发帖数: 4120
38
狗家那种数据中心如果开始老化的话,PC服务器也就是3年的寿命,
成批量资产更新也要很大一笔钱,
optimistic planning是不考虑depreciation 问题的

【在 d*******r 的大作中提到】
: 比较同意这个, 互联网公司堆廉价Linux机器,
: 因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
: 如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.

n******g
发帖数: 2201
39
您的观点呢?
[在 groundhog09 (衰哥) 的大作中提到:]
:"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
:***********************
:***********************
l******n
发帖数: 9344
40
你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到
让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极
少数行业,基本不可能用。
现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进
步?

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

相关主题
看来以后要把春运买票网设计当做面试考题了分布式分票算法
本着负责的态度最后说几句zhaoce你要做skynet的话最好跟我学
真是搞笑。还在争呢联票问题是非常简单的问题
进入Programming版参与讨论
h**********c
发帖数: 4120
41
前面说过depreciation的问题,现在一些关键设备,计算设施换到云端的,3,5年之后
depreciation, 可靠性差带来的outage,这些成本估计就不是今天的报价了。
有些系统,比如电力,民航,折腾出去了就不好再折腾回来了。
倒时候,LAXIGILE MANAGERS换了好几茬,估计又是纳税bail out.

【在 l******n 的大作中提到】
: 你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到
: 让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极
: 少数行业,基本不可能用。
: 现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进
: 步?

m*****n
发帖数: 3575
42
金融管它叫
garbage in, garbage out.
m*****n
发帖数: 3575
43
有的算法需要推演很大量,例如Alpha Go的算法
有的算法是模糊判断,例如判断猫脸
计算能力提升了,的确可以实现算法
传统统计规律能揭示的规律毕竟是有限的。
r***s
发帖数: 737
44
不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

r***s
发帖数: 737
45
不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

f*********r
发帖数: 30
46
超算确实非常贵,相对于普通商业数据中心,特别是跟风上了专业gpu的。超算应该是
拉不下脸用价廉物美的游戏卡的。
但是另一个方面基本上超算都是接近满负荷在运行,而商业数据中心包括云计算公司,
平均负载只有15-20%。所以究竟哪个性价比高还不好说。商业数据中心的低负载是商业
面试的周期性决定的,也是云计算的起因之一


: 不是退步的问题,是用途问题

: mpi 门槛太高。用着费劲。

: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据
,是自

: 己找事。

: 等你真有几百个pb的数据的话单机就没戏了。



【在 r***s 的大作中提到】
: 不是退步的问题,是用途问题
: mpi 门槛太高。用着费劲。
: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
: 己找事。
: 等你真有几百个pb的数据的话单机就没戏了。

g*********9
发帖数: 1285
47
把Big Data和MPI比,这个不可思议。两个解决不同的问题,哪有可比性?
Big data是侧重处理数据, MPI是侧重计算。数据量一大,MPI怎么用?
MPI能做的,Big data肯定能做,只是没那么优化。

【在 n******g 的大作中提到】
: 您的观点呢?
: [在 groundhog09 (衰哥) 的大作中提到:]
: :"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
: :***********************
: :***********************

y**b
发帖数: 10166
48
是的完全不可比较。
其实人类超算那点计算能力也很小很可怜的。
1 (共1页)
进入Programming版参与讨论
相关主题
迷惑了本着负责的态度最后说几句
我要做一个Java演示系统,用哪些前台技术比较好?真是搞笑。还在争呢
对哦,老姜,别人说的提醒了我分布式分票算法
大胆预测一下下一个风口zhaoce你要做skynet的话最好跟我学
这版上有用hadoop的么?联票问题是非常简单的问题
分布式文件存储系统,以及此基础上的分布式计算,大家有何推荐的?假设一台机器处理能力是100QPS
好虫,看看你的东东有没有问题?静态计数器和订票系统的区别
看来以后要把春运买票网设计当做面试考题了老魏的所谓hot standby就是上个世纪的solution
相关话题的讨论汇总
话题: 单机话题: ssd话题: hadoop话题: 数据话题: mpi