由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 一个关于big data 系统架构的设计问题
相关主题
big data怎么搞定商业报表?学scala和spark需要什么pre req?
你们有没有一种感觉,其实big data试了下spark,不过如此啊
FORTRAN数组越界问题可以建公司内部的HDFS吗?
有没有什么轮子可以管理大堆的binary文件啊?Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
大牛们,请教大数据系统如何架构关于 SPARK, 问二爷peking2 和其他大牛一问题
关于big data能不能在hadoop中用open mpi?
怎么自学cloud/big data programming解密hadoop文件系统数据存储方式
c++程序员不要把头埋在沙子里了Hadoop 和Python的数据分析包哪个更值得学习?
相关话题的讨论汇总
话题: hadoop话题: sql话题: microsoft话题: 数据话题: oracle
进入Programming版参与讨论
1 (共1页)
s******a
发帖数: 184
1
公司准备考虑一个hadoop 的应用, 但现在已有基于SAP 的系统, 和基于 Microsoft
SQL 的系统, 一些 顾问公司提出的建议是把所有SAP和 microsoft SQL 里的data全
load 到 HAHDOOP去。 但管理SAP和Microsoft SQL的 组都不愿意这么做。我也觉得这
不是一个正确的做法。 现在有什么成熟的架构能够只在需要的时候读取 SAP和
microsoft SQL里的data, 而不是在Hadoop上再做一套数据的备份。或者说有什么data
federation layer 的设计能够让hadoop 的 application layer 自由调度存在那些里
的data
w***g
发帖数: 5958
2
SQL的数据为准,然后周期性自动导出到Hadoop上是最可靠的做法。
on-demand从SQL捞数据是个美好的想法,真去做,不但费力,还容易把事情搞砸。
你们的顾问公司太狗屁了。后台很硬吧?

Microsoft
data

【在 s******a 的大作中提到】
: 公司准备考虑一个hadoop 的应用, 但现在已有基于SAP 的系统, 和基于 Microsoft
: SQL 的系统, 一些 顾问公司提出的建议是把所有SAP和 microsoft SQL 里的data全
: load 到 HAHDOOP去。 但管理SAP和Microsoft SQL的 组都不愿意这么做。我也觉得这
: 不是一个正确的做法。 现在有什么成熟的架构能够只在需要的时候读取 SAP和
: microsoft SQL里的data, 而不是在Hadoop上再做一套数据的备份。或者说有什么data
: federation layer 的设计能够让hadoop 的 application layer 自由调度存在那些里
: 的data

d******e
发帖数: 2265
3
为什么用hadoop这个烂货呢?出发真的是海量数据。否则毫无好处。

Microsoft
data

【在 s******a 的大作中提到】
: 公司准备考虑一个hadoop 的应用, 但现在已有基于SAP 的系统, 和基于 Microsoft
: SQL 的系统, 一些 顾问公司提出的建议是把所有SAP和 microsoft SQL 里的data全
: load 到 HAHDOOP去。 但管理SAP和Microsoft SQL的 组都不愿意这么做。我也觉得这
: 不是一个正确的做法。 现在有什么成熟的架构能够只在需要的时候读取 SAP和
: microsoft SQL里的data, 而不是在Hadoop上再做一套数据的备份。或者说有什么data
: federation layer 的设计能够让hadoop 的 application layer 自由调度存在那些里
: 的data

T*******x
发帖数: 8565
4
这不是和顾问公司的做法是一样的吗?

【在 w***g 的大作中提到】
: SQL的数据为准,然后周期性自动导出到Hadoop上是最可靠的做法。
: on-demand从SQL捞数据是个美好的想法,真去做,不但费力,还容易把事情搞砸。
: 你们的顾问公司太狗屁了。后台很硬吧?
:
: Microsoft
: data

w***g
发帖数: 5958
5
我开始理解错了你的帖子了。确实是和顾问公司建议的做法一样。
那顾问公司就是对的。

【在 T*******x 的大作中提到】
: 这不是和顾问公司的做法是一样的吗?
s******a
发帖数: 184
6
项目 背景是这样的,公司有数据存在各种现有的系统上, 现在希望有一个大数据分析
系统能够对所有这些数据进行综合分析。就是说还是需要把现有数据都在HDFS上做一个
备份。谢谢。

【在 w***g 的大作中提到】
: 我开始理解错了你的帖子了。确实是和顾问公司建议的做法一样。
: 那顾问公司就是对的。

T*******x
发帖数: 8565
7
这确实是个问题。哪个大牛能给讲讲hadoop的use case到底是什么?
比如把SQL server数据库搬到hadoop上,SQL server上的query改写成hive sql。那肯
定是要比sql server慢的了。那它的意义何在呢?
用spark sql改写sql server query是不是能达到相对较快的速度?但我觉得应该还是
要比sql server慢,可能只是慢的不多而已。
所以use case到底在哪?

【在 d******e 的大作中提到】
: 为什么用hadoop这个烂货呢?出发真的是海量数据。否则毫无好处。
:
: Microsoft
: data

T*******x
发帖数: 8565
8
谢谢。我在另一个回帖中提问hadoop use case到底在哪?请大牛给解答一下。

【在 w***g 的大作中提到】
: 我开始理解错了你的帖子了。确实是和顾问公司建议的做法一样。
: 那顾问公司就是对的。

d******e
发帖数: 2265
9
我估计你们的数据其实不大?几十个G?否则sql早搞不定了。
第二,综合分析,也就是etl或者简单统计。
最多上spark.足够了。每种数据写成一个stream source或者用kafka replicate一下。
足够了。

【在 s******a 的大作中提到】
: 项目 背景是这样的,公司有数据存在各种现有的系统上, 现在希望有一个大数据分析
: 系统能够对所有这些数据进行综合分析。就是说还是需要把现有数据都在HDFS上做一个
: 备份。谢谢。

s******a
发帖数: 184
10
请问这里"用kafka replicate 一下", 是不是说原有系统里的数据只在需要的时候才
会传到Hadoop上, 并不需要把原有系统, 比如sql 里的全部数据全事先导到Hadoop上。

【在 d******e 的大作中提到】
: 我估计你们的数据其实不大?几十个G?否则sql早搞不定了。
: 第二,综合分析,也就是etl或者简单统计。
: 最多上spark.足够了。每种数据写成一个stream source或者用kafka replicate一下。
: 足够了。

相关主题
关于big data学scala和spark需要什么pre req?
怎么自学cloud/big data programming试了下spark,不过如此啊
c++程序员不要把头埋在沙子里了可以建公司内部的HDFS吗?
进入Programming版参与讨论
w***g
发帖数: 5958
11
对。这么做是最稳妥的。比如每天增量导出,周末全量导出。(如果数据量小,
可以每小时增量导出,每天全量导出,或者把增量部分都去掉。)
这样出活快。

【在 s******a 的大作中提到】
: 项目 背景是这样的,公司有数据存在各种现有的系统上, 现在希望有一个大数据分析
: 系统能够对所有这些数据进行综合分析。就是说还是需要把现有数据都在HDFS上做一个
: 备份。谢谢。

w***g
发帖数: 5958
12
google的GFS和mapreduce是05年左右发的paper。发paper的时候他们内部应该用了几年
了。
然后06年的样子hadoop出来,到现在有快10年了。10年以前机器的内存没现在这么
大,
CPU也没现在这么快,大数据系统的软件开发也才起步。当时hadoop确实能解决不少问
题。
后来机器内存多了,很多人又发现其实数据没那么大,所以就把hadoop的out-of-core
processing抛弃了,改用spark的in-memory processing。现在hadoop有用的就是
一个HDFS文件系统。直接写mapreduce的应该少了,都是用HDFS上面的ecosystem。
另外需要注意的是这10年硬件也在发展,传统数据库的处理能力也在增强。
是不是真要用hadoop,得针对具体case分析。

【在 T*******x 的大作中提到】
: 这确实是个问题。哪个大牛能给讲讲hadoop的use case到底是什么?
: 比如把SQL server数据库搬到hadoop上,SQL server上的query改写成hive sql。那肯
: 定是要比sql server慢的了。那它的意义何在呢?
: 用spark sql改写sql server query是不是能达到相对较快的速度?但我觉得应该还是
: 要比sql server慢,可能只是慢的不多而已。
: 所以use case到底在哪?

S*******e
发帖数: 525
13
同意应对具体的case分析。 我以前曾提过一个我们的例子,用Oracle要花上6-7个小时
,才能对我们20几个市场的一个市场进行一个方面的分析。现在我们用Spark over
Hadoop Yarn, 只要几分钟就能完成同样的分析。当然代价是现在的Hadoop Cluster 有
近 400 个 nodes。 Oracle 是 单机 (魏老师也许用C做到几分钟 :)
T*******x
发帖数: 8565
14
那太厉害了。这是铁的use case啊。
不过Oracle那么慢原因是什么啊?是数据量太大?还是很多join?spark如何解决的呢?

【在 S*******e 的大作中提到】
: 同意应对具体的case分析。 我以前曾提过一个我们的例子,用Oracle要花上6-7个小时
: ,才能对我们20几个市场的一个市场进行一个方面的分析。现在我们用Spark over
: Hadoop Yarn, 只要几分钟就能完成同样的分析。当然代价是现在的Hadoop Cluster 有
: 近 400 个 nodes。 Oracle 是 单机 (魏老师也许用C做到几分钟 :)

T*******x
发帖数: 8565
15
所以现在就是HDFS加spark。那是不是hive也没啥用了?

core

【在 w***g 的大作中提到】
: google的GFS和mapreduce是05年左右发的paper。发paper的时候他们内部应该用了几年
: 了。
: 然后06年的样子hadoop出来,到现在有快10年了。10年以前机器的内存没现在这么
: 大,
: CPU也没现在这么快,大数据系统的软件开发也才起步。当时hadoop确实能解决不少问
: 题。
: 后来机器内存多了,很多人又发现其实数据没那么大,所以就把hadoop的out-of-core
: processing抛弃了,改用spark的in-memory processing。现在hadoop有用的就是
: 一个HDFS文件系统。直接写mapreduce的应该少了,都是用HDFS上面的ecosystem。
: 另外需要注意的是这10年硬件也在发展,传统数据库的处理能力也在增强。

w**z
发帖数: 8232
16
数据量大,当然是 mr job 快。大数据就是 use case.

【在 T*******x 的大作中提到】
: 这确实是个问题。哪个大牛能给讲讲hadoop的use case到底是什么?
: 比如把SQL server数据库搬到hadoop上,SQL server上的query改写成hive sql。那肯
: 定是要比sql server慢的了。那它的意义何在呢?
: 用spark sql改写sql server query是不是能达到相对较快的速度?但我觉得应该还是
: 要比sql server慢,可能只是慢的不多而已。
: 所以use case到底在哪?

c*********e
发帖数: 16335
17
你知道hadoop是用来干什么的吗?先把它的基础知识搞清楚。

Microsoft
data

【在 s******a 的大作中提到】
: 公司准备考虑一个hadoop 的应用, 但现在已有基于SAP 的系统, 和基于 Microsoft
: SQL 的系统, 一些 顾问公司提出的建议是把所有SAP和 microsoft SQL 里的data全
: load 到 HAHDOOP去。 但管理SAP和Microsoft SQL的 组都不愿意这么做。我也觉得这
: 不是一个正确的做法。 现在有什么成熟的架构能够只在需要的时候读取 SAP和
: microsoft SQL里的data, 而不是在Hadoop上再做一套数据的备份。或者说有什么data
: federation layer 的设计能够让hadoop 的 application layer 自由调度存在那些里
: 的data

T*******x
发帖数: 8565
18
那如果数据量不大呢?
比如有100个传统数据库,都不大。
把它们导入hadoop,接下来怎么玩啊?
这个问题不太具体,你随便说说吧。

【在 w**z 的大作中提到】
: 数据量大,当然是 mr job 快。大数据就是 use case.
w***g
发帖数: 5958
19
不是oracle慢,是400台机器快。

呢?

【在 T*******x 的大作中提到】
: 那太厉害了。这是铁的use case啊。
: 不过Oracle那么慢原因是什么啊?是数据量太大?还是很多join?spark如何解决的呢?

w**z
发帖数: 8232
20
具体情况具体分析,量不大,就没必要用hadoop, 楼上说了,你先了解一下 map reduce
究竟是干嘛的。

【在 T*******x 的大作中提到】
: 那如果数据量不大呢?
: 比如有100个传统数据库,都不大。
: 把它们导入hadoop,接下来怎么玩啊?
: 这个问题不太具体,你随便说说吧。

相关主题
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?解密hadoop文件系统数据存储方式
关于 SPARK, 问二爷peking2 和其他大牛一问题Hadoop 和Python的数据分析包哪个更值得学习?
能不能在hadoop中用open mpi?在不同版本的hdfs之间copy大量文件
进入Programming版参与讨论
N********n
发帖数: 8363
21
HADOOP最大的用处是当个海量收集站,如果你的数据有固定SCHEMA、有很强的
耦合度且还没有大到RMDB装不下就没必要用HADOOP。海量无SCHEMA数据是有代
价的,代价就是事后DATA ANALYSIS很慢,因为收集时无SCHEMA、无INDEX,所
以所有的数据检索基本上就是线性查找。

Microsoft
data

【在 s******a 的大作中提到】
: 公司准备考虑一个hadoop 的应用, 但现在已有基于SAP 的系统, 和基于 Microsoft
: SQL 的系统, 一些 顾问公司提出的建议是把所有SAP和 microsoft SQL 里的data全
: load 到 HAHDOOP去。 但管理SAP和Microsoft SQL的 组都不愿意这么做。我也觉得这
: 不是一个正确的做法。 现在有什么成熟的架构能够只在需要的时候读取 SAP和
: microsoft SQL里的data, 而不是在Hadoop上再做一套数据的备份。或者说有什么data
: federation layer 的设计能够让hadoop 的 application layer 自由调度存在那些里
: 的data

w***g
发帖数: 5958
22
慢是一回事。数据库ETL是有好处的,就是数据库的schema迫使L那一步的数据是干净的
。Hadoop和mongo这类没schema的,导入的时候容易了,事后处理就得handle各种corne
r case。我们的Hadoop表里经常有上游的垃圾混进来。有时候读着读着会来一条wget或
者别的什么程序的运行出错信息。

【在 N********n 的大作中提到】
: HADOOP最大的用处是当个海量收集站,如果你的数据有固定SCHEMA、有很强的
: 耦合度且还没有大到RMDB装不下就没必要用HADOOP。海量无SCHEMA数据是有代
: 价的,代价就是事后DATA ANALYSIS很慢,因为收集时无SCHEMA、无INDEX,所
: 以所有的数据检索基本上就是线性查找。
:
: Microsoft
: data

s******a
发帖数: 184
23
我们的例子和你的有相通之处。 请问你们是不是把ORACLE上所有的数据都倒到HADOOP
上了。 将来你们会不会全面取消ORACLE呢。

【在 S*******e 的大作中提到】
: 同意应对具体的case分析。 我以前曾提过一个我们的例子,用Oracle要花上6-7个小时
: ,才能对我们20几个市场的一个市场进行一个方面的分析。现在我们用Spark over
: Hadoop Yarn, 只要几分钟就能完成同样的分析。当然代价是现在的Hadoop Cluster 有
: 近 400 个 nodes。 Oracle 是 单机 (魏老师也许用C做到几分钟 :)

S*******e
发帖数: 525
24
我们部门的另一个team是用Oracle储存那个数据的,也是那个team用Oracle做的分析(
没多大用--因为只能分析一个市场,还需要这么长时间)。 但是我们公司成立了一个
大数据部门,这个部门用Hive存储类似上面提到的那个数据,但更全面。这个hive就是
我提到的400 nodes cluster的一部分。我所在的team用Spark做出了这样的好结果,当
然另外一组不很高兴(我们经理跟大数据部门有“熟人关系“,能够用那个cluster。
)所以, 不是我们把ORACLE上所有的数据都倒到HADOOP上, 而是公司另外部门没有经
过Oracle这个环节做了这工作(数据源是一样的)。
1 (共1页)
进入Programming版参与讨论
相关主题
Hadoop 和Python的数据分析包哪个更值得学习?大牛们,请教大数据系统如何架构
在不同版本的hdfs之间copy大量文件关于big data
大牛能不能讨论下cassandra, Hbase, MongoDB的对比怎么自学cloud/big data programming
转行做data warehouse的问个学习大数据的问题c++程序员不要把头埋在沙子里了
big data怎么搞定商业报表?学scala和spark需要什么pre req?
你们有没有一种感觉,其实big data试了下spark,不过如此啊
FORTRAN数组越界问题可以建公司内部的HDFS吗?
有没有什么轮子可以管理大堆的binary文件啊?Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
相关话题的讨论汇总
话题: hadoop话题: sql话题: microsoft话题: 数据话题: oracle