big data怎么搞定商业报表？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - big data怎么搞定商业报表？

相关主题
● 你们有没有一种感觉，其实big data	● 关于mapreduce一问
● 一个关于big data 系统架构的设计问题	● 是我的错觉么？我觉得google的三架马车其实没啥东西
● big data,菜凉?	● 迷惑了
● A家一个system designe, 求大牛指点	● 请问为什么现在big data的toolkit都是和java有紧密的关系？
● oracle coherence	● mapreduce, hadoop还能火几年？
● 问一个关于C×和HBASE的性能比较问题	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● Cassandra Rewritten In C++, Ten Times Faster	● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● java的内存管理真是气死我了	● 能不能在hadoop中用open mpi?

相关话题的讨论汇总
话题: hadoop话题: bi话题: data话题: sql话题: db

进入Programming版参与讨论

(共1页)

W*******e
发帖数: 1268

没有流行的reporting tool或者BI系统可以直接使用?
每个商业报表都得从Java/Erlang/等等程序写起？

t****a
发帖数: 1212

传统的open source BI系统有birt之类的工具，但没听说它们可以处理hadoop数据接口。
同时，hadoop这玩意不能拿来做实时的查询，因为从提交一个job到等结果出来要好久。
看到的一般是拿hadoop去解析log/做aggregation metrics到本地ETL，然后，用传统的
方法，做个BI的前端。
但也听说google有新的技术可以做“实时”的大数据计算，号称要淘汰掉map-reduce。
有人知道吗？

b*****e
发帖数: 474

bigquery? Nahhhhhh ...

口。
久。

【在 t****a 的大作中提到】

: 传统的open source BI系统有birt之类的工具，但没听说它们可以处理hadoop数据接口。
: 同时，hadoop这玩意不能拿来做实时的查询，因为从提交一个job到等结果出来要好久。
: 看到的一般是拿hadoop去解析log/做aggregation metrics到本地ETL，然后，用传统的
: 方法，做个BI的前端。
: 但也听说google有新的技术可以做“实时”的大数据计算，号称要淘汰掉map-reduce。
: 有人知道吗？

N********n
发帖数: 8363

HADOOP就一大忽悠，MR ENGINE狂慢，只能做OFFLINE HISTORICAL DATA分析。
到了商业市场上人家都要LOW LATENCY BI. 要YesSql不要NoSql，所以MR被
淘汰换类似RELATIONAL DB ENGINE是必然。

【在 t****a 的大作中提到】

t****a
发帖数: 1212

MR不是用来做instant query的。它的长处在于处理TB level甚至更多的数据，而且可
以比较容易的对付unstructed的数据，它本身又很容易scale，这些事情传统的sql db
做不了。
他跟sql db更像是在一条线上的, sql db consume MR出来的结果。

【在 N********n 的大作中提到】

:
: HADOOP就一大忽悠，MR ENGINE狂慢，只能做OFFLINE HISTORICAL DATA分析。
: 到了商业市场上人家都要LOW LATENCY BI. 要YesSql不要NoSql，所以MR被
: 淘汰换类似RELATIONAL DB ENGINE是必然。

g*****g
发帖数: 34805

扯蛋吧，大部分BI还不是一天出一个报表，还实时，你以为是股票交易系统？
婚介网站上千万用户，每天扔AWS上算一次配对，就是个典型的Hadoop应用。
有Silverlight在前，你是大忽悠才是真的。

【在 N********n 的大作中提到】

n******t
发帖数: 4406

本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
就有那么多数据分析业务，所以也能搞这么火。

口。
久。

【在 t****a 的大作中提到】

g*****g
发帖数: 34805

mapreduce就是大cluster处理big data。技术含量就在于分配处理大数据和出错恢复的
能力。
嘛东西单机处理都简单，一旦几百上千个结点并行跑起来，问题就多了。

【在 n******t 的大作中提到】

: 本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
: 就有那么多数据分析业务，所以也能搞这么火。
:
: 口。
: 久。

N********n
发帖数: 8363

大多数个头啊。现在市面上各家HADOOP公司有的换类RMDB ENGINE，有的做
IN-MEMORY HADOOP，目标都是提速REAL-TIME。你个傻逼跳出来独树一帜，
做个分析死老慢还自以为有理。你丫一贯不懂装懂，什么WORKDAY, ZYNGA
之类的笑料拿出来忽悠结果丢人现眼。
http://www.zdnet.com/cloudera-aims-to-bring-real-time-queries-t
http://www.zdnet.com/real-time-hadoop-analytics-scaleout-turns-

【在 g*****g 的大作中提到】

: 扯蛋吧，大部分BI还不是一天出一个报表，还实时，你以为是股票交易系统？
: 婚介网站上千万用户，每天扔AWS上算一次配对，就是个典型的Hadoop应用。
: 有Silverlight在前，你是大忽悠才是真的。

w***g
发帖数: 5958

商业报表明明是SQL的事情, 也不是数据量一大就不能用SQL了.

【在 W*******e 的大作中提到】

: 没有流行的reporting tool或者BI系统可以直接使用?
: 每个商业报表都得从Java/Erlang/等等程序写起？

相关主题
● 问一个关于C×和HBASE的性能比较问题	● 关于mapreduce一问
● Cassandra Rewritten In C++, Ten Times Faster	● 是我的错觉么？我觉得google的三架马车其实没啥东西
● java的内存管理真是气死我了	● 迷惑了
进入Programming版参与讨论

W*******e
发帖数: 1268

NoSQL数据库
现在的初步想法是加一层SQL数据库存放中间的分析数据，前端还是用传统BI

【在 w***g 的大作中提到】

: 商业报表明明是SQL的事情, 也不是数据量一大就不能用SQL了.

g*****g
发帖数: 34805

你丫傻逼还傻逼出极品来了。要提速Hadoop是不错，这个叫技术改进。有哪个说Hadoop
不行，我还是回去用SQL Server吗？SQL Server根本就处理不了这个级别的数据。
这个叫做趋势，微软日渐式微，你在这里跳脚有屁用。

【在 N********n 的大作中提到】

:
: 大多数个头啊。现在市面上各家HADOOP公司有的换类RMDB ENGINE，有的做
: IN-MEMORY HADOOP，目标都是提速REAL-TIME。你个傻逼跳出来独树一帜，
: 做个分析死老慢还自以为有理。你丫一贯不懂装懂，什么WORKDAY, ZYNGA
: 之类的笑料拿出来忽悠结果丢人现眼。
: http://www.zdnet.com/cloudera-aims-to-bring-real-time-queries-t
: http://www.zdnet.com/real-time-hadoop-analytics-scaleout-turns-

c****e
发帖数: 1453

很多还都是把aggregated以后的数据放回relational DB用传统的方式出报表。
有的情况放在nosql数据库里面也就够了。比如geo的数据，一些visulization,每一步
都是简单的key查找，不需要关系数据库那么重的东西。
hadoop是比较慢，这些map reduce的系统都比较慢。实时的系统idea也差不多，关键是
在node level更有效的filtering,不但是query optimization,存储的结构也要改，像
是列存储，不同的值cluster在不同的file chunk里面。但是不管怎么样，你都必须有
global的aggregation,这个很麻烦。counter之类的还可以预处理。要是GROUP BY你是
绕不过去的。In-memory还有10G network能让这些变快些。
map-reduce系统加类SQL还有一个很大的问题，关于图的算法效率都很低，不是对所有
算法都适用。
Hadoop对于很多应用也是过于笨重，现在很多ML的算法都开始强调realtime, light
weight.象典型的recommendation,新出的startup好几家都是直接写的from scratch
realtime。比常见的弄个hadoop跑个collaborative filtering快很多倍。

g*****g
发帖数: 34805

MapReduce is not holygrail. And there's no holygrail. But it's a generic
tool that can help solve many problems. That's what a good framework is.

【在 c****e 的大作中提到】

: 很多还都是把aggregated以后的数据放回relational DB用传统的方式出报表。
: 有的情况放在nosql数据库里面也就够了。比如geo的数据，一些visulization,每一步
: 都是简单的key查找，不需要关系数据库那么重的东西。
: hadoop是比较慢，这些map reduce的系统都比较慢。实时的系统idea也差不多，关键是
: 在node level更有效的filtering,不但是query optimization,存储的结构也要改，像
: 是列存储，不同的值cluster在不同的file chunk里面。但是不管怎么样，你都必须有
: global的aggregation,这个很麻烦。counter之类的还可以预处理。要是GROUP BY你是
: 绕不过去的。In-memory还有10G network能让这些变快些。
: map-reduce系统加类SQL还有一个很大的问题，关于图的算法效率都很低，不是对所有
: 算法都适用。

N********n
发帖数: 8363

HADOOP强在BATCH PROCESSING和海量STORAGE，这里讨论的是BI，要求LOW
LATENCY，要求YesSql。你那"每天只能跑一个婚介"的MR就是慢泥巴上不了
墙，也就是给传统BI系统当个STAGING STORAGE而已，你跟我死撑顶茄子毛
用。整天捧着HADOOP大忽悠吹得包山包海，被揭底了就出来大喊大叫。

【在 g*****g 的大作中提到】

: 你丫傻逼还傻逼出极品来了。要提速Hadoop是不错，这个叫技术改进。有哪个说Hadoop
: 不行，我还是回去用SQL Server吗？SQL Server根本就处理不了这个级别的数据。
: 这个叫做趋势，微软日渐式微，你在这里跳脚有屁用。

g*****g
发帖数: 34805

尼玛你每次被打脸就满地撒泼。Hadoop又不是瑞士军刀，不需要什么都能做。
没有Hadoop先处理了海量数据生成了中间结果，哪来的数据让你做BI。
你丫觉得Hadoop是忽悠，你们微软自宫了自己的Linq2HPC，涎着脸上Hadoop，
有种你到是先反出微软。最看不起的就是你们软毛又做婊子又立牌坊。
有Silverlight在前，你小还有脸在这个版上说别人忽悠。

【在 N********n 的大作中提到】

:
: HADOOP强在BATCH PROCESSING和海量STORAGE，这里讨论的是BI，要求LOW
: LATENCY，要求YesSql。你那"每天只能跑一个婚介"的MR就是慢泥巴上不了
: 墙，也就是给传统BI系统当个STAGING STORAGE而已，你跟我死撑顶茄子毛
: 用。整天捧着HADOOP大忽悠吹得包山包海，被揭底了就出来大喊大叫。

N********n
发帖数: 8363

我靠，你丫当初不是NBHH扬言NOSQL要取代ORACLE和SQL SERVER吗？既然
都取代了BI就该自力更生了，怎么还要回头请RMDB出手？我当时就指出你
那是不懂数据平台扯淡，尼玛还跟老子抬杠。现在又甩手扇自己一个大嘴
巴改口"不需要什么都能做"。你丫脸皮厚不怕，别人还嫌吵呢。
微软早就有COSMOS这种工具了，换HADOOP只是统一和市面上接口而已。微
软从没讲过取代RMDB这种蠢话。都是你这种整天忽悠WORKDAY, ZYNGA的放
这种山炮。

【在 g*****g 的大作中提到】

: 尼玛你每次被打脸就满地撒泼。Hadoop又不是瑞士军刀，不需要什么都能做。
: 没有Hadoop先处理了海量数据生成了中间结果，哪来的数据让你做BI。
: 你丫觉得Hadoop是忽悠，你们微软自宫了自己的Linq2HPC，涎着脸上Hadoop，
: 有种你到是先反出微软。最看不起的就是你们软毛又做婊子又立牌坊。
: 有Silverlight在前，你小还有脸在这个版上说别人忽悠。

g*****g
发帖数: 34805

你丫原来不懂NoSQL是Not Only SQL的词头？还成天YesSQL呢。你不懂不是你的错，非
要出来
丢人就是你的不对了。

【在 N********n 的大作中提到】

:
: 我靠，你丫当初不是NBHH扬言NOSQL要取代ORACLE和SQL SERVER吗？既然
: 都取代了BI就该自力更生了，怎么还要回头请RMDB出手？我当时就指出你
: 那是不懂数据平台扯淡，尼玛还跟老子抬杠。现在又甩手扇自己一个大嘴
: 巴改口"不需要什么都能做"。你丫脸皮厚不怕，别人还嫌吵呢。
: 微软早就有COSMOS这种工具了，换HADOOP只是统一和市面上接口而已。微
: 软从没讲过取代RMDB这种蠢话。都是你这种整天忽悠WORKDAY, ZYNGA的放
: 这种山炮。

c****e
发帖数: 1453

I am not saying it's bad or good. It's just better to know the pros and cons
before making decisions on technology choice.
On the other hand the demand is always pushing technology forward. Big data
processing techniques are evolving in a fast pace.

【在 g*****g 的大作中提到】

: MapReduce is not holygrail. And there's no holygrail. But it's a generic
: tool that can help solve many problems. That's what a good framework is.

w**z
发帖数: 8232

we are using Hadoop to proceess scribe log and feed the results to BI db
hourly /daily.

【在 W*******e 的大作中提到】

: 没有流行的reporting tool或者BI系统可以直接使用?
: 每个商业报表都得从Java/Erlang/等等程序写起？

相关主题
● 请问为什么现在big data的toolkit都是和java有紧密的关系？	● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● mapreduce, hadoop还能火几年？	● 能不能在hadoop中用open mpi?
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 转行做data warehouse的问个学习大数据的问题
进入Programming版参与讨论

f**********p
发帖数: 44

Google那玩意叫Dremel. 人可没说要取代MapReduce, 说的是和MapReduce互补。对应的
开源项目是Apache Drill. 不过那玩意我听一个老印忽悠过，八字还没有一撇。
很多BI没有实时要求，一天或者一小时跑一次，所以用Hadoop没有什么问题。Hadoop代
码写好了，比基于postgresql的数据仓库快个几倍，但快不了一个量级。要玩交互式BI
，得在中间再加一层MySQL。

口。
久。

【在 t****a 的大作中提到】

z*******3
发帖数: 13709

big data很多产品本身就是牺牲精度提升效率的产物
这种前提下，就算出了一个报表，也不应该过份苛求精度
大多数big data的报表都是提供个模糊印象
同理，这个前提下搞实时就有些扯了，当然不是不行
但是这种精度下，还不如回头去用db，如果transaction搞定不了，上mainframe
当然我不反对两个结合起来一起用

【在 w***g 的大作中提到】

: 商业报表明明是SQL的事情, 也不是数据量一大就不能用SQL了.

z*******3
发帖数: 13709

所以说统计又开始火爆了
我说怎么jobhunting那边一堆cs面经里面老遇见统计题

【在 n******t 的大作中提到】

: 本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
: 就有那么多数据分析业务，所以也能搞这么火。
:
: 口。
: 久。

B***i
发帖数: 724

vertica ?

【在 c****e 的大作中提到】

B*****g
发帖数: 34098

大牛都能making decision了，赞一个

cons
data

【在 c****e 的大作中提到】

: I am not saying it's bad or good. It's just better to know the pros and cons
: before making decisions on technology choice.
: On the other hand the demand is always pushing technology forward. Big data
: processing techniques are evolving in a fast pace.

l******t
发帖数: 660

你说的big data是hadoop/hdfs吗? 一般的处理都是需要倒到一个rmdb里边然后用传统
的bi reporting,现在也有一些bi工具能直接连hadoop, 比如pentaho, 不过易用性非常
的差.
不过big data只是数据多, 但是是structure data, 就直接上data warehouse.

【在 W*******e 的大作中提到】

: 没有流行的reporting tool或者BI系统可以直接使用?
: 每个商业报表都得从Java/Erlang/等等程序写起？

l******t
发帖数: 660

现在的hadoop基本上不能handle real time的, 还是rmdb好用, 99%的情况rmdb也够用了

【在 z*******3 的大作中提到】

: big data很多产品本身就是牺牲精度提升效率的产物
: 这种前提下，就算出了一个报表，也不应该过份苛求精度
: 大多数big data的报表都是提供个模糊印象
: 同理，这个前提下搞实时就有些扯了，当然不是不行
: 但是这种精度下，还不如回头去用db，如果transaction搞定不了，上mainframe
: 当然我不反对两个结合起来一起用

l******t
发帖数: 660

对于99%的传统非互联网公司来说, hadoop没有什么用, 哪有那么多的unstructure
data来处理, 上 mpp才是正道. hadoop现在基本上还是弯曲的internet 公司在用, 然
后就是一堆堆的start up用来骗funding.

【在 n******t 的大作中提到】

: 本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
: 就有那么多数据分析业务，所以也能搞这么火。
:
: 口。
: 久。

c*****y
发帖数: 562

不处理但可以通过hive access
http://www.eclipse.org/birt/phoenix/project/notable3.7.php#jump

口。
久。

【在 t****a 的大作中提到】

z*******3
发帖数: 13709

嗯，同意

【在 l******t 的大作中提到】

: 对于99%的传统非互联网公司来说, hadoop没有什么用, 哪有那么多的unstructure
: data来处理, 上 mpp才是正道. hadoop现在基本上还是弯曲的internet 公司在用, 然
: 后就是一堆堆的start up用来骗funding.

相关主题
● Flink Sparks Next Wave of Distributed Data Processing	● 一个关于big data 系统架构的设计问题
● MapReduce 的思想是怎么发明的？	● big data,菜凉?
● 你们有没有一种感觉，其实big data	● A家一个system designe, 求大牛指点
进入Programming版参与讨论

N********n
发帖数: 8363

Exactly. A nosql platform might be able to store a huge amount of
"data" but data is only useful if you are able analyze it fast
enough. If you cannot then you only have a big pile of useless
data, or frankly junk.

【在 l******t 的大作中提到】

g*******1
发帖数: 9

What is BI DB ? Oracle or MS SQL.

g*******1
发帖数: 9

what is your DB for BI DB ? Oracle ..?

(共1页)

进入Programming版参与讨论

相关主题
● 能不能在hadoop中用open mpi?	● oracle coherence
● 转行做data warehouse的问个学习大数据的问题	● 问一个关于C×和HBASE的性能比较问题
● Flink Sparks Next Wave of Distributed Data Processing	● Cassandra Rewritten In C++, Ten Times Faster
● MapReduce 的思想是怎么发明的？	● java的内存管理真是气死我了
● 你们有没有一种感觉，其实big data	● 关于mapreduce一问
● 一个关于big data 系统架构的设计问题	● 是我的错觉么？我觉得google的三架马车其实没啥东西
● big data,菜凉?	● 迷惑了
● A家一个system designe, 求大牛指点	● 请问为什么现在big data的toolkit都是和java有紧密的关系？

相关话题的讨论汇总
话题: hadoop话题: bi话题: data话题: sql话题: db

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天