由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - Kafka, Spark Streaming, ElasticSearch for Business Intelli
相关主题
都用了spark了吗?三星samsung创新部门招大数据工程师 (转载)
有人去上过insight data science吗?公司有一些hadoop的session,大家看看那些值得去听
推荐一下Shiny Dashboarddata scientist opening (San Francisco)
social media dataFree Session: Big Data Real User Case in Financing
一个困扰我一段时间的问题:big data为什么要搞ml那些algorithm?高大上的公司里的data scientist都做什么样的project?
如何获取网页数据?有没有digital marketing dashboard开发或者应用有经验的?
有没有人可以给个hadoop streaming with python classifivation的列子啊招有精算背景或者熟悉数据分析的contractor (转载)
大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)新年要招人了
相关话题的讨论汇总
话题: spark话题: streaming话题: business话题: kafka
进入DataSciences版参与讨论
1 (共1页)
d****n
发帖数: 233
1
我最近对Open Source Business Solution很感兴趣。试着搭建了一个Prototype网站:
http://pbies.cloudapp.net/kibana3
这个网站利用ElasticSearch,Logstash,Kibana三个开源项目,提供两个Dashboards
,其中一个能从Twitter用户的Tweets搜索关键字,显示hot topic以及用户地理分布信
息。
http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Twitter%20Live%20Dashboard
另一个Dashboard主要是能够对本站的访问情况就是实时展示: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Apache%20Acess%20Log
我更感兴趣的是Live Data Stream Analysis, 比如这个视频中Databricks的Demo:
https://www.youtube.com/watch?v=dJQ5lV5Tldw&list=
PLcI18OaXgJ1ucFdq6xWkLoKzP1T_R5mVD
我建了一个3个nodes的Spark cluster in standalone mode, 有了这个利器,却不知
道如何利用!请问有没有大牛能分享一些能够运行的,并建立在Kafka + Spark
Streaming(Java 或Scala最好) + ElasticSearch基础上project。最好能有一个
WebApp. 在网上搜了一通, 没有一个能正在做End to End demo 的系统解决方案。
可以私信联系。
s*********h
发帖数: 6288
2
牛!
l******n
发帖数: 9344
3
这种系统本身搭建是比较容易,关键问题是你怎么证明你的价值,怎么operation,否
则就基本是个玩具。那个twitter的例子,不要停留在关键字上,至少要加上
sentimental analysis给出tweets的态度,然后再结合关键字地理信息,会有些有意思
的结果。直白的BI是没有啥意义的,必须加上中间的一些处理。特别你focus到brand,
比如消费用品,你就可以卖给别人说你应该怎么做marketing了。
BTW,你的twitter的网页好像不是real time的,很慢呀

Dashboards

【在 d****n 的大作中提到】
: 我最近对Open Source Business Solution很感兴趣。试着搭建了一个Prototype网站:
: http://pbies.cloudapp.net/kibana3
: 这个网站利用ElasticSearch,Logstash,Kibana三个开源项目,提供两个Dashboards
: ,其中一个能从Twitter用户的Tweets搜索关键字,显示hot topic以及用户地理分布信
: 息。
: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Twitter%20Live%20Dashboard
: 另一个Dashboard主要是能够对本站的访问情况就是实时展示: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Apache%20Acess%20Log
: 我更感兴趣的是Live Data Stream Analysis, 比如这个视频中Databricks的Demo:
: https://www.youtube.com/watch?v=dJQ5lV5Tldw&list=
: PLcI18OaXgJ1ucFdq6xWkLoKzP1T_R5mVD

d****n
发帖数: 233
4
现在还只是个玩具, 因为还不是真正的产品,No optimization or security. Lot of
things are missing. 只是一些功能验证而已。 我正在研究如何用Spark streaming
+ MLib做一些real time data streaming and analysis including trend or
sentimental analysis. 对Spark还不熟,希望能得到哪位对Spark streaming有实践经
验的大牛指点。

【在 l******n 的大作中提到】
: 这种系统本身搭建是比较容易,关键问题是你怎么证明你的价值,怎么operation,否
: 则就基本是个玩具。那个twitter的例子,不要停留在关键字上,至少要加上
: sentimental analysis给出tweets的态度,然后再结合关键字地理信息,会有些有意思
: 的结果。直白的BI是没有啥意义的,必须加上中间的一些处理。特别你focus到brand,
: 比如消费用品,你就可以卖给别人说你应该怎么做marketing了。
: BTW,你的twitter的网页好像不是real time的,很慢呀
:
: Dashboards

l******n
发帖数: 9344
5
github上不少例子

of
streaming

【在 d****n 的大作中提到】
: 现在还只是个玩具, 因为还不是真正的产品,No optimization or security. Lot of
: things are missing. 只是一些功能验证而已。 我正在研究如何用Spark streaming
: + MLib做一些real time data streaming and analysis including trend or
: sentimental analysis. 对Spark还不熟,希望能得到哪位对Spark streaming有实践经
: 验的大牛指点。

d****n
发帖数: 233
6
是的,不过我到目前为止还没有找到一个带Web App的例子,个人对JavaScript不太熟
悉也没有太多时间搞Web前端。能想到的是把分析数据放到ElasticSearch中,再通过
Kibana做visualization。

【在 l******n 的大作中提到】
: github上不少例子
:
: of
: streaming

n*****3
发帖数: 1584
7
我们 group 2015
要把R的prototype
在 spark cluster
上 develop nearly
realtime system
with spark stream。
我们是有专门的front
end guy 做的。你想要
easy quick solution,
恐怕没有。
BTW spark stream
例子 GitHub不多啊,
都是一些 toy case

【在 l******n 的大作中提到】
: github上不少例子
:
: of
: streaming

l******n
发帖数: 9344
8
前段都是自己做的,这个需要domain knowledge
你说的webapp就是一个visualization的工具吧?如果是的话,有一些商业的产品可以
直接用,比如tableau,salesforce wave,datazen之类的,简单的自己写就好了

【在 d****n 的大作中提到】
: 是的,不过我到目前为止还没有找到一个带Web App的例子,个人对JavaScript不太熟
: 悉也没有太多时间搞Web前端。能想到的是把分析数据放到ElasticSearch中,再通过
: Kibana做visualization。

l******n
发帖数: 9344
9
都是demo之类的,真实的use case怎么会给你看?大的构架都差不多了,看你自己的需
要,都能够figure out.

【在 n*****3 的大作中提到】
: 我们 group 2015
: 要把R的prototype
: 在 spark cluster
: 上 develop nearly
: realtime system
: with spark stream。
: 我们是有专门的front
: end guy 做的。你想要
: easy quick solution,
: 恐怕没有。

x*******o
发帖数: 5
10
Wow, this is cool!
Agree with longtian, if you could engage some business clients, tune the
platform based on business needs, and help answer business questions, the
platform would become a product or cool feature.
相关主题
如何获取网页数据?三星samsung创新部门招大数据工程师 (转载)
有没有人可以给个hadoop streaming with python classifivation的列子啊公司有一些hadoop的session,大家看看那些值得去听
大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)data scientist opening (San Francisco)
进入DataSciences版参与讨论
d****n
发帖数: 233
11
谢谢,我说的Web App就是指在desktop,mobile device的visualization。其实我现在
所在的部门就是做BI的, 而且有非常酷的Data exploration和visualization
experience。不过都不是Open source project。 对于Visualization来说, 现在流行
的技术是Angular JS + D3.
个人对backend技术感兴趣更多一些。

【在 l******n 的大作中提到】
: 前段都是自己做的,这个需要domain knowledge
: 你说的webapp就是一个visualization的工具吧?如果是的话,有一些商业的产品可以
: 直接用,比如tableau,salesforce wave,datazen之类的,简单的自己写就好了

l******n
发帖数: 9344
12
你说这个呀,你说的很cool的bi是啥?d3现在是挺火,而且很多wrapper,比如你在r里
边用d3就很容易。

【在 d****n 的大作中提到】
: 谢谢,我说的Web App就是指在desktop,mobile device的visualization。其实我现在
: 所在的部门就是做BI的, 而且有非常酷的Data exploration和visualization
: experience。不过都不是Open source project。 对于Visualization来说, 现在流行
: 的技术是Angular JS + D3.
: 个人对backend技术感兴趣更多一些。

d****n
发帖数: 233
13
是的。在此不方便透露我说的bi。还请谅解!

【在 l******n 的大作中提到】
: 你说这个呀,你说的很cool的bi是啥?d3现在是挺火,而且很多wrapper,比如你在r里
: 边用d3就很容易。

l******n
发帖数: 9344
14
啥公司,要这么保密?市场上的产品就这些,差不了太多。
搞半天就想套套别人的东西,说到自己的就是不方便。

【在 d****n 的大作中提到】
: 是的。在此不方便透露我说的bi。还请谅解!
f***8
发帖数: 571
15
大侠也别太在意,durbin同学能够分享自己做的prototype应该鼓励。

【在 l******n 的大作中提到】
: 啥公司,要这么保密?市场上的产品就这些,差不了太多。
: 搞半天就想套套别人的东西,说到自己的就是不方便。

d****n
发帖数: 233
16
是的,我是想给大家展示一下基于开源程序搭建起来的平台,同时想问大牛们一些
Spark Streaming和Kafka集成的例子。因为觉得Spark已经或即将成为在大数据处理及
machine learning方面的主流framework。并没有想套哪家属于商业秘密的东西。正如
楼上所说的,商业的东西也不是在这里能套得了的!
大家也看到了, 这个网站并没有一个具体的商业模式,没有scalability,
availability, performance, security and service protection 离真正的产品还差
很多. 纯技术分享与讨论。

【在 f***8 的大作中提到】
: 大侠也别太在意,durbin同学能够分享自己做的prototype应该鼓励。
s*******d
发帖数: 132
17
很有意思。还是要在ML上做点文章,text mining 还是有很多可以做的
n*****3
发帖数: 1584
18
谢谢指点。 构架差不多, 但 什么 时候用 SPARK/STREAM, 什么时候scala(
independent of Spark), 好像还要很多trick, spark/stream 毕竟 太新了。。。
BTW tableau 是 很好, 但 computing 方面 还比较弱;我们其他projects 是 call R
do some
calculation/simple model, 但 to fitin THE spark EGO system, we have
not found any good solution yet.

【在 l******n 的大作中提到】
: 都是demo之类的,真实的use case怎么会给你看?大的构架都差不多了,看你自己的需
: 要,都能够figure out.

c******f
发帖数: 243
19
lambda-architecture dot net不是很多例子吗
1 (共1页)
进入DataSciences版参与讨论
相关主题
新年要招人了一个困扰我一段时间的问题:big data为什么要搞ml那些algorithm?
帮朋友招人: 要很强business solution的senior level data scientist如何获取网页数据?
Aetna position: Digital Media Analyst - SAS, R, Python, Tableau in New York, New York有没有人可以给个hadoop streaming with python classifivation的列子啊
Big data是下一个大坑吗大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)
都用了spark了吗?三星samsung创新部门招大数据工程师 (转载)
有人去上过insight data science吗?公司有一些hadoop的session,大家看看那些值得去听
推荐一下Shiny Dashboarddata scientist opening (San Francisco)
social media dataFree Session: Big Data Real User Case in Financing
相关话题的讨论汇总
话题: spark话题: streaming话题: business话题: kafka