d****n 发帖数: 233 | 1 我最近对Open Source Business Solution很感兴趣。试着搭建了一个Prototype网站:
http://pbies.cloudapp.net/kibana3
这个网站利用ElasticSearch,Logstash,Kibana三个开源项目,提供两个Dashboards
,其中一个能从Twitter用户的Tweets搜索关键字,显示hot topic以及用户地理分布信
息。
http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Twitter%20Live%20Dashboard
另一个Dashboard主要是能够对本站的访问情况就是实时展示: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Apache%20Acess%20Log
我更感兴趣的是Live Data Stream Analysis, 比如这个视频中Databricks的Demo:
https://www.youtube.com/watch?v=dJQ5lV5Tldw&list=
PLcI18OaXgJ1ucFdq6xWkLoKzP1T_R5mVD
我建了一个3个nodes的Spark cluster in standalone mode, 有了这个利器,却不知
道如何利用!请问有没有大牛能分享一些能够运行的,并建立在Kafka + Spark
Streaming(Java 或Scala最好) + ElasticSearch基础上project。最好能有一个
WebApp. 在网上搜了一通, 没有一个能正在做End to End demo 的系统解决方案。
可以私信联系。
|
s*********h 发帖数: 6288 | |
l******n 发帖数: 9344 | 3 这种系统本身搭建是比较容易,关键问题是你怎么证明你的价值,怎么operation,否
则就基本是个玩具。那个twitter的例子,不要停留在关键字上,至少要加上
sentimental analysis给出tweets的态度,然后再结合关键字地理信息,会有些有意思
的结果。直白的BI是没有啥意义的,必须加上中间的一些处理。特别你focus到brand,
比如消费用品,你就可以卖给别人说你应该怎么做marketing了。
BTW,你的twitter的网页好像不是real time的,很慢呀
Dashboards
【在 d****n 的大作中提到】 : 我最近对Open Source Business Solution很感兴趣。试着搭建了一个Prototype网站: : http://pbies.cloudapp.net/kibana3 : 这个网站利用ElasticSearch,Logstash,Kibana三个开源项目,提供两个Dashboards : ,其中一个能从Twitter用户的Tweets搜索关键字,显示hot topic以及用户地理分布信 : 息。 : http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Twitter%20Live%20Dashboard : 另一个Dashboard主要是能够对本站的访问情况就是实时展示: http://pbies.cloudapp.net/kibana3/index.html#/dashboard/elasticsearch/Apache%20Acess%20Log : 我更感兴趣的是Live Data Stream Analysis, 比如这个视频中Databricks的Demo: : https://www.youtube.com/watch?v=dJQ5lV5Tldw&list= : PLcI18OaXgJ1ucFdq6xWkLoKzP1T_R5mVD
|
d****n 发帖数: 233 | 4 现在还只是个玩具, 因为还不是真正的产品,No optimization or security. Lot of
things are missing. 只是一些功能验证而已。 我正在研究如何用Spark streaming
+ MLib做一些real time data streaming and analysis including trend or
sentimental analysis. 对Spark还不熟,希望能得到哪位对Spark streaming有实践经
验的大牛指点。
【在 l******n 的大作中提到】 : 这种系统本身搭建是比较容易,关键问题是你怎么证明你的价值,怎么operation,否 : 则就基本是个玩具。那个twitter的例子,不要停留在关键字上,至少要加上 : sentimental analysis给出tweets的态度,然后再结合关键字地理信息,会有些有意思 : 的结果。直白的BI是没有啥意义的,必须加上中间的一些处理。特别你focus到brand, : 比如消费用品,你就可以卖给别人说你应该怎么做marketing了。 : BTW,你的twitter的网页好像不是real time的,很慢呀 : : Dashboards
|
l******n 发帖数: 9344 | 5 github上不少例子
of
streaming
【在 d****n 的大作中提到】 : 现在还只是个玩具, 因为还不是真正的产品,No optimization or security. Lot of : things are missing. 只是一些功能验证而已。 我正在研究如何用Spark streaming : + MLib做一些real time data streaming and analysis including trend or : sentimental analysis. 对Spark还不熟,希望能得到哪位对Spark streaming有实践经 : 验的大牛指点。
|
d****n 发帖数: 233 | 6 是的,不过我到目前为止还没有找到一个带Web App的例子,个人对JavaScript不太熟
悉也没有太多时间搞Web前端。能想到的是把分析数据放到ElasticSearch中,再通过
Kibana做visualization。
【在 l******n 的大作中提到】 : github上不少例子 : : of : streaming
|
n*****3 发帖数: 1584 | 7 我们 group 2015
要把R的prototype
在 spark cluster
上 develop nearly
realtime system
with spark stream。
我们是有专门的front
end guy 做的。你想要
easy quick solution,
恐怕没有。
BTW spark stream
例子 GitHub不多啊,
都是一些 toy case
【在 l******n 的大作中提到】 : github上不少例子 : : of : streaming
|
l******n 发帖数: 9344 | 8 前段都是自己做的,这个需要domain knowledge
你说的webapp就是一个visualization的工具吧?如果是的话,有一些商业的产品可以
直接用,比如tableau,salesforce wave,datazen之类的,简单的自己写就好了
【在 d****n 的大作中提到】 : 是的,不过我到目前为止还没有找到一个带Web App的例子,个人对JavaScript不太熟 : 悉也没有太多时间搞Web前端。能想到的是把分析数据放到ElasticSearch中,再通过 : Kibana做visualization。
|
l******n 发帖数: 9344 | 9 都是demo之类的,真实的use case怎么会给你看?大的构架都差不多了,看你自己的需
要,都能够figure out.
【在 n*****3 的大作中提到】 : 我们 group 2015 : 要把R的prototype : 在 spark cluster : 上 develop nearly : realtime system : with spark stream。 : 我们是有专门的front : end guy 做的。你想要 : easy quick solution, : 恐怕没有。
|
x*******o 发帖数: 5 | 10 Wow, this is cool!
Agree with longtian, if you could engage some business clients, tune the
platform based on business needs, and help answer business questions, the
platform would become a product or cool feature. |
|
|
d****n 发帖数: 233 | 11 谢谢,我说的Web App就是指在desktop,mobile device的visualization。其实我现在
所在的部门就是做BI的, 而且有非常酷的Data exploration和visualization
experience。不过都不是Open source project。 对于Visualization来说, 现在流行
的技术是Angular JS + D3.
个人对backend技术感兴趣更多一些。
【在 l******n 的大作中提到】 : 前段都是自己做的,这个需要domain knowledge : 你说的webapp就是一个visualization的工具吧?如果是的话,有一些商业的产品可以 : 直接用,比如tableau,salesforce wave,datazen之类的,简单的自己写就好了
|
l******n 发帖数: 9344 | 12 你说这个呀,你说的很cool的bi是啥?d3现在是挺火,而且很多wrapper,比如你在r里
边用d3就很容易。
【在 d****n 的大作中提到】 : 谢谢,我说的Web App就是指在desktop,mobile device的visualization。其实我现在 : 所在的部门就是做BI的, 而且有非常酷的Data exploration和visualization : experience。不过都不是Open source project。 对于Visualization来说, 现在流行 : 的技术是Angular JS + D3. : 个人对backend技术感兴趣更多一些。
|
d****n 发帖数: 233 | 13 是的。在此不方便透露我说的bi。还请谅解!
【在 l******n 的大作中提到】 : 你说这个呀,你说的很cool的bi是啥?d3现在是挺火,而且很多wrapper,比如你在r里 : 边用d3就很容易。
|
l******n 发帖数: 9344 | 14 啥公司,要这么保密?市场上的产品就这些,差不了太多。
搞半天就想套套别人的东西,说到自己的就是不方便。
【在 d****n 的大作中提到】 : 是的。在此不方便透露我说的bi。还请谅解!
|
f***8 发帖数: 571 | 15 大侠也别太在意,durbin同学能够分享自己做的prototype应该鼓励。
【在 l******n 的大作中提到】 : 啥公司,要这么保密?市场上的产品就这些,差不了太多。 : 搞半天就想套套别人的东西,说到自己的就是不方便。
|
d****n 发帖数: 233 | 16 是的,我是想给大家展示一下基于开源程序搭建起来的平台,同时想问大牛们一些
Spark Streaming和Kafka集成的例子。因为觉得Spark已经或即将成为在大数据处理及
machine learning方面的主流framework。并没有想套哪家属于商业秘密的东西。正如
楼上所说的,商业的东西也不是在这里能套得了的!
大家也看到了, 这个网站并没有一个具体的商业模式,没有scalability,
availability, performance, security and service protection 离真正的产品还差
很多. 纯技术分享与讨论。
【在 f***8 的大作中提到】 : 大侠也别太在意,durbin同学能够分享自己做的prototype应该鼓励。
|
s*******d 发帖数: 132 | 17 很有意思。还是要在ML上做点文章,text mining 还是有很多可以做的 |
n*****3 发帖数: 1584 | 18 谢谢指点。 构架差不多, 但 什么 时候用 SPARK/STREAM, 什么时候scala(
independent of Spark), 好像还要很多trick, spark/stream 毕竟 太新了。。。
BTW tableau 是 很好, 但 computing 方面 还比较弱;我们其他projects 是 call R
do some
calculation/simple model, 但 to fitin THE spark EGO system, we have
not found any good solution yet.
【在 l******n 的大作中提到】 : 都是demo之类的,真实的use case怎么会给你看?大的构架都差不多了,看你自己的需 : 要,都能够figure out.
|
c******f 发帖数: 243 | 19 lambda-architecture dot net不是很多例子吗 |