关于flink的讨论汇总 - 话题女王

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

February 22, 2015 Nicole Hemsoth
art2
If you haven’t heard of Flink until now, get ready for the deluge. As one
of a stream of Apache incubator-to-top-level projects turned commercial
effort, the data processing engine’s promise is to deliver near-real time
handling of data analytics in a much faster, more condensed, and memory-
aware way than Hadoop or its in-memory predecessor, Spark, could do.
What really captured our attention, however, was the claim by Data Artisans,
the company behind Flin... 阅读全帖

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

Batch is a special case of streaming
Posted on September 15, 2015 by Kostas Tzoumas
In recent blog posts, we introduced what we deem as requirements for systems
to classify as stream processors, and followed up with a detailed
comparison of current approaches to data streaming, including extensive
experiments comparing Apache Flink and Apache Storm.
We are not the only ones to make the point that streaming systems are
reaching a point of maturity which makes older batch systems and
architectures... 阅读全帖

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

真正的大牛是楼主，我只是一个小混混，也只是停留在成天研究这些眼花缭乱的层次里
面。
技术的选择主要是根据你所要解决的具体问题而定。你可以描述一下需求，大家一起深
入讨论一下。
如果你只是单纯的学习，那么选择学Spark或者Flink，甚至老旧的MapReduce和最先进
的Dataflow，都无所谓。因为他们的编程模式差别不大，连同语法都差不多一样。例如
，你可以用这样的组合：
Spark的书：
http://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analys
+
Spark AMPCamp训练:
http://ampcamp.berkeley.edu/
+
Flink的batch文档:
http://ci.apache.org/projects/flink/flink-docs-master/apis/prog
+
Flink的streaming文档:
http://ci.apache.org/projects/flink/flink-docs-master/apis/stre
+
Flink的online trainin... 阅读全帖

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

Spark采用batch engine来处理数据; Flink采用stream engine处理数据。
Spark的streaming process = micro batch; Flink的batch process = streaming
process的特殊情况。
在现实世界里，大数据平台处理数据的过程就好比油罐车拉原油的过程。你可以调用油
罐车队批量拉油（spark micro batch)，也修建石油管道直接输送原油（Flink
streaming）。
在计算机领域里，两个大数据平台的本质其是源于对Unix Pipes在分布式环境下的演化
。下面用Linux自带的工具举个例子，来比较一下Spark和Flink的不同点。假设我们想
统计FileA里面的关键字China的总数：
Spark的处理模式可以等效为: cat FileA > /dev/shm/RDD1; grep China /dev/shm/
RDD1 > /dev/shm/RDD2; wc -l /dev/shm/RDD2 > /dev/shm/FileB
Flink的处理模式可以等效为: cat File... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

可能hdfs也值得带走吧
hbase就算了吧，不太想用
postgre+cassandra+flink
应该可以满足绝大多数需要了
flink可以替换掉yarn, spark, storm & hdmr
cassandra，postgre可以替换掉hbase，mongo
剩下的交给vert.x
酱紫大概用4-5个框架，就可以解决几乎所有目前已知需求
sql/db, nosql/batch, streaming, script, web, web service, thread pool etc.
如果将来有一个vert.x based & flink-like system
而非akka based systems(spark&flink)
那就是一个终极解决方案，要有人这么搞就太好了
话说nosql真麻烦啊
一般db的话，一个jdbc就搞掂了，顶多说异步的话，需要启一个worker
但是nosql还要折腾mr，yarn, spark, flink这些，麻烦不少

z****e
发帖数: 54598

来自主题: Programming版 - Flink可以contribute

flink如果会抄，那是好事
就怕有人装逼，明摆着好用的成功的经验不去抄
偏偏要自己搞一套，这种一般都是作死
flink如果懂得抄，那看来前途光明啊
spark的streaming部分做得不是很好，storm要强不少
flink如果能直接抄这两个的就好了，懂得抄的人才能进步

d******e
发帖数: 2265

来自主题: Programming版 - 赵老师讲讲flink

Flink flips this on its head. Whereas Spark is a batch processing framework
that can approximate stream processing, Flink is primarily a stream
processing framework that can look like a batch processor. Immediately you
get the benefit of being able to use the same algorithms in both streaming
and batch modes (exactly as you do in Spark), but you no longer have to turn
to a technology like Apache Storm if you require low-latency responsiveness
. You get all you need in one framework, without the ... 阅读全帖

z*******3
发帖数: 13709

来自主题: Programming版 - 赵老师讲讲flink

flink还没有成熟啊，现在用flink也不合适
storm其实也是一个chain/pipline
如果用storm的话，需要自己做adapter，集成storm&hadoop/c* etc.
如果不怕将来改代码的话，上flink也没啥大不了
就是万一出现什么api的改动，将来要重构代码会很烦
如果不是为了nosql考虑的话
java8自己有stream api
rxjava也有stream，还有scalaz这些
用这些自己裸写也没啥大不了的

z****e
发帖数: 54598

来自主题: Programming版 - Flink可以contribute

http://flink.apache.org/how-to-contribute.html
看了看，他们jira上有不少问题
很多都是starter级别的
可以尝试着去搞定
跟spark不同的一点是，flink大部分代码是java
只有10%左右是scala，spark则反过来

x***4
发帖数: 1815

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

谁讲讲flink和spark有什么本质区别？我很表面的理解，spark也支持streaming（rdd
based mini batch），这个和flink的streaming有什么不同？

z****e
发帖数: 54598

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

现在hadoop eco里面有啥值得留恋的？
我就觉得cassandra不错，值得带走
其他的pig，hive啥的，也就那么一回事
spark已经收割了一轮了，之后flink出来之后如果再收割一轮
也就没啥剩下的了？
前几年写的系统很快又要凹凸了，哎
话说回来，对flink还是充满着期待啊
datastream+dataset模式比较符合人的本能设计

f********x
发帖数: 99

来自主题: Programming版 - 赵老师讲讲flink

楼主的需求太模糊，能否详细描述一下。Flink的优势在于batch processing over
stream 和 pipelined parallelism/processing。下面是几个典型应用场景 :
1. 无线运营商 Bouygues Telecom (并行处理大量事务)
http://data-artisans.com/flink-at-bouygues.html
2. 更多案例：
http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli

framework
turn
responsiveness
programming

z****e
发帖数: 54598

来自主题: Programming版 - Flink可以contribute

认真看了看，我觉得如果真想贡献的话
flink真是一个不错的开始，现阶段正好
人也不多，可以搞的也多

h*i
发帖数: 3446

来自主题: Programming版 - Flink可以contribute

Wasn't someone on this board accusing flink of copying spark code?

c*******9
发帖数: 9032

来自主题: Programming版 - Flink可以contribute

Flink的scala比例越来越大，很多java写的功能改成scala了。

a*****s
发帖数: 1121

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

看好flink

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

The world beyond batch: Streaming 101: A high-level tour of modern data-
processing concept
http://radar.oreilly.com/2015/08/the-world-beyond-batch-streami
by Tyler Akidau August 5, 2015
Editor’s note: This is the first post in a two-part series about the
evolution of data processing, with a focus on streaming systems, unbounded
data sets, and the future of big data.
Streaming data processing is a big deal in big data these days, and for good
reasons. Amongst them:
Businesses crave ever more tim... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

etl用datastream，这个是最值得注意的部分啊
要不然就用spark了
sql用table api，这个纯粹是脚本引擎
这个如果不是只懂sql的话，不用也没啥大不了的
反正我感觉大部分dev对于sql都不是特别热爱
跟js差不多，多数都是一种够用便可的态度
yarn跟dataset也就是batch processing
也就是spark，flink这些几乎是直接竞争关系
虽说这两个都可以over yarn，但是貌似不用yarn也没啥大不了的
好像还更快一点，除非要用hpc这些，那yarn会比较方便

z*******3
发帖数: 13709

来自主题: Programming版 - 赵老师讲讲flink

先区分是不是reactive
reactive最快最有效率，来一个就处理一个
vert.x的是rxjava，天生就是reactive
akka和storm需要通过插件来改成reactive
flink的streaming目前是window&trigger，并不是reactive的
也不是最快的，但是比spark的microbatch要强一点点
跟不改reactive的storm类似
spark的是microbatch
如果要做成reactive的话
第一步改成getSeed.subscribe(datasource)
然后datasource.publish之后，就自动启动这一套逻辑
akka就可以publish，vert.x就可以subscribe akka

f******2
发帖数: 2455

来自主题: Programming版 - 有人看好flink和storm吗

Storm肯定不行，没有独立公司在后面支持。
flink就看能不能融到一笔能让他们grow customer base的钱了。
我最近发现开源的公司/产品必须做好两个战线：
1. 社区（后来的dev人员发现周围赚大钱的人都在谈这事儿）
2. 生产级别的客户（后来的executive感觉放心）
这样上下一呼吁，公司就选择这个stack了。
2c

r*****2
发帖数: 2682

来自主题: Military版 - 女教师与3学生玩4P 指使3学生旁观录像

Haltom City, TX (The Weekly Vice) - Tonya Flink, a 39-year-old computer
technology teacher at Haltom High School has been jailed after she allegedly
had sex with four students in a single year.
According to Haltom City Police, an investigation was launched in September
2011 after the parents of a former Haltom High student contacted authorities
to report that Flink had engaged in an inappropriate relationship with
their son while he was a student at the school.
The parents told detectives that t... 阅读全帖

r********n
发帖数: 7

来自主题: Programming版 - Spark已经out了，能跳船的赶快

楼主会这么说应该对两个项目本身和项目背后的团队都不是很了解吧。Spark并不是一
个in-memory Hadoop。关于这个，可以参见我Quora的回答： https://www.quora.com/
How-does-Apache-Spark-work/answer/Reynold-Xin
Flink以前名字叫做Stratosphere，其实和Spark一样也有五年的历史了，但是一直不温
不火的。成熟度比Spark差了很远，参与Flink社区的人不到Spark的五分之一。
个人意见：Flink之所以不温不火的一个原因就是用了太多数据库的传统设计，反而忽略
了这些设计对实际应用的阻碍。很多这些设计在SQL query上是很有价值的，但是对于
general program却可能得不偿失。
比如说Flink一直比较崇尚从头到尾的declarative，希望你把整个程序从头到尾的都用
他的框架来写。比如一个简单的while/for loop，本来编程语言里面已经有内置的loop
了，但是他却强迫用户利用他框架内置的loop的API。这样子的下场是程序员如果要用
这个框架，反而需要去学习更... 阅读全帖

z*******3
发帖数: 13709

来自主题: Programming版 - IBM is all into Spark

怎么可能不值一驳
diversity好，软件产品尤其需要diversity
一家独大对谁来说都是不利的
现阶段flink还没有正式推出，有点像当年我们搞storm时候看spark的感觉
倒是如果你想contribute的话，这个时候是非常好的参与flink的机会
spark人满为患，这个时候再凑过去，顶多就是一个用户，人家也不需要你的贡献
spark有spark自己的问题，比如streaming就不怎样，设计上有缺陷
rdd是好东西，但是把所有的东西都搞成rdd，那又是另外一回事了
就像singlethreadness是容易，但是把所有东西都搞成single thread
那又是另外一回事了，flink的core就是streaming的，如果你对scala还有java敏感的话
应该可以感觉出来，streaming好像是future啊，streaming一捅到底那种感觉非常美妙
完全畅通无阻那种感觉，vert.x和flink都在强调streaming，还有scala那一堆东西
比起flink来说，vert.x的机会更大
vert.x替代akka应该是大势所趋，akka稍微复杂一点的rea... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?

/.
standalone可以单独部署在集群上，并不是一个toy example用的
我倒是很奇怪，你们居然没有丢掉yarn这些东西
不过我是不用yarn，我觉得yarn太过于复杂了
大部分工作我用vert.x可以很快完成，直接操作c*，调度我自己写
yarn一堆api搞得跟ejb一样繁琐，什么container，context都来了
spark应该是直接替换yarn，这才是standalone模式的初衷
这个应该才是spark最初的目的才对，而不是run spark over yarn
这个感觉怪怪的，反正我不用yarn，不知道其他人怎样
对于spark的需求主要集中在mllib，其他的其实没啥，如果是streaming的话
用storm就好，不过我也不想这样换来换去，如果flink将来能解决这个问题的话
我就切换到flink上去，反正我现在也只用了mllib
剩下的crud，这个不用spark/flink这些，直接用c*的api就可以做很多了
cql连查询都帮你搞了不少，就更没有必要麻烦spark/flink了

z*******3
发帖数: 13709

来自主题: Programming版 - IBM is all into Spark

spark的streaming的对比看这个slides
http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streami
flink还没推出，但是从设计上看，应该不会有类似的问题
我感觉最近streaming的需求越来越强烈
需要一个针对前后端都能够搞streaming的东东
vert.x是一个很不错的选择，但是vert.x对付c*之类的nosql，还显得工具偏少
另外mllib这些lib目前只能host在spark,flink这些上面，vert.x还缺少类似的libs
vert.x毕竟更为general一些，但其实你自己琢磨琢磨也没啥难的
无非那么一回事了，mapreduce那些api，跟rxjava有很大重叠
可以用rxjava实现一遍，主要是算法，mllib部分，clustering，svm etc.
api的话，什么flatmap，streaming之类的rx都有了，vert.x成熟之后大有可为
vert.x, rxjava, flink这些逐步走向成熟，过程值得学习和参考
当然spark之类已经取得巨大成功的更值得... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 现在公司用storm的还多么？

现在flink在强调它的streaming比spark强，跟storm一致
等flink出来之后又是一番厮杀

z****e
发帖数: 54598

来自主题: JobHunting版 - storm和spark, maprduce比有什么优势？

苹果橘子了
storm在streaming上目前还没有竞争对手
唯一麻烦的就是clojure
随着java8开始出现streaming api
storm的优势也在被逐渐蚕食
flink出来以后这两个对比会更清楚一点
flink的streaming和dataset处理是分离的api

z****e
发帖数: 54598

来自主题: JobHunting版 - 大龄转行大妈选课求意见：到底是developer还是 data s

你现在这种情况，能找到工作就可以了
切忌好高骛远，所谓ds，看名字就知道了
scientist，这严格说来不是工业界的职位
是大学的职位，工业界有，但是主要是少数几个大公司
尤其是互联网公司居多，弄出来的一个职位
如果你不是phd，没有几篇像样的paper
这个职位并不适合你，绝逼不是什么到处都有的工作
你如果不在加州，或者不在湾区，我怀疑你能否找到这样的岗位
至少我是没听说过，但是程序员职位到处都是，哪里都在招
感觉是个城市就有人做这个
另外，现在工业界主流是java，至少是jvm
所谓python，那个是学术界用的东西
因为学术界只关心theory，只要theory对
你用什么都可以，但是这是理论上
工业界要能运行，要能维护，还要不出错
python代码当年我在大学时候，第一次作业就把叫兽看晕过去
给了我一个c，麻痹，说看不懂我的代码
这几乎是所有脚本都有的问题，不仅仅是py，还有js
也是如此，java代码是目前为止可读性最强
唯一被切实证明可以维护的语言，所以绝大多数公司的系统
都是java，或者至少跟java是类似的语言
所以在这个基础之上，弄出了spark, hadoop这... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 大龄转行大妈选课求意见：到底是developer还是 data s

发帖数: 1

来自主题: JobHunting版 - Alibaba全球找华人技术牛人！！！

Alibaba全球找华人技术牛人！！！
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘，欢迎
各位同胞们联系我
以下重要紧急职位必要要求：PHD毕业至少3年，Master毕业至少五年以上工作经验，年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="92763128a3aaa4a3a4a0a1a1a3a4a1d2a3a4a1bcf1fdff">[email protected]/* */ 微信：18616233163 QQ：2095226802
Base：杭州/硅谷圣马特奥职位（越资深越好）
基础架构事业群-资深网络研发专家网络研发，网络管理，网络工具，系统
软件开发，分布式系统, SDN
基础架构事业群-Machine Learning资深专家 IDC智能运维、Data Scientist、
Machine Learning、PUE
基础架构事业群-资深平台业务架构师 IDC智... 阅读全帖

c*****8
发帖数: 23

来自主题: JobHunting版 - ［内推］HERE map 西雅图/芝加哥office 高薪急召多个核心研发

有兴趣的同学请发站内信，帮忙介绍的同学如果内推成功，可平分奖金：）
email: [email protected]
Sr Software Engineer - Data Science Pipeline - Big Data, Java, Python
Job LocationsUS-IL-Chicago
Qualifications
A BS or MS in Computer Science or related field
5+ years of programming experience Java, Python, and Java Script.
3+ years of working experience with AWS services (EC2, SNS, SQS, S3, EMR,
Data Pipeline, VPC and etc.)
Development experience of Web Services (RESTful, SOAP)
Development experience with web application framewor... 阅读全帖

j****g
发帖数: 17

来自主题: JobMarket版 - Alibaba全球找华人技术牛人

7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘，欢迎各位同胞们联系我
以下职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case by case！
工程业务团队资深岗位关键词
会员平台资深产品专家海外经历、用户产品
技术质量资深测试架构师技术质量、软件测试、测试框架
技术质量资深工程效能专家工程效能、内部协同、效率提升
创新业务&评价资深技术专家信用评价、业务架构
数据服务资深算法专家推荐系统、广告系统、机器学习，VR等
数据服务资深数据科学家 NLP、知识图谱等
数据服务资深数据产品专家大数据、国际化
营销平台资深营销交易产品专家全球化、产品规划
营销平台资深架构师电商架构、分布式业务架构
结算&支付平台资深支付域... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 招Java Developer(3years+)@西雅图 Sponsor H1B/Green Card

eBay西雅图Big Data Team招聘Backend Engineer(real time)，要求3年+Java开发经验
，熟悉Hadoop/Spark/Flink优先，有兴趣的小伙伴可以发简历到 👉[email protected]
gmail.com
Responsibilities:
Implement proof-of-concept prototypes for data collection, analysis, and
presentation.
Technical lead for new and existing product initiatives, assist with
definition of product direction
Define, design, troubleshoot, and debug complex, multi-tier distributed
software applications on eBay platform.
Implement intuitive UI visualizations ... 阅读全帖

b*****d
发帖数: 1900

来自主题: Carolinas版 - 买手表

可以找他们要10%discount.那个flink好像也有？可能spell错了。。。flink's?
还有个省tax的办法。找一个别州的没有那个店的同学，出点shipping运到哪里去。。。

c*****8
发帖数: 23

来自主题: Chicago版 - ［内推］HERE map 芝加哥office 高薪急召多个核心研发职位

有兴趣的同学请发站内信，帮忙介绍的同学如果内推成功，可平分奖金：）
Sr Software Engineer - Data Science Pipeline - Big Data, Java, Python
Job LocationsUS-IL-Chicago
Qualifications
A BS or MS in Computer Science or related field
5+ years of programming experience Java, Python, and Java Script.
3+ years of working experience with AWS services (EC2, SNS, SQS, S3, EMR,
Data Pipeline, VPC and etc.)
Development experience of Web Services (RESTful, SOAP)
Development experience with web application frameworks - Spring /Spring Boot
/Angu... 阅读全帖

c******o
发帖数: 1277

来自主题: Programming版 - jun rao说kafka已经开始用Java代码重写部分code了

这个scala days 我的感觉就是都是big data analysis.
基本上一半以上是spark/akka
scala还是有点门路的。apache newest top level project （为啥要再有一个和spark
一样用处的东东？）
https://flink.apache.org/也是先有 java/scala api
flink基本是java，很少量scala

h****r
发帖数: 2056

来自主题: Programming版 - Spark已经out了，能跳船的赶快

Java的各种所谓高级武器也都简单易用，只需要你肯学。
Flink抛弃了RPC，采用了akka，这个可是scala写的东西。Flink只是core用java而已。

z****e
发帖数: 54598

来自主题: Programming版 - spark contributors

主要是这一块目前不做spark也没有其他东西可以搞了
jvm - hadoop - spark这一块上来，基本上是没有什么替代品的
所以一堆人都往这上面去扎堆，人多了，这些东西虽然单看量很大
但是投入的人多了，均摊到每一个人头上去，也未必有多少
不过这个局面等flink出来之后，可能会有所改变
flink还在0.8，应该也快了

z****e
发帖数: 54598

来自主题: Programming版 - spark contributors

看了看，flink的contributor人还比较少
不如contribute flink

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

这么做是不是因为依赖了akka的缘故？
immutable真是一个十分无聊的设计
对这个feature实在是无爱
flink只要能改掉这个设计，俺们就换flink
要不然一下storm一下spark的，有些蛋疼

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

rdd最后一个d就是dataset的意思
datastream跟dataset还是有本质上的区别的
dstream->rdd并不是一个非常make sense的解决方案
还有这两个都用了akka，所以目前python什么其实都比较蛋疼
最主要的还是java和scala，要么就自己去写python那些接口
那就麻烦了，估计flink也不是个头，将来基于vert.x应该会有更好的
能够满足更多脚本的类似spark/flink的数据转换framework出现

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

看了下flink
streaming部分的数据结构就是DataStream
不是dataset，这个貌似不错的样子
然后batch的部分数据结构是DataSet
这两个分开比较好，目前streaming部分flink只支持java和scala
dataset两个都有python api
底层都用了akka
然后后面就是map, flatmap, reduce, filter这些

z*******3
发帖数: 13709

来自主题: Programming版 - MapReduce 的思想是怎么发明的？

因为rdbms的格式远比nosql的格式要工整许多
table，column什么都很工整，都是structured data
数据工整了，自然可以把很多操作傻瓜起来
就不需要high order functions你也可以通过一些脚本做出你需要的运算
比如简单的crud，一些aggregation
一开始连工整的数据都没搞定的时候，没功夫思考不工整的数据怎么搞
但是nosql的数据格式很混乱，经常需要处理数据，所以需要更general的工具
而这种工具你事先并不知道用户会输入什么样的func
所以需要一种方式能够把函数当成参数来输入
来处理数据然后反馈给用户
hadoop没有做到spark纯粹是因为hadoop忙着解决hdfs的事情了
你要做出这种系统来，首先第一步先用一个统一的接口封装所有的file system
至于hdmr，没想那么复杂，因为第一步已经够麻烦的了
然后spark的作者觉得，这里有提升的空间，所以就搞出了spark
同样的，spark的batch做得不错，但是至于streaming，没想那么多
所以flink出来说，诶，你这个streaming做得不行，我能够做得更... 阅读全帖

z*******3
发帖数: 13709

来自主题: Programming版 - MapReduce 的思想是怎么发明的？

mr本质上是对不同的函数提供一个标准化的接口
就有点像spring为不同的obj提供一个标准化的接口一样
最终你不需要依赖客户的具体obj以及func
你就能写出东东来给其它人去用
hdfs本质上是对于不同node提供了一个标准化的file system接口
用了rmi，底层是jvm对于不同os的封装
db也有啊，db的统一封装就是jdbc，对于sql的统一封装就是hibernate这些
没有这些东西，你自己搞也无非那么一回事
现在hdfs的替代品也多了起来，比如c*，这个做得比较高级一点，各种工具比较多
比如vert.x也提供了一个低级的file system的封装
同样hdmr的替代品也逐步多了起来，比如yarn，spark还有蓄势待发的flink
不过这些主要是batch
stream应该是下一阶段重点，storm，rxjava，flink stream应该会大放异彩
展开新一轮的搏杀，硬盘上的数据没啥意思，还是搞内存中的数据有趣

c*******u
发帖数: 1657

来自主题: Programming版 - 这种情况该用那种big data tool？

目前hadoop上面每天都会有新的acitivity数据进来，一开始公司要求界面能提供最近
一个月，两个月的数据给用户查询。现在是这样做的，用hive在后台每天计算之前30
天和60天的数据，主要是group by, 过程大概是几个小时，然后把计算结果导入到
cassandra，然后用户查询的时候只需要传入查的是30天的还是60天的数据就很快可以
查到了。
现在公司有个新的要求，就是要求用户还可以选择多个category(最终显示结果是按照
category分类的)查询，以前group by的话就直接把所有category都算好了，然后直接
显示在界面。如果允许用户在界面上面check多个category再查询，如果还是按照之前
的方法，那么就得提前计算好所有的combination of category的数据，显然是不现实
的。如果不提前做计算，直接把raw data扔到cassandra，一个是数据量太大，不知道
用API计算的时候，内存是否能够用，再一个时间上面也无法保证几秒之内就能算出来。
请问这种情况应该怎么办？用spark或者storm, Flink取代hive在ra... 阅读全帖

g******t
发帖数: 11249

来自主题: Military版 - 刚跳了，给大家介绍一下

【以下文字转载自 JobHunting 讨论区】
发信人: swjtuer (码农的小船说翻就翻), 信区: JobHunting
标题: 刚跳了，给大家介绍一下
发信站: BBS 未名空间站 (Fri Aug 30 01:48:47 2019, 美东)
新公司是个startup，在山景城，离101的路口很近，交通便利，离狗家非常近，俺就是
中午说有事，开车几分钟就去的onsite
不是doordash，俺们不送外卖。虽然不送外卖，但提供中午和晚上中餐外卖，而且工作
时也可以讲中文，毫无违和感
想去startup又不愿意天天往三番跑的同学，完全应该考虑
公司主要做大数据ML，tech stack涉及你能想到的开源项目，spark, flink, kafka,
cassandra, tensor flow, docker, kubernetes, prometheus等等，时间紧任务多，
保证人人有机会学新技术，从此职业生涯步入快车道，一年半载就能成为技术大拿
本司在高速成长阶段，热烈欢迎热爱学习的大厂码农投条，与其在大厂当个可有可无的
螺丝钉，天天在浪费青春，慢慢变成老青蛙，... 阅读全帖

发帖数: 1

来自主题: Classified版 - 招聘职位：金融数据工程师（弘则研究-股票策略,工作地点上海陆家嘴）

招聘职位：金融数据工程师（弘则研究-股票策略,工作地点上海陆家嘴）
基本要求：
1、本科及以上学历，计算机、物理、数学专业优先，若技术较强可放宽专业要求；
2、精通至少一种编程语言：C/Python/JavaScript/R等，数据可视化或前端开发经验者
优先；
3、熟练关系数据库SQL编写及调优；
4、对中国金融市场有浓厚兴趣，学习能力强，有良好的团队意识，性格开朗。
加分项：
1、对数据敏感，在算法、机器/深度学习上有比较清晰的了解；
2、熟悉大数据处理平台 Hadoop，熟悉 Storm/Spark/Flink 其中一种 Stream 处理技
术；
3、本科名校，有海外学习/从业经历。
申请方式：发送个人CV及可能的工作学习作品（Github、个人主页等，请勿发送获奖证
书及类似文件）到[email protected]，希望尽快到岗。
公司简介：
弘则弥道（上海）投资咨询有限公司创立于2015年4月，公司目前主要业务为投资咨询
。公司研究领域覆盖中国、美国、欧元区和主要新兴市场经济体的股票、债券、外汇以
及大宗商品等大类资产，为全球和中国最负盛名的金融机构投资者提供宏... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

z****e
发帖数: 54598

来自主题: JobHunting版 - 现在找工作都要求java了

spring->hibernate->groovy->cassandra->spark/flink->vert.x

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天