由买买提看人间百态

topics

全部话题 - 话题: flink
首页 上页 1 2 3 下页 末页 (共3页)
z****e
发帖数: 54598
1
来自主题: JobHunting版 - 今天开始继续刷leetcode
hadoop的复杂度比database低不少
写database的阿三老中都没几个,但是做dba的阿三乌央乌央
db就是写起来难,用起来简单,big data那些反过来
nosql写起来简单,用起来越来越复杂
spark就是代表,以后还有flink这些
所以简单的部分,dba,nosql,阿三都乌央乌央
反过来,难的部分,spark这些,阿三就少,造db时代老中cs不行
现在spark时代,老中二代出现了,很多abc之类的
没了这个门槛,也就更容易投入其中
我觉得老中要是能做spark这些,还是要尽力去做,这代表了future
当然工作首先为了生活,妹子先把结婚生娃这种事摆前面
有了家庭才有生活,工作不是生活
z****e
发帖数: 54598
2
如果是backend的话
java -> tomcat/jdbc/db(sql) -> spring/hibernate -> nosql/spark/flink/lucene
-> vert.x/netty/core java
差不多酱紫,虽然最后一步比倒数第二步数学要容易点,但是更迟出来
所以如果是学习的话,那就把最后两个颠倒一下
到了spark之后,就明显感觉数学要求陡然升高,高等数学就开始来了
第一步就是线性代数
一般的web也就是到tomcat这个level吧
很多full stack其实就是front end
无非php -> ror -> node酱紫一路过来
除了web还是web,无非换个写法而已,没啥大区别
真的full stack应该从swift -> java,像搞tableau/palantir一样搞法
那才叫真正的full stack,如果搞这种的话,java就直接跳到最后一步了
至少上netty了,现在可以上vert.x
netty作者是韩国人,也是游戏爱好者,本来初衷就是给网游用的
netty那几个core developers,基本上都在各个大公司做顾问... 阅读全帖
h*d
发帖数: 19309
3
你自己扯的你都不记得了? cql那货返回点数据也就罢了,处理数据还是算了。

http://www.mitbbs.com/article_t/JobHunting/33063511.html
发信人: zhaoce (米高蜥蜴), 信区: JobHunting
标 题: Re: full stack track 和 backend track 哪个更有前途?
发信站: BBS 未名空间站 (Thu Oct 1 07:59:32 2015, 美东)
如果是backend的话
java -> tomcat/jdbc/db(sql) -> spring/hibernate -> nosql/spark/flink/lucene
-> vert.x/netty/core java
差不多酱紫,虽然最后一步比倒数第二步数学要容易点,但是更迟出来
所以如果是学习的话,那就把最后两个颠倒一下
到了spark之后,就明显感觉数学要求陡然升高,高等数学就开始来了
第一步就是线性代数
一般的web也就是到tomcat这个level吧
很多full stack其实就是front end
无非php ->... 阅读全帖
z****e
发帖数: 54598
4
学习不要纠结于细节
要明白为什么
j2ee虽然东西看着多
但是其实大同小异
就像di,你懂了spring之后
其他所有的ejb container的di
都是一样的,config不一样而已了
web service也是一样的
你理解了原理,管他用的是什么
不仅仅是Jersey
顺便,web service support已经是j2ee的一部分了
在里面叫做
Java API for RESTful Web Services (JAX-RS)
spring的di是cdi,应该是api的一部分了
javax.enterprise.inject.*
hibernate是orm,也就是jpa
Java Persistence API
除了web部分,其他了解了解,也没啥难的
不过现在比较流行的是非主流的东西
比如cassandra, elastic search, hadoop, spark, flink这些
都不是j2ee标准,j2ee不管persistence,只负责定义中间的container
当然我最看好的还是vert.x
其实这些东西到最后都是理论,细节和实现不重要
明白了理论之后,... 阅读全帖

发帖数: 1
5
来自主题: JobHunting版 - 阿里招聘PM、SDE
Product Management
职位要求:
1. Experiences in online advertising or computational internet marketing is
preferred
2. 3+ years experiences as product/program manager is preferred
3. Self-driven, result-oriented, innovative and collaborative
4. Good communication and presentation ability
5. Knowledge of large platform, statistics and machine learning is a plus
Senior Staff Engineer-Distributed System
职位要求:
1. solid computer science background, good understanding in data structure
and algorithms
2. pr... 阅读全帖

发帖数: 1
6
【 以下文字转载自 Returnee 讨论区 】
发信人: jason2016 (), 信区: Returnee
标 题: [转]腾讯云计算全球华人求贤
发信站: BBS 未名空间站 (Mon Jul 25 03:11:38 2016, 美东)
以下为重要紧急职位期望Master 毕业5年,PhD毕业3年以及以上,具体情况可以case
by case!
资深岗位 关键词
分布式存储研发专家 块存储、冷数据存储、数据库存储,集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家 虚拟化、云计算容器,微服务(mangodb/redis/cassandra)
nosql存储
网络运维专家 机房网络、VPC、负载均衡、trouble shooting
资深研发架构师 网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/I... 阅读全帖

发帖数: 1
7
【 以下文字转载自 Returnee 讨论区 】
发信人: jason2016 (), 信区: Returnee
标 题: [转]Alibaba全球招华人技术牛人!!!
发信站: BBS 未名空间站 (Mon Jul 25 03:10:51 2016, 美东)
7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘,欢迎各位同胞们联系我
以下为重要紧急职位期望Master 毕业5年,PhD毕业3年以及以上,具体情况可以case
by case!
工程业务团队 资深岗位 关键词
会员平台 资深产品专家 海外经历、用户产品
技术质量 资深测试架构师 技术质量、软件测试、测试
框架
技术质量 资深工程效能专家 工程效能、内部协同、效率提升
创新业务&评价 资深技术专家 信用评... 阅读全帖
N*****8
发帖数: 253
8
来自主题: JobHunting版 - [转] 阿里巴巴招聘 (转载)
【 以下文字转载自 Returnee 讨论区 】
发信人: Nicam08 (Nicam), 信区: Returnee
标 题: [转] 阿里巴巴招聘
发信站: BBS 未名空间站 (Wed Nov 23 13:57:21 2016, 美东)
Alibaba全球找华人技术牛人!!!
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘,欢迎
各位同胞们联系我
以下重要紧急职位必要要求:PHD毕业至少3年,Master毕业至少五年以上工作经验,年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="aa4e09109b929c9b9c9899999b9c99ea9b9c9984c9c5c7">[email protected]/* */ 微信:18616233163 QQ:2095226802
Base:杭州/硅谷圣马特奥职位
基础架构事业群-资深专家-kernel OS kernel,filesys... 阅读全帖
d****n
发帖数: 12461
9
来自主题: JobHunting版 - Linkedin 这个大组好不好
这块大的框架快做完了,细节有不少。框架无非是kappa架构,老马车storm, samza,
新马车apex, beam,flink,heron和kafka streams,其实大同小异已经开始争夺niche
市场了。单从Linkedin来说恐怕业务比较单一没太多新东西,单纯做流处理和etl已经
没啥好做了。但是微软和google这些带人工智能的我觉得这只是第一步,所以能做的还
不少。
当然学这些要比说自己做大数据的要好。
S*******w
发帖数: 24236
10
来自主题: JobHunting版 - Databricks 这个公司什么情况?
这边有open source的flink和它竞争,另一边还有狗狗的dataflow。
founder赚点钱可以 想进去喝汤的打工仔比较困难了。

发帖数: 1
11
来自主题: JobHunting版 - 阿里巴巴西雅图地区招人
阿里巴巴Blink 组 (see http://www.dataversity.net/year-blink-alibaba/ and http://mp.weixin.qq.com/s/GTN7ECCNcc2lB-Dq02ElGg for some basic background information)在西雅图地区招有经验的工程师。有兴趣者,请送简历到[email protected]。如有问题,也可send email using the same email address.
下面是job description:
大数据计算平台研发专家, 基于Hadoop开源生态,结合阿里巴巴电商业务场景,研发
阿里巴巴新一代大数据计算平台,包括计算引擎、分布式存储和资源调度等核心技术,
统一支持批量、实时、SQL和机器学习等计算需求,重点支持阿里集团搜索,推荐等核
心业务,并在集团范围内提供技术输出和平台支持。
职位描述
* 三年以上工作经验 (工作地点: Bellevue,WA - 位于西雅图以东, about 10
miles east of Seattle)
* 具备扎实... 阅读全帖

发帖数: 1
12
来自主题: JobHunting版 - 阿里巴巴西雅图地区招人
阿里巴巴Blink 组 (see http://www.dataversity.net/year-blink-alibaba/ and http://mp.weixin.qq.com/s/GTN7ECCNcc2lB-Dq02ElGg for some basic background information)在西雅图地区招有经验的工程师。有兴趣者,请送简历到[email protected]。如有问题,也可send email using the same email address.
下面是job description:
大数据计算平台研发专家, 基于Hadoop开源生态,结合阿里巴巴电商业务场景,研发
阿里巴巴新一代大数据计算平台,包括计算引擎、分布式存储和资源调度等核心技术,
统一支持批量、实时、SQL和机器学习等计算需求,重点支持阿里集团搜索,推荐等核
心业务,并在集团范围内提供技术输出和平台支持。
职位描述
* 三年以上工作经验 (工作地点: Bellevue,WA - 位于西雅图以东, about 10
miles east of Seattle)
* 具备扎实... 阅读全帖
j****g
发帖数: 17
13
来自主题: JobMarket版 - 腾讯云计算全球华人求贤
职位期望Master 毕业5年,PhD毕业3年以及以上,具体情况可以case by case!
资深岗位 关键词
分布式存储研发专家 块存储、冷数据存储、数据库存储,集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家 虚拟化、云计算容器,微服务(mangodb/redis/cassandra)
nosql存储
网络运维专家 机房网络、VPC、负载均衡、trouble shooting
资深研发架构师 网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/InnoDB/NoSql/DynamoDB/
AWS-S3
资深分布式存储专家 MangoDB/Redis/Cassandra等nosql存储
资深大数据工程专家 Spark/Flink/Hadoop/Yarn/Hive/Storm、开源、实时... 阅读全帖

发帖数: 1
14
来自主题: JobMarket版 - 阿里巴巴西雅图地区招人
阿里巴巴Blink 组 (see http://www.dataversity.net/year-blink-alibaba/ and http://mp.weixin.qq.com/s/GTN7ECCNcc2lB-Dq02ElGg for some basic background information)在西雅图地区招有经验的工程师。有兴趣者,请送简历到[email protected]。如有问题,也可send email using the same email address.
下面是job description:
大数据计算平台研发专家, 基于Hadoop开源生态,结合阿里巴巴电商业务场景,研发
阿里巴巴新一代大数据计算平台,包括计算引擎、分布式存储和资源调度等核心技术,
统一支持批量、实时、SQL和机器学习等计算需求,重点支持阿里集团搜索,推荐等核
心业务,并在集团范围内提供技术输出和平台支持。
职位描述
* 三年以上工作经验 (工作地点: Bellevue,WA - 位于西雅图以东, about 10
miles east of Seattle)
* 具备扎实... 阅读全帖

发帖数: 1
15
招聘职位:金融数据工程师(弘则研究-股票策略,工作地点上海陆家嘴)
基本要求:
1、本科及以上学历,计算机、物理、数学专业优先,若技术较强可放宽专业要求;
2、精通至少一种编程语言:C/Python/JavaScript/R等,数据可视化或前端开发经验者
优先;
3、熟练关系数据库SQL编写及调优;
4、对中国金融市场有浓厚兴趣,学习能力强,有良好的团队意识,性格开朗。
加分项:
1、对数据敏感,在算法、机器/深度学习上有比较清晰的了解;
2、熟悉大数据处理平台 Hadoop,熟悉 Storm/Spark/Flink 其中一种 Stream 处理技
术;
3、本科名校,有海外学习/从业经历。
申请方式:发送个人CV及可能的工作学习作品(Github、个人主页等,请勿发送获奖证
书及类似文件)到[email protected],希望尽快到岗。
公司简介:
弘则弥道(上海)投资咨询有限公司创立于2015年4月,公司目前主要业务为投资咨询
。公司研究领域覆盖中国、美国、欧元区和主要新兴市场经济体的股票、债券、外汇以
及大宗商品等大类资产,为全球和中国最负盛名的金融机构投资者提供宏... 阅读全帖

发帖数: 1
16
7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘,欢迎各位同胞们联系我
以下为重要紧急职位期望Master 毕业5年,PhD毕业3年以及以上,具体情况可以case
by case!
工程业务团队 资深岗位 关键词
会员平台 资深产品专家 海外经历、用户产品
技术质量 资深测试架构师 技术质量、软件测试、测试
框架
技术质量 资深工程效能专家 工程效能、内部协同、效率提升
创新业务&评价 资深技术专家 信用评价、业务架构
数据服务 资深算法专家 推荐系统、广告系统、机
器学习,VR等
数据服务 资深数据科学家 NLP、知识图谱等
数据服务 ... 阅读全帖

发帖数: 1
17
来自主题: Returnee版 - [转]腾讯云计算全球华人求贤
以下为重要紧急职位期望Master 毕业5年,PhD毕业3年以及以上,具体情况可以case
by case!
资深岗位 关键词
分布式存储研发专家 块存储、冷数据存储、数据库存储,集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家 虚拟化、云计算容器,微服务(mangodb/redis/cassandra)
nosql存储
网络运维专家 机房网络、VPC、负载均衡、trouble shooting
资深研发架构师 网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/InnoDB/NoSql/DynamoDB/
AWS-S3
资深分布式存储专家 MangoDB/Redis/Cassandra等nosql存储
资深大数据工程专家 Spark/Flink/Hadoop/Yarn/Hive/Stor... 阅读全帖

发帖数: 1
18
来自主题: Seattle版 - 阿里巴巴西雅图办公室招人
阿里巴巴Blink 组 (see http://www.dataversity.net/year-blink-alibaba/ and http://mp.weixin.qq.com/s/GTN7ECCNcc2lB-Dq02ElGg for some basic background information)在西雅图地区招有经验的工程师。有兴趣者,请送简历到[email protected]。如有问题,也可send email using the same email address.
下面是job description:
大数据计算平台研发专家, 基于Hadoop开源生态,结合阿里巴巴电商业务场景,研发
阿里巴巴新一代大数据计算平台,包括计算引擎、分布式存储和资源调度等核心技术,
统一支持批量、实时、SQL和机器学习等计算需求,重点支持阿里集团搜索,推荐等核
心业务,并在集团范围内提供技术输出和平台支持。
职位描述
* 三年以上工作经验 (工作地点: Bellevue,WA - 位于西雅图以东, about 10
miles east of Seattle)
* 具备扎实... 阅读全帖
f******2
发帖数: 2455
19
来自主题: Programming版 - Spark已经out了,能跳船的赶快
首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
Hadoop被人抛弃还快(<5年,Hadoop的上升期)
Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
正意义上的流处理。
如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
,更何况是站在Spark经验教训的肩膀上作一些改善),但是现在的Spark已经是被资本
的助燃器推上轨道的火箭了(而且是巨型资本,换句话说就是重型发动机),没有办法
停下来思考什么是正确轨道,而是在自己的轨道冲下去。
德国的一群年轻人在一个教授(有IBM数据酷的长期背景)的带领下搞了个Flink,社区
非常活跃,而且成立了公司运作,估计会成为ElasticSearch这样一个欧洲发源,征服
美国的下一个大数据新宠。
立此存照。
h****r
发帖数: 2056
20
来自主题: Programming版 - Spark已经out了,能跳船的赶快
flink is based on scala as well, which makes its future doubtful.
hope it can be rewritten by c or java.
f******2
发帖数: 2455
21
来自主题: Programming版 - Spark已经out了,能跳船的赶快
错,flink主要codebase是java,scala那部分是两部分:用户语言binding,akka使用
因为核心是java,给广大java高手提供了广阔天地,大有作为的平台。这对于一个开源
型公司非常重要。因此社区运作好了绝对可以比spark后发先至。
我准备上去修个bug,个contributor当当。象goodbug这样的估计直接就是committer了
d*******r
发帖数: 3299
22
来自主题: Programming版 - Spark已经out了,能跳船的赶快
flink 广告贴呀, 上 github 看了一眼, 确实主要是 Java 实现的
f******2
发帖数: 2455
23
来自主题: Programming版 - Spark已经out了,能跳船的赶快
不是广告,看看第21页决定这个架子搭得比spark稳
http://www.slideshare.net/mobile/stephanewen1/apache-flink-over
s*****1
发帖数: 15
24
来自主题: Programming版 - Spark已经out了,能跳船的赶快
Spark的对手除了Flink,还有Ignite,都在Apache旗下取了个电光石火的名字
B********r
发帖数: 397
25
好吧,我火气大了点,不过从来没觉得自己是“专家”,只是觉得这种讨论太没意义,
一天到晚争啥out不out,不如说些实际的该怎么用
你想像对于大部分连hadoop都没开始上手的新人来说,你今天喊一嗓子“hadoop out“
明天一嗓子”spark out“,后天”flink out”, 除了误导他们还有啥好处
z****e
发帖数: 54598
26
来自主题: Programming版 - 有人上Spark用python API的么
准备上flink吧
streaming好像比较热
rxjava什么都在做这一块
z****e
发帖数: 54598
27
来自主题: Programming版 - 有人上Spark用python API的么
那你们streaming用什么?
spark的stream是micro batch,有些难用的说
不用flink就只有storm了
z****e
发帖数: 54598
28
来自主题: Programming版 - Flink可以contribute
母鸡
反正都是开源的,互相抄一点很正常
不过80% java vs 80% scala
这个要抄有一定难度
但是如果是用不同语言实现相同逻辑
这个算不算抄袭,那我就不知道了
z****e
发帖数: 54598
29
来自主题: Programming版 - 看了flink,不能不说有点小期待
batch processing部分跟spark区别不大
但是streaming部分,跟storm是一样的,比spark要好一点
spark目前还只是micro batch,嗯
n****5
发帖数: 81
30
膜拜一下楼上的大牛。请教这新东西层出不穷,各另风骚一两年,新手们看的眼花缭乱
的怎么办?
n****5
发帖数: 81
31
多谢!!! 顺便顶贴!
f******2
发帖数: 2455
32
赵老师已经是committer了?赶快上船,把版上的小白兄弟们带入门

Artisans,
z****e
发帖数: 54598
33

当然不是,我现在没工夫搞这些,还是专心搞我自己的东西
你可以去commit代码啊
z****e
发帖数: 54598
34

rdd
stream就是那种连续的,不间断过来的数据
batch就是那种已知边界的数据
spark的streaming只是mincro batch
本质上还是bacth,不是streaming
streaming要求过来一个就处理一个,而且一次就处理一个
这种就是真streaming,如果达不到这种要求,就是伪streaming
microbatch顾名思义,不是这种搞法
streaming的好处显而易见,时效性强,可以很快作出反应
但是坏处也很明显,需要资源比较多
而且从长时间上看,比如处理chunk,总体算下来
还是batch用时比较节省
其实streaming我个人认为并不适合用来做persistance的处理
尤其是file system, db上的数据,我觉得用batch就足够了
streaming用在对付需要短时间处理并反馈的数据
主要是用来处理web上过来的数据,比如video这些
还有tweets,还比如用一个udp socket直接监听一个port就好了
这些用streaming api就非常合理,可以增强客户体验
他们还有第三种api,就是table api,这个... 阅读全帖
z****e
发帖数: 54598
35
stream - storm,rxjava,scalaz这些都可以搞
传统数据仓库的etl也是streaming api的主要应用点
batch - spark, hdmr, hdmr2/yarn 这些都可以搞
这个其实最难搞,统计,线性代数都在这里,但是有些虚
table - database这些,主要是index和transaction
既然有了结构,那么对于精度,自然就有了更高的要求
z****e
发帖数: 54598
36
按照datasources分的话
一般stream api用在网络上过来的数据
比如kafka,比如video,比如etl
这些都是streaming的大户,然后配合reactive
就可以比较迅速地处理数据并反馈
一般batch和table api用在硬盘上读取出来的数据
尤其是你自己系统控制的硬盘上的数据
这种用batch或者table来稿
table针对结构比较完整,精度要求高的数据源
因为精度高,相对要求也高,要求index和transaction
很正常
batch针对结构不完整,精度要求相应可以降低的数据源
比如网页搜索,一般google就反馈给你一个最相似的网页
并不是保证百分百精确,很多时候第一个结果不是你想要的
偶尔还会出现翻了几页才找到,甚至根本找不到的情况
这种情况你只能逼近,完美是不存在滴
z****e
发帖数: 54598
37
4月份在忙ios,没怎么看,貌似fangtuo2发了帖说了下flink和sparks
然后又给删了,搞毛,不是说要进去修bugs吗?修了没?
有没有什么体会?出来说说
z****e
发帖数: 54598
38
我感觉是rdd这种数据结构限制了他们的发挥
dstream最终还是捆死在rdd上,也就是dstream是rdd的一种
而rdd比较适合dataset,并不十分适合datastream
而spark的基石就是rdd,算法是ml那些,但是数据结构基本上都是rdd
而rdd是为dataset也就是batch处理而设计出来的
为了迁就dataset,硬把datastream的数据结构搞成rdd
这看来不是一个什么很好的选择
当然对于大多数应用来说,micro batch够用
但是总感觉怪怪的,any way,如果flink改掉这个的话
能够结合spark和storm的优点的话,我觉得蛮好
值得一试,比起自己去折腾storm+spark要强
这两个光弄其中一个就已经够呛了
f********x
发帖数: 99
39
SDK开源,Execution engine不会被lockin。Google其实早有预谋去统一这块市场。
Dataflow over Spark:
http://googlecloudplatform.blogspot.com/2015/01/easily-run-data
Dataflow over Flink:
http://googlecloudplatform.blogspot.com/2015/03/announcing-Goog
Genome analysis pipeline over Dataflow:
http://github.com/googlegenomics/dataflow-java
z****e
发帖数: 54598
40
来自主题: Programming版 - 想山寨palantir了

其实也不会,你看intellij idea就靠着很不错的gui取胜
还有一个就是,大部分软件,尤其是攻城狮用的软件
都比较难用,说白了就是gui比较少,没有特别傻瓜的工具
jira什么就是通过比较傻瓜化的操作占领市场
我考虑的是,把jdbc等操作,给傻瓜化
然后进一步把c*和flink的操作给傻瓜化
最后把vert.x的操作也给傻瓜化
这样一个完整的gui就可以搞出来了
我看了看这些api,应该都不难,因为本身就已经傻瓜化了不少
现在就缺一个gui而已,这个javafx应该问题不大
z****e
发帖数: 54598
41
来自主题: Programming版 - 想山寨palantir了

集,
山寨他们可以从一些最简单的功能开始
比如可视化db操作,然后可视化flink和spark
因为这种平台软件一般不允许随便修改数据
所以clustering这些用到的概率不大,这就省了不少事
很多时候光count就能有很多应用了
光count的话,我觉得并不需要多复杂的数学
倒是需要对常用工具以及轮子的熟练程度
比如javafx,jdbc,c*的api,etc.
我个人觉得,其实很多攻城狮并不是对于数学有那么深刻的领悟的
例子我就不举了,省得得罪人
很多时候不需要多高深数学,一样可以有利益攫取的
z****e
发帖数: 54598
42
来自主题: Programming版 - 想山寨palantir了
所以说到底我也需要知道他们这个平台到底在干嘛的嘛
我也没见过,从demo上看,好像都是一些比较傻瓜的应用
我应该能做出来,但是再深入的,我也不知道了
所以我在问palantir的产品到底在做啥,要不然你以为我在干嘛?
另外,我们山寨的路边货呢,不需要做到top1
只需要做到top1的50%,市场前景就很不错了
有人用很容易啊,比如我可以自动生成jdbc连接的java代码啊
而且spark, flink,vert.x这些傻瓜化工具还少,这个能做出来肯定有人用
db的傻瓜化工具比较多,但是多数都不太好用,感觉gui设计得很反人类
还有就是,join这些数据,也是一个很不错的卖点
不过join估计需要server side
我看他们的一个卖点就是join
c*******9
发帖数: 9032
43
database用什么好?
y**********u
发帖数: 6366
44
what
Cassandra的性能还不是太好吧
z****e
发帖数: 54598
45
postgre
如果对mysql实在是舍不得
可以用mariadb
z****e
发帖数: 54598
46

找不到更好的了,要不你说一个
n*****3
发帖数: 1584
47
yarn 很好,要用啊
ETL 还是可以 用Hadoop ego, spark sql 还比较新。
a*****s
发帖数: 1121
48
资源调度这一块需要有一个吧,
资源调度角度讲,YARN是global scheduler,上千台的server可以总体调度;slider加
入以后,你可以在YARN上运行任何daemon,也就是说,你可以在一个datacenter运行你
想要的所有framework,资源调度由yarn来帮你总体处理。YARN现在也支持docker
container,加上label的功能,很容易实现multi-tenent,Altiscale这方面做的不错
,已经有上千个vm的production cluster用docker on yarn
mesos是分布式调度,比较小众,貌似只有twitter在用,俺们组的一个傻逼本科劳模天
天吹嘘
多好多好。
分布式文件系统需要有一个吧,HDFS时鼻祖,由很多变种,但是都支持HDFS的原生API。
大公司甚至国家之间,拼的是系统,上万台server的data center是需要经得起折腾的
系统,对于小公司,那就另说了。不见得需要这么robust的组件。
z****e
发帖数: 54598
49
上千台server这个数量级不是随便一个公司都能达到的
大部分专注于某些领域的公司
就算做到global,也不用上千个nodes那么夸张
我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统
分成不同系统就是了,系统比较多,上百个系统都有
极少说单一系统要爆上千个nodes的
所以这种搞法本身就有些小众了

API。
a*****s
发帖数: 1121
50
哎,很不幸,俺去的第一家公司就拥有世界上最大的hadoop cluster,
首页 上页 1 2 3 下页 末页 (共3页)