由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 单机学习spark/hadoop的方案?
相关主题
Spark已经out了,能跳船的赶快docker的newbie 问题
有人上Spark用python API的么github上面的代码和公司的代码
c++程序员不要把头埋在沙子里了打算装linux搞c++,哪个好 centos? 由本土?
Scala会不会把Java搞成第二个C++现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
准备因为用spark开始学scalaspark 到底牛在什么地方?
一两个million的时间序列在spark上怎么分析大牛说说用scala自己能做啥project
解密hadoop文件系统数据存储方式学scala和spark需要什么pre req?
如何往Hadoop 上倒大量数据?docker的致命缺陷
相关话题的讨论汇总
话题: spark话题: c++话题: java话题: python话题: hadoop
进入Programming版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
千老找工作,被问到了scala/spark/NoSQL这方面
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗?
最好有什么工具专门为这个目的设计的
vagrant似乎不错?
p***o
发帖数: 1252
2
github上搜一搜, 现成的vagrant/docker配置都很多。

【在 n******7 的大作中提到】
: 千老找工作,被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗?
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错?

w***g
发帖数: 5958
3
直接跑单机版的。不用开虚拟机。
如果是非linux主机非要开虚拟机,最多开一个。

【在 n******7 的大作中提到】
: 千老找工作,被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗?
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错?

x***u
发帖数: 297
4
工作当然是这样。
要是学习/实验在cluster上部署呢?


: 直接跑单机版的。不用开虚拟机。

: 如果是非linux主机非要开虚拟机,最多开一个。



【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

g*****1
发帖数: 93
5
cloudera
n******7
发帖数: 12463
6
谢大牛
先从最简单方案的开始学最好

【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

l**********n
发帖数: 8443
7
正解

【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

c*******7
发帖数: 2506
8
mark

【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

b****u
发帖数: 1130
9
最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最
主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
infrastructure上。
n******7
发帖数: 12463
10
你有工作了,所以解决问题最重要
我没有工作,所以一个东西即使用不上
只要别人想考你,你就得知道不是

【在 b****u 的大作中提到】
: 最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最
: 主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
: python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
: infrastructure上。

相关主题
一两个million的时间序列在spark上怎么分析docker的newbie 问题
解密hadoop文件系统数据存储方式github上面的代码和公司的代码
如何往Hadoop 上倒大量数据?打算装linux搞c++,哪个好 centos? 由本土?
进入Programming版参与讨论
b****u
发帖数: 1130
11
我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。
c*********e
发帖数: 16335
12
没做过就说没做过,否则骗过了面试,进去让你做个项目,你就难了。

【在 n******7 的大作中提到】
: 千老找工作,被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗?
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错?

b****u
发帖数: 1130
13
就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。
n******7
发帖数: 12463
14
謝謝!
一直想在github上放点啥,你这个建议很好
我研究一下spark要怎么弄

【在 b****u 的大作中提到】
: 我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
: 里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。

c*********e
发帖数: 16335
15
一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
不好,可以吹成做得很好。但是,没做过,就说没做过。

【在 b****u 的大作中提到】
: 就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。
n******7
发帖数: 12463
16
你为什么总要假设我面试的时候骗人家说以前做过?
我还真不觉得spark有多难,但是我需要学习,就这么简单

【在 c*********e 的大作中提到】
: 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
: 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
: 不好,可以吹成做得很好。但是,没做过,就说没做过。

w********m
发帖数: 1137
17
估计spark是个人都谈
还没见过谁真正用。
所以大胆吹牛吧
c*********e
发帖数: 16335
18
自己把自己推上难堪的境地,何必呢?

【在 n******7 的大作中提到】
: 你为什么总要假设我面试的时候骗人家说以前做过?
: 我还真不觉得spark有多难,但是我需要学习,就这么简单

T*******x
发帖数: 8565
19
你这就有点引申了。打住吧。

【在 c*********e 的大作中提到】
: 自己把自己推上难堪的境地,何必呢?
w***g
发帖数: 5958
20
其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
样,小
机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
配置
都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
过来说搞过spark机群,这事本来就非常可疑,必然要问下去的。不需要问技术细节,
只要问是什么样的dataset,有多大,楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset,单机上各种统计聚类啥的玩得纯熟,感觉上
会好很多。
本来要做成事情就难,大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛,感觉会非常不好。
(对方如果根本不懂技术,招人带头建data science组这种情况另说,那就真的怎么乎
悠都
行了。)

【在 c*********e 的大作中提到】
: 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
: 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
: 不好,可以吹成做得很好。但是,没做过,就说没做过。

相关主题
现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?学scala和spark需要什么pre req?
spark 到底牛在什么地方?docker的致命缺陷
大牛说说用scala自己能做啥project试了下spark,不过如此啊
进入Programming版参与讨论
b****u
发帖数: 1130
21
这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
的轮子,没什么太难的活。
T*******x
发帖数: 8565
22
这个在理。

【在 b****u 的大作中提到】
: 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
: 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
: 的轮子,没什么太难的活。

n******7
发帖数: 12463
23
学习新东西就是自己把自己推上难堪的境地?
你有病 不回了

【在 c*********e 的大作中提到】
: 自己把自己推上难堪的境地,何必呢?
n******7
发帖数: 12463
24
你是受了这个ID信口开河的误导
我从来没有吹牛说我会scala/spark
我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
我说没接触,顺便问她这个需要懂吗
她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
来决定最佳的人选
我就感觉,如果我有hand-on的经验,会是个很大的plus
另外现在的行业确实对这一块有需求
我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作

外行
上就

【在 w***g 的大作中提到】
: 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
: 解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
: 样,小
: 机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
: 配置
: 都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
: 配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
: 现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
: 根本
: 就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老

w***g
发帖数: 5958
25
我解释下为啥学习的时候也不要用单机虚拟集群。
我认为面试的时候吹牛没问题,只要不吹破就行。
这个我觉得大家都是默认的。
但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
我觉得楼上那位也是那个意思吧。
如果只是吹各种数据分析算法,千老非常有优势。

【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作

n******7
发帖数: 12463
26
謝謝鼓励
我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话,会有多大优势
很多东西都是听人说,自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
有一些spark的经验,够不够?需要scala/nosql方面的知识吗?

【在 b****u 的大作中提到】
: 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
: 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
: 的轮子,没什么太难的活。

n******7
发帖数: 12463
27
谢谢提醒
我就是论坛上发帖都不喜欢吹牛
所以不会吹破的 :)
这种专业领域,随便问点细节就知道有没有,靠瞎吹拿offer是下下策

【在 w***g 的大作中提到】
: 我解释下为啥学习的时候也不要用单机虚拟集群。
: 我认为面试的时候吹牛没问题,只要不吹破就行。
: 这个我觉得大家都是默认的。
: 但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
: 我觉得楼上那位也是那个意思吧。
: 如果只是吹各种数据分析算法,千老非常有优势。

l*********s
发帖数: 5409
28
其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
转,不要主打data minging才能有更广阔的天地。
n******7
发帖数: 12463
29
你说的也有道理,也是我纠结的
这些年一直做NGS data mining,继续这条路走下去也能有饭吃
作为千老干也比较得心应手,算是对行业知识了如指掌
但是这些年也受够了技能没需求的苦了
也在考虑彻底转掉
不过我比较没追求,不想去宇宙中心
希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好

【在 l*********s 的大作中提到】
: 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
: 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
: 转,不要主打data minging才能有更广阔的天地。

b****u
发帖数: 1130
30
概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?

相关主题
mapreduce, hadoop还能火几年?有人上Spark用python API的么
这个bigdata的学习路线图不错啊c++程序员不要把头埋在沙子里了
Spark已经out了,能跳船的赶快Scala会不会把Java搞成第二个C++
进入Programming版参与讨论
M********0
发帖数: 1230
31
推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
要花时间学java写MR code
直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油
w**z
发帖数: 8232
32
这是正解,刷 leetcode, 弄熟Java, 专心做码农吧。

【在 l*********s 的大作中提到】
: 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
: 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
: 转,不要主打data minging才能有更广阔的天地。

l*****e
发帖数: 1431
33
像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
(真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。

【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?

l*******m
发帖数: 1096
34
如果你会build你spark project成jar, 单机,多机都是一样的submit, 当然dependecy
, 优化是下一步了。

【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作

c*********e
发帖数: 16335
35
你到底把你学的东西放到github上没有啊?放了就告诉下咱们去学习哈。

【在 n******7 的大作中提到】
: 学习新东西就是自己把自己推上难堪的境地?
: 你有病 不回了

c*********e
发帖数: 16335
36
我说的就是这个意思。生物千老对计算机的基础知识知道得不多,给我一种无所畏惧的
感觉。其实,适当的吹牛没错,但是没有做过,以为很简单,到时候人家让你去做,你
根本都不知道怎么搞distributed system,到时候看你怎么办。

【在 w***g 的大作中提到】
: 我解释下为啥学习的时候也不要用单机虚拟集群。
: 我认为面试的时候吹牛没问题,只要不吹破就行。
: 这个我觉得大家都是默认的。
: 但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
: 我觉得楼上那位也是那个意思吧。
: 如果只是吹各种数据分析算法,千老非常有优势。

c*********e
发帖数: 16335
37
拜托你还是先把 数据结构 这些基本的书读懂了之后再说吧。

【在 n******7 的大作中提到】
: 学习新东西就是自己把自己推上难堪的境地?
: 你有病 不回了

d****i
发帖数: 4809
38
我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。

【在 n******7 的大作中提到】
: 你说的也有道理,也是我纠结的
: 这些年一直做NGS data mining,继续这条路走下去也能有饭吃
: 作为千老干也比较得心应手,算是对行业知识了如指掌
: 但是这些年也受够了技能没需求的苦了
: 也在考虑彻底转掉
: 不过我比较没追求,不想去宇宙中心
: 希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好

w***g
发帖数: 5958
39
我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
点。
像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
看不懂了。

【在 d****i 的大作中提到】
: 我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
: 骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
: 言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
: 言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。

d****i
发帖数: 4809
40
没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
C++ <-> JNI <-> Java也不失为一条路。

适合
spark上
完全

【在 w***g 的大作中提到】
: 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
: 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
: 看不懂了。

相关主题
Scala会不会把Java搞成第二个C++解密hadoop文件系统数据存储方式
准备因为用spark开始学scala如何往Hadoop 上倒大量数据?
一两个million的时间序列在spark上怎么分析docker的newbie 问题
进入Programming版参与讨论
w***g
发帖数: 5958
41
你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
各种同步问题。
Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
除此之外java community极其反C++,反之亦然。
java和C++基本上是势不两立的状态。python和C++则非常互补。

【在 d****i 的大作中提到】
: 没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
: C++ <-> JNI <-> Java也不失为一条路。
:
: 适合
: spark上
: 完全

l*********s
发帖数: 5409
42
re, python和c++互补性很强,java的生态圈则比较封闭。

【在 w***g 的大作中提到】
: 你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
: 一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
: 另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
: 各种同步问题。
: Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
: 捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
: 除此之外java community极其反C++,反之亦然。
: java和C++基本上是势不两立的状态。python和C++则非常互补。

c*********e
发帖数: 16335
43
java也可以用c++啊。何来封闭一说?

【在 l*********s 的大作中提到】
: re, python和c++互补性很强,java的生态圈则比较封闭。
l*********s
发帖数: 5409
44
你写过?纸上谈兵当然容易了。

【在 c*********e 的大作中提到】
: java也可以用c++啊。何来封闭一说?
h**********c
发帖数: 4120
45
java 如何封闭,zkss
java 和linux kernel 一样是用 c 和 c++混着写出来的。
从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
试试,mac也是一个坑。

【在 l*********s 的大作中提到】
: re, python和c++互补性很强,java的生态圈则比较封闭。
d****i
发帖数: 4809
46
mac OS有一点不好,虽然mac声称mac OS属于一种类Unix系统,但是native的Mac OS的
东西和convention,当你用C,C++写mac OS的native程序的时候就知道和其他Unix系统
还是区别甚大,不如Linux下用C,C++写程序那么规范和严格遵守POSIX标准,这一点甚
至不如Solaris,Solaris以前也有一些自己独特的东东,但是基本还是遵守Unix那套东
西的规范和传统,后来又全部和POSIX规范统一,在保留了自己的特色的同时和Linux
LSB非常接近。

调。

【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。

w***g
发帖数: 5958
47
所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
试试。

调。

【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。

N*****m
发帖数: 42603
48
jzmq?呵呵

【在 w***g 的大作中提到】
: 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
: jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
: 试试。
:
: 调。

N*****m
发帖数: 42603
49
不过总的来说,jni确实难用

【在 N*****m 的大作中提到】
: jzmq?呵呵
h**********c
发帖数: 4120
50
maven 上烂东西很多,npm match
不过maven不是信用卡公司,没有对第三方任何认证
功能还是不错的,内容很难讲
我本人讲,能用core java实现第一优先
c++写东西,顾虑太多。写服务器要很深的道行

【在 w***g 的大作中提到】
: 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
: jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
: 试试。
:
: 调。

相关主题
github上面的代码和公司的代码spark 到底牛在什么地方?
打算装linux搞c++,哪个好 centos? 由本土?大牛说说用scala自己能做啥project
现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?学scala和spark需要什么pre req?
进入Programming版参与讨论
n******7
发帖数: 12463
51
谢谢,你说的两个例子都不错,有了目标学习起来就快了

【在 b****u 的大作中提到】
: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
: yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
: 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

n******7
发帖数: 12463
52
是的,我也不准备target专门做spark的工作
我主要是想学习了解一下这个方面
一方面找工作是个plus
另一方面我感觉我做的这块对这个的需求会持续上升,就当技能投资

spark

【在 M********0 的大作中提到】
: 推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
: 要花时间学java写MR code
: 直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
: summit上的几个case 弄熟了再随便网上抓data跑
: 这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
: 的书里面大部分章节看了看
: 不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
: 去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
: 楼主加油

n******7
发帖数: 12463
53
我明白你的意思,你说的跟我第一次面试的感觉一样。
我也权衡过怎么投技能点。目标是纯码公的话,这些基础的东西,还有leetcode啥的都
要加强。纯码工我最喜欢的就是工作机会多,可以住在我喜欢的城市。
但是这就意味着之前投的很多技能点就完全废掉了。作为千老,还在犹豫要不要删号重
练。

刻。

【在 l*****e 的大作中提到】
: 像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
: 捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
: (真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
: 问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
: 如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
: 体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
: startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。

n******7
发帖数: 12463
54
P.C.R.确实是千老的黄金组合,很多千老广告也是这么写的。这些年来P势头很猛,大
部分事情可以直接用python搞定
只是最近找工作发现相关的工作java特别流行,即使对性能敏感的,也基本都是java
所以想在jvm生态上花些时间学习练习
以后主要靠python+jvm混
那套分析的东西,流行的工具其实一直在变。比如你也做过RNA-seq/DE之类的,你明白的
但是统计/ML的知识跟语言是独立的,我觉得换个语言也还好吧
其实我觉得不会C/C++不算正经程序猿,我这辈子估计是算不了了

适合
spark上
完全

【在 w***g 的大作中提到】
: 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
: 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
: 看不懂了。

z***s
发帖数: 3241
55
有个职位需要hadoop,我完全大数据白痴。想快速做个东西让别人看看,可能只有不到
10小时学习时间。冒昧问一句,你说的“把文件夹里所有的数据排序整合成一个文件”
,还有这个处理股票价格的,能不能展开说说怎么下手?
你还说用local node,不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块,你说的是不是MapReduce?谢谢指点。

【在 b****u 的大作中提到】
: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
: yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
: 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

1 (共1页)
进入Programming版参与讨论
相关主题
docker的致命缺陷准备因为用spark开始学scala
试了下spark,不过如此啊一两个million的时间序列在spark上怎么分析
mapreduce, hadoop还能火几年?解密hadoop文件系统数据存储方式
这个bigdata的学习路线图不错啊如何往Hadoop 上倒大量数据?
Spark已经out了,能跳船的赶快docker的newbie 问题
有人上Spark用python API的么github上面的代码和公司的代码
c++程序员不要把头埋在沙子里了打算装linux搞c++,哪个好 centos? 由本土?
Scala会不会把Java搞成第二个C++现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
相关话题的讨论汇总
话题: spark话题: c++话题: java话题: python话题: hadoop