单机学习spark/hadoop的方案？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 单机学习spark/hadoop的方案？

相关主题
● Spark已经out了，能跳船的赶快	● docker的newbie 问题
● 有人上Spark用python API的么	● github上面的代码和公司的代码
● c++程序员不要把头埋在沙子里了	● 打算装linux搞c++，哪个好 centos? 由本土？
● Scala会不会把Java搞成第二个C++	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● 准备因为用spark开始学scala	● spark 到底牛在什么地方？
● 一两个million的时间序列在spark上怎么分析	● 大牛说说用scala自己能做啥project
● 解密hadoop文件系统数据存储方式	● 学scala和spark需要什么pre req?
● 如何往Hadoop 上倒大量数据？	● docker的致命缺陷

相关话题的讨论汇总
话题: spark话题: c++话题: java话题: python话题: hadoop

进入Programming版参与讨论

(共1页)

n******7
发帖数: 12463

千老找工作，被问到了scala/spark/NoSQL这方面
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗？
最好有什么工具专门为这个目的设计的
vagrant似乎不错？

p***o
发帖数: 1252

github上搜一搜, 现成的vagrant/docker配置都很多。

【在 n******7 的大作中提到】

: 千老找工作，被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗？
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错？

w***g
发帖数: 5958

直接跑单机版的。不用开虚拟机。
如果是非linux主机非要开虚拟机，最多开一个。

【在 n******7 的大作中提到】

x***u
发帖数: 297

工作当然是这样。
要是学习/实验在cluster上部署呢？

: 直接跑单机版的。不用开虚拟机。

: 如果是非linux主机非要开虚拟机，最多开一个。

【在 w***g 的大作中提到】

: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机，最多开一个。

g*****1
发帖数: 93

cloudera

n******7
发帖数: 12463

谢大牛
先从最简单方案的开始学最好

【在 w***g 的大作中提到】

: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机，最多开一个。

l**********n
发帖数: 8443

正解

【在 w***g 的大作中提到】

: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机，最多开一个。

c*******7
发帖数: 2506

mark

【在 w***g 的大作中提到】

: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机，最多开一个。

b****u
发帖数: 1130

最近给公司搞了一个，俺就用local mode,这样hadoop都不用装，解决问题最重要。最
主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
python里的dataframe要好用太多了。装一个cluster,挺炫的，但很多精力要放在
infrastructure上。

n******7
发帖数: 12463

你有工作了，所以解决问题最重要
我没有工作，所以一个东西即使用不上
只要别人想考你，你就得知道不是

【在 b****u 的大作中提到】

: 最近给公司搞了一个，俺就用local mode,这样hadoop都不用装，解决问题最重要。最
: 主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
: python里的dataframe要好用太多了。装一个cluster,挺炫的，但很多精力要放在
: infrastructure上。

相关主题
● 一两个million的时间序列在spark上怎么分析	● docker的newbie 问题
● 解密hadoop文件系统数据存储方式	● github上面的代码和公司的代码
● 如何往Hadoop 上倒大量数据？	● 打算装linux搞c++，哪个好 centos? 由本土？
进入Programming版参与讨论

b****u
发帖数: 1130

我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。

c*********e
发帖数: 16335

没做过就说没做过，否则骗过了面试，进去让你做个项目，你就难了。

【在 n******7 的大作中提到】

b****u
发帖数: 1130

就凭楼主上来问问题的精神，进公司就一定能把事搞定的。关键是如何跨进一个公司。

n******7
发帖数: 12463

謝謝！
一直想在github上放点啥，你这个建议很好
我研究一下spark要怎么弄

【在 b****u 的大作中提到】

: 我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
: 里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。

c*********e
发帖数: 16335

一生物千老，从来没做过distributed system,面试的时候骗人家说以前做过，进了公
司，你觉得他搞得定spark, hadoop吗？没做过就说没做过，人要诚实。做过了，做得
不好，可以吹成做得很好。但是，没做过，就说没做过。

【在 b****u 的大作中提到】

: 就凭楼主上来问问题的精神，进公司就一定能把事搞定的。关键是如何跨进一个公司。

n******7
发帖数: 12463

你为什么总要假设我面试的时候骗人家说以前做过？
我还真不觉得spark有多难，但是我需要学习，就这么简单

【在 c*********e 的大作中提到】

: 一生物千老，从来没做过distributed system,面试的时候骗人家说以前做过，进了公
: 司，你觉得他搞得定spark, hadoop吗？没做过就说没做过，人要诚实。做过了，做得
: 不好，可以吹成做得很好。但是，没做过，就说没做过。

w********m
发帖数: 1137

估计spark是个人都谈
还没见过谁真正用。
所以大胆吹牛吧

c*********e
发帖数: 16335

自己把自己推上难堪的境地，何必呢？

【在 n******7 的大作中提到】

: 你为什么总要假设我面试的时候骗人家说以前做过？
: 我还真不觉得spark有多难，但是我需要学习，就这么简单

T*******x
发帖数: 8565

你这就有点引申了。打住吧。

【在 c*********e 的大作中提到】

: 自己把自己推上难堪的境地，何必呢？

w***g
发帖数: 5958

其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优，出了问题怎么
解决。单机学习前一个没问题。但是后一个，单机模拟机群和真的机群的行为非常不一
样，小
机群和大机群的行为也非常不一样。我们团队有一个机群，只有很少几台极其，但每台
配置
都很高。还有一个团队，机器数量是我们好几倍，但每台配置都很低，这个一看就是外行
配出来的。算法怎么说都可以，配系统，调优的事情，碰到内行的，问上一两句基本上就
现原形了。我要出去说，也只能够说我在小机群上跑过生产系统，几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统，跑了有几年了。如果生物千老
过来说搞过spark机群，这事本来就非常可疑，必然要问下去的。不需要问技术细节，
只要问是什么样的dataset，有多大，楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset，单机上各种统计聚类啥的玩得纯熟，感觉上
会好很多。
本来要做成事情就难，大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛，感觉会非常不好。
(对方如果根本不懂技术，招人带头建data science组这种情况另说，那就真的怎么乎
悠都
行了。）

【在 c*********e 的大作中提到】

相关主题
● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？	● 学scala和spark需要什么pre req?
● spark 到底牛在什么地方？	● docker的致命缺陷
● 大牛说说用scala自己能做啥project	● 试了下spark，不过如此啊
进入Programming版参与讨论

b****u
发帖数: 1130

这就是为什么我让楼主放一个简单的Spark项目到Github上，其实有个基本入门就可以
了。我们公司刚招了一个来接管我Spark的活，没用过DATAFRAME，没用过ML包，也不影
响人家说他会用Spark。有个好的工作态度，能够交流学习就可以了。也就是用用别人
的轮子，没什么太难的活。

T*******x
发帖数: 8565

这个在理。

【在 b****u 的大作中提到】

: 这就是为什么我让楼主放一个简单的Spark项目到Github上，其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活，没用过DATAFRAME，没用过ML包，也不影
: 响人家说他会用Spark。有个好的工作态度，能够交流学习就可以了。也就是用用别人
: 的轮子，没什么太难的活。

n******7
发帖数: 12463

学习新东西就是自己把自己推上难堪的境地？
你有病不回了

【在 c*********e 的大作中提到】

: 自己把自己推上难堪的境地，何必呢？

n******7
发帖数: 12463

你是受了这个ＩＤ信口开河的误导
我从来没有吹牛说我会scala/spark
我学这个直接的动因是面试一个职位，recruiter 问我会不会这个
我说没接触，顺便问她这个需要懂吗
她说公司小，里面什么背景的都有，所以想搞清楚每个candidate的背景
来决定最佳的人选
我就感觉，如果我有hand-on的经验，会是个很大的plus
另外现在的行业确实对这一块有需求
我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
谁都有第一次，你不能因为我在家学不到全套活计，就觉得我准备靠吹牛找工作

外行
上就

【在 w***g 的大作中提到】

: 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优，出了问题怎么
: 解决。单机学习前一个没问题。但是后一个，单机模拟机群和真的机群的行为非常不一
: 样，小
: 机群和大机群的行为也非常不一样。我们团队有一个机群，只有很少几台极其，但每台
: 配置
: 都很高。还有一个团队，机器数量是我们好几倍，但每台配置都很低，这个一看就是外行
: 配出来的。算法怎么说都可以，配系统，调优的事情，碰到内行的，问上一两句基本上就
: 现原形了。我要出去说，也只能够说我在小机群上跑过生产系统，几百台几千台的部署
: 根本
: 就没见过。我还有一个只有两台机器的hadoop生产系统，跑了有几年了。如果生物千老

w***g
发帖数: 5958

我解释下为啥学习的时候也不要用单机虚拟集群。
我认为面试的时候吹牛没问题，只要不吹破就行。
这个我觉得大家都是默认的。
但是如果往集群吹，实际没做过会非常容易吹破，所以不建议。
我觉得楼上那位也是那个意思吧。
如果只是吹各种数据分析算法，千老非常有优势。

【在 n******7 的大作中提到】

: 你是受了这个ＩＤ信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位，recruiter 问我会不会这个
: 我说没接触，顺便问她这个需要懂吗
: 她说公司小，里面什么背景的都有，所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉，如果我有hand-on的经验，会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次，你不能因为我在家学不到全套活计，就觉得我准备靠吹牛找工作

n******7
发帖数: 12463

謝謝鼓励
我搜了一下，spark这个data.frame跟Ｒ和python的概念上是一致的，这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话，会有多大优势
很多东西都是听人说，自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行，觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗？如果对用Ｒ/python 处理data和ML比较熟悉，再
有一些spark的经验，够不够？需要scala/nosql方面的知识吗？

【在 b****u 的大作中提到】

n******7
发帖数: 12463

谢谢提醒
我就是论坛上发帖都不喜欢吹牛
所以不会吹破的 :)
这种专业领域，随便问点细节就知道有没有，靠瞎吹拿offer是下下策

【在 w***g 的大作中提到】

: 我解释下为啥学习的时候也不要用单机虚拟集群。
: 我认为面试的时候吹牛没问题，只要不吹破就行。
: 这个我觉得大家都是默认的。
: 但是如果往集群吹，实际没做过会非常容易吹破，所以不建议。
: 我觉得楼上那位也是那个意思吧。
: 如果只是吹各种数据分析算法，千老非常有优势。

l*********s
发帖数: 5409

其实吧，非要一个螺丝顶5个用的地方肯定累，不是什么好去处，大公司更关心的智商
。这点上，哪怕生物博士对计算机硕士也是很有优势的。:-)
我觉得楼主上策还是把leetcode刷烂，然后申请FLAG一步到位。而且转行就要准备彻底
转，不要主打data minging才能有更广阔的天地。

n******7
发帖数: 12463

你说的也有道理，也是我纠结的
这些年一直做NGS data mining，继续这条路走下去也能有饭吃
作为千老干也比较得心应手，算是对行业知识了如指掌
但是这些年也受够了技能没需求的苦了
也在考虑彻底转掉
不过我比较没追求，不想去宇宙中心
希望能在小城市找个工作，没有traffic，买房没压力，没事经常出去玩就好

【在 l*********s 的大作中提到】

: 其实吧，非要一个螺丝顶5个用的地方肯定累，不是什么好去处，大公司更关心的智商
: 。这点上，哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂，然后申请FLAG一步到位。而且转行就要准备彻底
: 转，不要主打data minging才能有更广阔的天地。

b****u
发帖数: 1130

概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西，比如从
yahoo上下载几个股票的每日价格，然后算每5天的平均价格，算一下这几个股票的相关
性，把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
码。当然sql还是很重要的，因为很多东西还是要从数据库获取。
找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

【在 n******7 的大作中提到】

: 謝謝鼓励
: 我搜了一下，spark这个data.frame跟Ｒ和python的概念上是一致的，这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话，会有多大优势
: 很多东西都是听人说，自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行，觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗？如果对用Ｒ/python 处理data和ML比较熟悉，再
: 有一些spark的经验，够不够？需要scala/nosql方面的知识吗？

相关主题
● mapreduce, hadoop还能火几年？	● 有人上Spark用python API的么
● 这个bigdata的学习路线图不错啊	● c++程序员不要把头埋在沙子里了
● Spark已经out了，能跳船的赶快	● Scala会不会把Java搞成第二个C++
进入Programming版参与讨论

M********0
发帖数: 1230

推荐按照cloudera的CDH配一个虚拟机或者本机都行楼主应该是做DM/ML的所以没必
要花时间学java写MR code
直接学spark吧能用scala就用要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的一周左右感觉就intro了我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油

w**z
发帖数: 8232

这是正解，刷 leetcode, 弄熟Java, 专心做码农吧。

【在 l*********s 的大作中提到】

l*****e
发帖数: 1431

像这种对一个特定技术要求这么具体的，很可能是去了就得上手干，你自己在家鼓捣鼓
捣也未必能胜任。我们招人，基本上就是问问Java语言本身的特性，问几道常规算法题
（真的最常规的，比如怎么breadth first 遍历一个tree），问几道基本设计题，再问
问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
如Spark/hadoop写在简历上，就会问问，不写就不会问。也不会因为一个人不懂一个具
体的技术就不招他。其实一个人基础知识扎实的话，这些东西学起来都非常快。除了
startup那种一个人顶三个，来的就得上手的地方，一般都不会要求这么具体这么苛刻。

【在 n******7 的大作中提到】

l*******m
发帖数: 1096

如果你会build你spark project成jar, 单机，多机都是一样的submit, 当然dependecy
, 优化是下一步了。

【在 n******7 的大作中提到】

c*********e
发帖数: 16335

你到底把你学的东西放到github上没有啊？放了就告诉下咱们去学习哈。

【在 n******7 的大作中提到】

: 学习新东西就是自己把自己推上难堪的境地？
: 你有病不回了

c*********e
发帖数: 16335

我说的就是这个意思。生物千老对计算机的基础知识知道得不多，给我一种无所畏惧的
感觉。其实，适当的吹牛没错，但是没有做过，以为很简单，到时候人家让你去做，你
根本都不知道怎么搞distributed system,到时候看你怎么办。

【在 w***g 的大作中提到】

c*********e
发帖数: 16335

拜托你还是先把数据结构这些基本的书读懂了之后再说吧。

【在 n******7 的大作中提到】

: 学习新东西就是自己把自己推上难堪的境地？
: 你有病不回了

d****i
发帖数: 4809

我的建议是：如果想转行的话就不要去搞什么spark/scala这种东西了，这些东西都是
骗人的，IT的老手是不会上当的。真正有用的还是IT的那些老一套，你可以主攻一个语
言，C/C++, Java, Python都可以，然后看看基本的数据结构算法就差不多了，这些语
言和东西都不会变，spark这种东西再过一两年完全销声匿迹都有可能。

【在 n******7 的大作中提到】

: 你说的也有道理，也是我纠结的
: 这些年一直做NGS data mining，继续这条路走下去也能有饭吃
: 作为千老干也比较得心应手，算是对行业知识了如指掌
: 但是这些年也受够了技能没需求的苦了
: 也在考虑彻底转掉
: 不过我比较没追求，不想去宇宙中心
: 希望能在小城市找个工作，没有traffic，买房没压力，没事经常出去玩就好

w***g
发帖数: 5958

我觉得python - C++是一条路，java是另一条路。java是主流，但python-C++可能更适合
千老。如果上java，基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
那套也全面转python了。结果是程序更容易维护，速度差不多快。缺点是内存耗得更多
点。
像我这种今天干这明天干那的，scala真心搞不动。隔一个星期回来看，自己的代码完全
看不懂了。

【在 d****i 的大作中提到】

: 我的建议是：如果想转行的话就不要去搞什么spark/scala这种东西了，这些东西都是
: 骗人的，IT的老手是不会上当的。真正有用的还是IT的那些老一套，你可以主攻一个语
: 言，C/C++, Java, Python都可以，然后看看基本的数据结构算法就差不多了，这些语
: 言和东西都不会变，spark这种东西再过一两年完全销声匿迹都有可能。

d****i
发帖数: 4809

没错，从数据分析角度说python－C++是容易集成一些，但是Java语言上更像C/C++, 用
C++ <-> JNI <－> Java也不失为一条路。

适合
spark上
完全

【在 w***g 的大作中提到】

: 我觉得python - C++是一条路，java是另一条路。java是主流，但python-C++可能更适合
: 千老。如果上java，基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护，速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的，scala真心搞不动。隔一个星期回来看，自己的代码完全
: 看不懂了。

相关主题
● Scala会不会把Java搞成第二个C++	● 解密hadoop文件系统数据存储方式
● 准备因为用spark开始学scala	● 如何往Hadoop 上倒大量数据？
● 一两个million的时间序列在spark上怎么分析	● docker的newbie 问题
进入Programming版参与讨论

w***g
发帖数: 5958

你用过就知道了，python集成C++模块非常容易，JNI的难度不是一个数量极的。
一方面是Python C API本身非常简单，然后boost::python又做得非常干净。
另一方面，Python的单线程模式使得C++ code不需要操心被调用时可能出现的
各种同步问题。
Java本身就是一种编译型语言，和C++差不多是在一个层次上的，整合C++
捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库，
除此之外java community极其反C++，反之亦然。
java和C++基本上是势不两立的状态。python和C++则非常互补。

【在 d****i 的大作中提到】

: 没错，从数据分析角度说python－C++是容易集成一些，但是Java语言上更像C/C++, 用
: C++ <-> JNI <－> Java也不失为一条路。
:
: 适合
: spark上
: 完全

l*********s
发帖数: 5409

re, python和c++互补性很强，java的生态圈则比较封闭。

【在 w***g 的大作中提到】

: 你用过就知道了，python集成C++模块非常容易，JNI的难度不是一个数量极的。
: 一方面是Python C API本身非常简单，然后boost::python又做得非常干净。
: 另一方面，Python的单线程模式使得C++ code不需要操心被调用时可能出现的
: 各种同步问题。
: Java本身就是一种编译型语言，和C++差不多是在一个层次上的，整合C++
: 捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库，
: 除此之外java community极其反C++，反之亦然。
: java和C++基本上是势不两立的状态。python和C++则非常互补。

c*********e
发帖数: 16335

java也可以用c++啊。何来封闭一说？

【在 l*********s 的大作中提到】

: re, python和c++互补性很强，java的生态圈则比较封闭。

l*********s
发帖数: 5409

你写过？纸上谈兵当然容易了。

【在 c*********e 的大作中提到】

: java也可以用c++啊。何来封闭一说？

h**********c
发帖数: 4120

java 如何封闭，zkss
java 和linux kernel 一样是用 c 和 c++混着写出来的。
从我老讲下决心学java纯粹是微软逼出来，软对standard c++一直不鸟，自己搞了一出
又一出，然后又不支持了。在这方面根本没有长线战略，自己把自己的社区一个个搞调。
c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西，你在windows下编编
试试,mac也是一个坑。

【在 l*********s 的大作中提到】

: re, python和c++互补性很强，java的生态圈则比较封闭。

d****i
发帖数: 4809

mac OS有一点不好，虽然mac声称mac OS属于一种类Unix系统，但是native的Mac OS的
东西和convention，当你用C，C++写mac OS的native程序的时候就知道和其他Unix系统
还是区别甚大，不如Linux下用C,C++写程序那么规范和严格遵守POSIX标准，这一点甚
至不如Solaris，Solaris以前也有一些自己独特的东东，但是基本还是遵守Unix那套东
西的规范和传统，后来又全部和POSIX规范统一，在保留了自己的特色的同时和Linux
LSB非常接近。

调。

【在 h**********c 的大作中提到】

: java 如何封闭，zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来，软对standard c++一直不鸟，自己搞了一出
: 又一出，然后又不支持了。在这方面根本没有长线战略，自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西，你在windows下编编
: 试试,mac也是一个坑。

w***g
发帖数: 5958

所有别的语言已经有的功能，java community都会从头写一个java或至少是别的
jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
试试。

调。

【在 h**********c 的大作中提到】

N*****m
发帖数: 42603

jzmq？呵呵

【在 w***g 的大作中提到】

: 所有别的语言已经有的功能，java community都会从头写一个java或至少是别的
: jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
: 试试。
:
: 调。

N*****m
发帖数: 42603

不过总的来说，jni确实难用

【在 N*****m 的大作中提到】

: jzmq？呵呵

h**********c
发帖数: 4120

maven 上烂东西很多，npm match
不过maven不是信用卡公司，没有对第三方任何认证
功能还是不错的，内容很难讲
我本人讲，能用core java实现第一优先
c++写东西，顾虑太多。写服务器要很深的道行

【在 w***g 的大作中提到】

相关主题
● github上面的代码和公司的代码	● spark 到底牛在什么地方？
● 打算装linux搞c++，哪个好 centos? 由本土？	● 大牛说说用scala自己能做啥project
● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？	● 学scala和spark需要什么pre req?
进入Programming版参与讨论

n******7
发帖数: 12463

谢谢，你说的两个例子都不错，有了目标学习起来就快了

【在 b****u 的大作中提到】

: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西，比如从
: yahoo上下载几个股票的每日价格，然后算每5天的平均价格，算一下这几个股票的相关
: 性，把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的，因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

n******7
发帖数: 12463

是的，我也不准备target专门做spark的工作
我主要是想学习了解一下这个方面
一方面找工作是个plus
另一方面我感觉我做的这块对这个的需求会持续上升，就当技能投资

spark

【在 M********0 的大作中提到】

: 推荐按照cloudera的CDH配一个虚拟机或者本机都行楼主应该是做DM/ML的所以没必
: 要花时间学java写MR code
: 直接学spark吧能用scala就用要不就Pyspark 教程youtube 联系就先用spark
: summit上的几个case 弄熟了再随便网上抓data跑
: 这个东西其实上手还蛮快的一周左右感觉就intro了我当时还把那本learning spark
: 的书里面大部分章节看了看
: 不过专门招spark的职位好像非常少所以这个只能是个plus 就算公司里用spark 你进
: 去了也未必要用当然本着学习的态度了解和掌握一下肯定没有坏处
: 楼主加油

n******7
发帖数: 12463

我明白你的意思，你说的跟我第一次面试的感觉一样。
我也权衡过怎么投技能点。目标是纯码公的话，这些基础的东西，还有leetcode啥的都
要加强。纯码工我最喜欢的就是工作机会多，可以住在我喜欢的城市。
但是这就意味着之前投的很多技能点就完全废掉了。作为千老，还在犹豫要不要删号重
练。

刻。

【在 l*****e 的大作中提到】

: 像这种对一个特定技术要求这么具体的，很可能是去了就得上手干，你自己在家鼓捣鼓
: 捣也未必能胜任。我们招人，基本上就是问问Java语言本身的特性，问几道常规算法题
: （真的最常规的，比如怎么breadth first 遍历一个tree），问几道基本设计题，再问
: 问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
: 如Spark/hadoop写在简历上，就会问问，不写就不会问。也不会因为一个人不懂一个具
: 体的技术就不招他。其实一个人基础知识扎实的话，这些东西学起来都非常快。除了
: startup那种一个人顶三个，来的就得上手的地方，一般都不会要求这么具体这么苛刻。

n******7
发帖数: 12463

P.C.R.确实是千老的黄金组合，很多千老广告也是这么写的。这些年来P势头很猛，大
部分事情可以直接用python搞定
只是最近找工作发现相关的工作java特别流行，即使对性能敏感的，也基本都是java
所以想在jvm生态上花些时间学习练习
以后主要靠python+jvm混
那套分析的东西，流行的工具其实一直在变。比如你也做过RNA-seq/DE之类的，你明白的
但是统计/ML的知识跟语言是独立的，我觉得换个语言也还好吧
其实我觉得不会C/C++不算正经程序猿，我这辈子估计是算不了了

适合
spark上
完全

【在 w***g 的大作中提到】

z***s
发帖数: 3241

有个职位需要hadoop，我完全大数据白痴。想快速做个东西让别人看看，可能只有不到
10小时学习时间。冒昧问一句，你说的“把文件夹里所有的数据排序整合成一个文件”
，还有这个处理股票价格的，能不能展开说说怎么下手？
你还说用local node，不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块，你说的是不是MapReduce？谢谢指点。

【在 b****u 的大作中提到】

(共1页)

进入Programming版参与讨论

相关主题
● docker的致命缺陷	● 准备因为用spark开始学scala
● 试了下spark，不过如此啊	● 一两个million的时间序列在spark上怎么分析
● mapreduce, hadoop还能火几年？	● 解密hadoop文件系统数据存储方式
● 这个bigdata的学习路线图不错啊	● 如何往Hadoop 上倒大量数据？
● Spark已经out了，能跳船的赶快	● docker的newbie 问题
● 有人上Spark用python API的么	● github上面的代码和公司的代码
● c++程序员不要把头埋在沙子里了	● 打算装linux搞c++，哪个好 centos? 由本土？
● Scala会不会把Java搞成第二个C++	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？

相关话题的讨论汇总
话题: spark话题: c++话题: java话题: python话题: hadoop

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天