n******7 发帖数: 12463 | 1 千老找工作,被问到了scala/spark/NoSQL这方面
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗?
最好有什么工具专门为这个目的设计的
vagrant似乎不错? |
p***o 发帖数: 1252 | 2 github上搜一搜, 现成的vagrant/docker配置都很多。
【在 n******7 的大作中提到】 : 千老找工作,被问到了scala/spark/NoSQL这方面 : 感觉有必要练习一下 : 有个16核64G内存的机器 : 为了学习spark/hadoop之类的 : 我在琢磨单机多开虚拟机来模拟cluster : 有这么玩的吗? : 最好有什么工具专门为这个目的设计的 : vagrant似乎不错?
|
w***g 发帖数: 5958 | 3 直接跑单机版的。不用开虚拟机。
如果是非linux主机非要开虚拟机,最多开一个。
【在 n******7 的大作中提到】 : 千老找工作,被问到了scala/spark/NoSQL这方面 : 感觉有必要练习一下 : 有个16核64G内存的机器 : 为了学习spark/hadoop之类的 : 我在琢磨单机多开虚拟机来模拟cluster : 有这么玩的吗? : 最好有什么工具专门为这个目的设计的 : vagrant似乎不错?
|
x***u 发帖数: 297 | 4 工作当然是这样。
要是学习/实验在cluster上部署呢?
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。
【在 w***g 的大作中提到】 : 直接跑单机版的。不用开虚拟机。 : 如果是非linux主机非要开虚拟机,最多开一个。
|
g*****1 发帖数: 93 | |
n******7 发帖数: 12463 | 6 谢大牛
先从最简单方案的开始学最好
【在 w***g 的大作中提到】 : 直接跑单机版的。不用开虚拟机。 : 如果是非linux主机非要开虚拟机,最多开一个。
|
l**********n 发帖数: 8443 | 7 正解
【在 w***g 的大作中提到】 : 直接跑单机版的。不用开虚拟机。 : 如果是非linux主机非要开虚拟机,最多开一个。
|
c*******7 发帖数: 2506 | 8 mark
【在 w***g 的大作中提到】 : 直接跑单机版的。不用开虚拟机。 : 如果是非linux主机非要开虚拟机,最多开一个。
|
b****u 发帖数: 1130 | 9 最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最
主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
infrastructure上。 |
n******7 发帖数: 12463 | 10 你有工作了,所以解决问题最重要
我没有工作,所以一个东西即使用不上
只要别人想考你,你就得知道不是
【在 b****u 的大作中提到】 : 最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最 : 主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。 : python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在 : infrastructure上。
|
|
|
b****u 发帖数: 1130 | 11 我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。 |
c*********e 发帖数: 16335 | 12 没做过就说没做过,否则骗过了面试,进去让你做个项目,你就难了。
【在 n******7 的大作中提到】 : 千老找工作,被问到了scala/spark/NoSQL这方面 : 感觉有必要练习一下 : 有个16核64G内存的机器 : 为了学习spark/hadoop之类的 : 我在琢磨单机多开虚拟机来模拟cluster : 有这么玩的吗? : 最好有什么工具专门为这个目的设计的 : vagrant似乎不错?
|
b****u 发帖数: 1130 | 13 就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。 |
n******7 发帖数: 12463 | 14 謝謝!
一直想在github上放点啥,你这个建议很好
我研究一下spark要怎么弄
【在 b****u 的大作中提到】 : 我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹 : 里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。
|
c*********e 发帖数: 16335 | 15 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
不好,可以吹成做得很好。但是,没做过,就说没做过。
【在 b****u 的大作中提到】 : 就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。
|
n******7 发帖数: 12463 | 16 你为什么总要假设我面试的时候骗人家说以前做过?
我还真不觉得spark有多难,但是我需要学习,就这么简单
【在 c*********e 的大作中提到】 : 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公 : 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得 : 不好,可以吹成做得很好。但是,没做过,就说没做过。
|
w********m 发帖数: 1137 | 17 估计spark是个人都谈
还没见过谁真正用。
所以大胆吹牛吧 |
c*********e 发帖数: 16335 | 18 自己把自己推上难堪的境地,何必呢?
【在 n******7 的大作中提到】 : 你为什么总要假设我面试的时候骗人家说以前做过? : 我还真不觉得spark有多难,但是我需要学习,就这么简单
|
T*******x 发帖数: 8565 | 19 你这就有点引申了。打住吧。
【在 c*********e 的大作中提到】 : 自己把自己推上难堪的境地,何必呢?
|
w***g 发帖数: 5958 | 20 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
样,小
机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
配置
都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
过来说搞过spark机群,这事本来就非常可疑,必然要问下去的。不需要问技术细节,
只要问是什么样的dataset,有多大,楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset,单机上各种统计聚类啥的玩得纯熟,感觉上
会好很多。
本来要做成事情就难,大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛,感觉会非常不好。
(对方如果根本不懂技术,招人带头建data science组这种情况另说,那就真的怎么乎
悠都
行了。)
【在 c*********e 的大作中提到】 : 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公 : 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得 : 不好,可以吹成做得很好。但是,没做过,就说没做过。
|
|
|
b****u 发帖数: 1130 | 21 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
的轮子,没什么太难的活。 |
T*******x 发帖数: 8565 | 22 这个在理。
【在 b****u 的大作中提到】 : 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以 : 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影 : 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人 : 的轮子,没什么太难的活。
|
n******7 发帖数: 12463 | 23 学习新东西就是自己把自己推上难堪的境地?
你有病 不回了
【在 c*********e 的大作中提到】 : 自己把自己推上难堪的境地,何必呢?
|
n******7 发帖数: 12463 | 24 你是受了这个ID信口开河的误导
我从来没有吹牛说我会scala/spark
我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
我说没接触,顺便问她这个需要懂吗
她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
来决定最佳的人选
我就感觉,如果我有hand-on的经验,会是个很大的plus
另外现在的行业确实对这一块有需求
我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
外行
上就
【在 w***g 的大作中提到】 : 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么 : 解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一 : 样,小 : 机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台 : 配置 : 都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行 : 配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就 : 现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署 : 根本 : 就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
|
w***g 发帖数: 5958 | 25 我解释下为啥学习的时候也不要用单机虚拟集群。
我认为面试的时候吹牛没问题,只要不吹破就行。
这个我觉得大家都是默认的。
但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
我觉得楼上那位也是那个意思吧。
如果只是吹各种数据分析算法,千老非常有优势。
【在 n******7 的大作中提到】 : 你是受了这个ID信口开河的误导 : 我从来没有吹牛说我会scala/spark : 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个 : 我说没接触,顺便问她这个需要懂吗 : 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景 : 来决定最佳的人选 : 我就感觉,如果我有hand-on的经验,会是个很大的plus : 另外现在的行业确实对这一块有需求 : 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作 : 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
|
n******7 发帖数: 12463 | 26 謝謝鼓励
我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话,会有多大优势
很多东西都是听人说,自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
【在 b****u 的大作中提到】 : 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以 : 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影 : 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人 : 的轮子,没什么太难的活。
|
n******7 发帖数: 12463 | 27 谢谢提醒
我就是论坛上发帖都不喜欢吹牛
所以不会吹破的 :)
这种专业领域,随便问点细节就知道有没有,靠瞎吹拿offer是下下策
【在 w***g 的大作中提到】 : 我解释下为啥学习的时候也不要用单机虚拟集群。 : 我认为面试的时候吹牛没问题,只要不吹破就行。 : 这个我觉得大家都是默认的。 : 但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。 : 我觉得楼上那位也是那个意思吧。 : 如果只是吹各种数据分析算法,千老非常有优势。
|
l*********s 发帖数: 5409 | 28 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
转,不要主打data minging才能有更广阔的天地。 |
n******7 发帖数: 12463 | 29 你说的也有道理,也是我纠结的
这些年一直做NGS data mining,继续这条路走下去也能有饭吃
作为千老干也比较得心应手,算是对行业知识了如指掌
但是这些年也受够了技能没需求的苦了
也在考虑彻底转掉
不过我比较没追求,不想去宇宙中心
希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好
【在 l*********s 的大作中提到】 : 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商 : 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-) : 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底 : 转,不要主打data minging才能有更广阔的天地。
|
b****u 发帖数: 1130 | 30 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
【在 n******7 的大作中提到】 : 謝謝鼓励 : 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟 : 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同 : 在我们行业里面使用的话,会有多大优势 : 很多东西都是听人说,自己不摸一下没感觉 : 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的 : 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再 : 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
|
|
|
M********0 发帖数: 1230 | 31 推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
要花时间学java写MR code
直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油 |
w**z 发帖数: 8232 | 32 这是正解,刷 leetcode, 弄熟Java, 专心做码农吧。
【在 l*********s 的大作中提到】 : 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商 : 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-) : 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底 : 转,不要主打data minging才能有更广阔的天地。
|
l*****e 发帖数: 1431 | 33 像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
(真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。
【在 n******7 的大作中提到】 : 謝謝鼓励 : 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟 : 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同 : 在我们行业里面使用的话,会有多大优势 : 很多东西都是听人说,自己不摸一下没感觉 : 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的 : 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再 : 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
|
l*******m 发帖数: 1096 | 34 如果你会build你spark project成jar, 单机,多机都是一样的submit, 当然dependecy
, 优化是下一步了。
【在 n******7 的大作中提到】 : 你是受了这个ID信口开河的误导 : 我从来没有吹牛说我会scala/spark : 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个 : 我说没接触,顺便问她这个需要懂吗 : 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景 : 来决定最佳的人选 : 我就感觉,如果我有hand-on的经验,会是个很大的plus : 另外现在的行业确实对这一块有需求 : 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作 : 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
|
c*********e 发帖数: 16335 | 35 你到底把你学的东西放到github上没有啊?放了就告诉下咱们去学习哈。
【在 n******7 的大作中提到】 : 学习新东西就是自己把自己推上难堪的境地? : 你有病 不回了
|
c*********e 发帖数: 16335 | 36 我说的就是这个意思。生物千老对计算机的基础知识知道得不多,给我一种无所畏惧的
感觉。其实,适当的吹牛没错,但是没有做过,以为很简单,到时候人家让你去做,你
根本都不知道怎么搞distributed system,到时候看你怎么办。
【在 w***g 的大作中提到】 : 我解释下为啥学习的时候也不要用单机虚拟集群。 : 我认为面试的时候吹牛没问题,只要不吹破就行。 : 这个我觉得大家都是默认的。 : 但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。 : 我觉得楼上那位也是那个意思吧。 : 如果只是吹各种数据分析算法,千老非常有优势。
|
c*********e 发帖数: 16335 | 37 拜托你还是先把 数据结构 这些基本的书读懂了之后再说吧。
【在 n******7 的大作中提到】 : 学习新东西就是自己把自己推上难堪的境地? : 你有病 不回了
|
d****i 发帖数: 4809 | 38 我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。
【在 n******7 的大作中提到】 : 你说的也有道理,也是我纠结的 : 这些年一直做NGS data mining,继续这条路走下去也能有饭吃 : 作为千老干也比较得心应手,算是对行业知识了如指掌 : 但是这些年也受够了技能没需求的苦了 : 也在考虑彻底转掉 : 不过我比较没追求,不想去宇宙中心 : 希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好
|
w***g 发帖数: 5958 | 39 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
点。
像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
看不懂了。
【在 d****i 的大作中提到】 : 我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是 : 骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语 : 言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语 : 言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。
|
d****i 发帖数: 4809 | 40 没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
C++ <-> JNI <-> Java也不失为一条路。
适合
spark上
完全
【在 w***g 的大作中提到】 : 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合 : 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上 : 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多 : 点。 : 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全 : 看不懂了。
|
|
|
w***g 发帖数: 5958 | 41 你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
各种同步问题。
Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
除此之外java community极其反C++,反之亦然。
java和C++基本上是势不两立的状态。python和C++则非常互补。
【在 d****i 的大作中提到】 : 没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用 : C++ <-> JNI <-> Java也不失为一条路。 : : 适合 : spark上 : 完全
|
l*********s 发帖数: 5409 | 42 re, python和c++互补性很强,java的生态圈则比较封闭。
【在 w***g 的大作中提到】 : 你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。 : 一方面是Python C API本身非常简单,然后boost::python又做得非常干净。 : 另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的 : 各种同步问题。 : Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++ : 捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库, : 除此之外java community极其反C++,反之亦然。 : java和C++基本上是势不两立的状态。python和C++则非常互补。
|
c*********e 发帖数: 16335 | 43 java也可以用c++啊。何来封闭一说?
【在 l*********s 的大作中提到】 : re, python和c++互补性很强,java的生态圈则比较封闭。
|
l*********s 发帖数: 5409 | 44 你写过?纸上谈兵当然容易了。
【在 c*********e 的大作中提到】 : java也可以用c++啊。何来封闭一说?
|
h**********c 发帖数: 4120 | 45 java 如何封闭,zkss
java 和linux kernel 一样是用 c 和 c++混着写出来的。
从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
试试,mac也是一个坑。
【在 l*********s 的大作中提到】 : re, python和c++互补性很强,java的生态圈则比较封闭。
|
d****i 发帖数: 4809 | 46 mac OS有一点不好,虽然mac声称mac OS属于一种类Unix系统,但是native的Mac OS的
东西和convention,当你用C,C++写mac OS的native程序的时候就知道和其他Unix系统
还是区别甚大,不如Linux下用C,C++写程序那么规范和严格遵守POSIX标准,这一点甚
至不如Solaris,Solaris以前也有一些自己独特的东东,但是基本还是遵守Unix那套东
西的规范和传统,后来又全部和POSIX规范统一,在保留了自己的特色的同时和Linux
LSB非常接近。
调。
【在 h**********c 的大作中提到】 : java 如何封闭,zkss : java 和linux kernel 一样是用 c 和 c++混着写出来的。 : 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出 : 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。 : c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编 : 试试,mac也是一个坑。
|
w***g 发帖数: 5958 | 47 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
试试。
调。
【在 h**********c 的大作中提到】 : java 如何封闭,zkss : java 和linux kernel 一样是用 c 和 c++混着写出来的。 : 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出 : 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。 : c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编 : 试试,mac也是一个坑。
|
N*****m 发帖数: 42603 | 48 jzmq?呵呵
【在 w***g 的大作中提到】 : 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的 : jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository : 试试。 : : 调。
|
N*****m 发帖数: 42603 | 49 不过总的来说,jni确实难用
【在 N*****m 的大作中提到】 : jzmq?呵呵
|
h**********c 发帖数: 4120 | 50 maven 上烂东西很多,npm match
不过maven不是信用卡公司,没有对第三方任何认证
功能还是不错的,内容很难讲
我本人讲,能用core java实现第一优先
c++写东西,顾虑太多。写服务器要很深的道行
【在 w***g 的大作中提到】 : 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的 : jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository : 试试。 : : 调。
|
|
|
n******7 发帖数: 12463 | 51 谢谢,你说的两个例子都不错,有了目标学习起来就快了
【在 b****u 的大作中提到】 : 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从 : yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关 : 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实 : 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代 : 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。 : 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
|
n******7 发帖数: 12463 | 52 是的,我也不准备target专门做spark的工作
我主要是想学习了解一下这个方面
一方面找工作是个plus
另一方面我感觉我做的这块对这个的需求会持续上升,就当技能投资
spark
【在 M********0 的大作中提到】 : 推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必 : 要花时间学java写MR code : 直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark : summit上的几个case 弄熟了再随便网上抓data跑 : 这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark : 的书里面大部分章节看了看 : 不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进 : 去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处 : 楼主加油
|
n******7 发帖数: 12463 | 53 我明白你的意思,你说的跟我第一次面试的感觉一样。
我也权衡过怎么投技能点。目标是纯码公的话,这些基础的东西,还有leetcode啥的都
要加强。纯码工我最喜欢的就是工作机会多,可以住在我喜欢的城市。
但是这就意味着之前投的很多技能点就完全废掉了。作为千老,还在犹豫要不要删号重
练。
刻。
【在 l*****e 的大作中提到】 : 像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓 : 捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题 : (真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问 : 问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比 : 如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具 : 体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了 : startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。
|
n******7 发帖数: 12463 | 54 P.C.R.确实是千老的黄金组合,很多千老广告也是这么写的。这些年来P势头很猛,大
部分事情可以直接用python搞定
只是最近找工作发现相关的工作java特别流行,即使对性能敏感的,也基本都是java
所以想在jvm生态上花些时间学习练习
以后主要靠python+jvm混
那套分析的东西,流行的工具其实一直在变。比如你也做过RNA-seq/DE之类的,你明白的
但是统计/ML的知识跟语言是独立的,我觉得换个语言也还好吧
其实我觉得不会C/C++不算正经程序猿,我这辈子估计是算不了了
适合
spark上
完全
【在 w***g 的大作中提到】 : 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合 : 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上 : 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多 : 点。 : 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全 : 看不懂了。
|
z***s 发帖数: 3241 | 55 有个职位需要hadoop,我完全大数据白痴。想快速做个东西让别人看看,可能只有不到
10小时学习时间。冒昧问一句,你说的“把文件夹里所有的数据排序整合成一个文件”
,还有这个处理股票价格的,能不能展开说说怎么下手?
你还说用local node,不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块,你说的是不是MapReduce?谢谢指点。
【在 b****u 的大作中提到】 : 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从 : yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关 : 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实 : 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代 : 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。 : 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
|