l*******e 发帖数: 121 | 1 化学出身,
自学了个C, python, java,
想再学学Hadoop找big data工作有可能吗,
这种工作对统计要求高吗比如必须要统计硕士博士之类? |
z****e 发帖数: 54598 | 2 未必对统计要求高
但是你要知道怎么用统计上的那些知识
知道线性代数怎么用来做搜索
相似度理论,如何做群这些
严格说来这些是统计,也不是统计
可以说是统计跟cs结合的一个领域吧
另外我个人觉得big data离真正创造价值还有很长的路要走
前一段狂热有些hype的味道,我不认为把鸡蛋放在这一个篮子里是啥好事
你应该同时也考虑一下其他职位,比如开发岗 |
l*******e 发帖数: 121 | 3 哦,
谢谢,
不过你说的这些概念比如相似度,群之类我都比较模糊,
学习这些理论需要很长时间吗,
还是只要停留在了解会用的层面上就行了。
另外谢谢你对其它职位的建议。
【在 z****e 的大作中提到】 : 未必对统计要求高 : 但是你要知道怎么用统计上的那些知识 : 知道线性代数怎么用来做搜索 : 相似度理论,如何做群这些 : 严格说来这些是统计,也不是统计 : 可以说是统计跟cs结合的一个领域吧 : 另外我个人觉得big data离真正创造价值还有很长的路要走 : 前一段狂热有些hype的味道,我不认为把鸡蛋放在这一个篮子里是啥好事 : 你应该同时也考虑一下其他职位,比如开发岗
|
m****u 发帖数: 199 | 4 big data就是要会吹牛,说你刷试管的时候用了big data处理几万billion分子的数据 |
z****e 发帖数: 54598 | 5
如果你现在对这些还是一无所知的话
可以不要考虑这条路,基本上没戏
【在 l*******e 的大作中提到】 : 哦, : 谢谢, : 不过你说的这些概念比如相似度,群之类我都比较模糊, : 学习这些理论需要很长时间吗, : 还是只要停留在了解会用的层面上就行了。 : 另外谢谢你对其它职位的建议。
|
x****g 发帖数: 39 | 6 我擦,相似度理论,群,这 tmd 要统计PhD才能接触到吧,你是来卖萌的么
【在 z****e 的大作中提到】 : 未必对统计要求高 : 但是你要知道怎么用统计上的那些知识 : 知道线性代数怎么用来做搜索 : 相似度理论,如何做群这些 : 严格说来这些是统计,也不是统计 : 可以说是统计跟cs结合的一个领域吧 : 另外我个人觉得big data离真正创造价值还有很长的路要走 : 前一段狂热有些hype的味道,我不认为把鸡蛋放在这一个篮子里是啥好事 : 你应该同时也考虑一下其他职位,比如开发岗
|
w********p 发帖数: 948 | 7 data scientist 和 big data engineer 的职位要求差很多的。在我看来天壤之别。
还是先分清是哪个职位。
当然也有看到牛人data scientist 很精通big data engineer。
【在 l*******e 的大作中提到】 : 化学出身, : 自学了个C, python, java, : 想再学学Hadoop找big data工作有可能吗, : 这种工作对统计要求高吗比如必须要统计硕士博士之类?
|
l*******e 发帖数: 121 | 8 能稍微具体展开说说data scientist 和 big data engineer 的职位区别吗,
本人纯外行,
但是有一颗好学的心。
【在 w********p 的大作中提到】 : data scientist 和 big data engineer 的职位要求差很多的。在我看来天壤之别。 : 还是先分清是哪个职位。 : 当然也有看到牛人data scientist 很精通big data engineer。
|
a******3 发帖数: 170 | 9 data engineers 主要涵盖大数据系统的维护和开发, 比如: hadoop, Spark, storm,
等等,以及基于这些系统之上的 ETL pipeline,主要的活是编程 + 分布式系统设计
。
data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如,运行一个
SQL 语句来拿一些数据; 复杂的任务比如,建立模型来预测用户行为。一般用 SQL,
python, R 等等。
小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
data mining / machine learning 算法。 |
l*******e 发帖数: 121 | 10 听起来data engineer更接近CS,
而data scientist更接近统计。
能不能这么理解,
就是找data scientist工作对统计要求更高,
但是想要在大数据平台上玩得好,
统计和编程要求都很高。
storm,
【在 a******3 的大作中提到】 : data engineers 主要涵盖大数据系统的维护和开发, 比如: hadoop, Spark, storm, : 等等,以及基于这些系统之上的 ETL pipeline,主要的活是编程 + 分布式系统设计 : 。 : data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如,运行一个 : SQL 语句来拿一些数据; 复杂的任务比如,建立模型来预测用户行为。一般用 SQL, : python, R 等等。 : 小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效 : data mining / machine learning 算法。
|
|
|
z****e 发帖数: 54598 | 11
相似度理论都不做,那做什么big data啊?
光big就叫big data了的话,那谁都是big data了
well,不可否认,现在的确是谁都说自己搞的是big data
那看你怎么定义了
【在 x****g 的大作中提到】 : 我擦,相似度理论,群,这 tmd 要统计PhD才能接触到吧,你是来卖萌的么
|
z****e 发帖数: 54598 | 12 相似度理论应该是big data的基石
基于txt的相似,搞出声音和图像的相似
这是人类认知的第一步,现在就在教电脑怎么认知这个世界
然后电脑才能想办法思考,人如果没有文字这些就无法思考
所以这个叫做ml
big data最大的问题在于数据的无规则化
而无规则的数据要从中找出相似的是非常有挑战性的
这就需要用到数学和各种统计了
这个才是big data进而ml那些东东
当然这个有些偏理论化了,应用的话,可以直接用来预测
比如搜索引擎预测哪些文件是你需要的
但是预测这个,其实不是big data真正关心的
在data warehousing时代就有这些东西了
包括什么etl这些,其实都是数据仓库的东东
十年前就有了,跟现在搞的这些不完全是一回事
当然他们也说自己搞的是big data就是了
毕竟是buzz words嘛,写在resume上也好看点 |
t*****n 发帖数: 481 | |
a******e 发帖数: 82 | 14 再扯这些抽象的之前,你先来说什么是big data,他要解决的问题是什么?
【在 z****e 的大作中提到】 : 相似度理论应该是big data的基石 : 基于txt的相似,搞出声音和图像的相似 : 这是人类认知的第一步,现在就在教电脑怎么认知这个世界 : 然后电脑才能想办法思考,人如果没有文字这些就无法思考 : 所以这个叫做ml : big data最大的问题在于数据的无规则化 : 而无规则的数据要从中找出相似的是非常有挑战性的 : 这就需要用到数学和各种统计了 : 这个才是big data进而ml那些东东 : 当然这个有些偏理论化了,应用的话,可以直接用来预测
|
z****e 发帖数: 54598 | 15
想知道真实的答案么?
其实解决不了什么问题
所以泡沫化很严重
所以这种岗位其实提供不了多少工作机会
大多数时候都是软工搞定
这个东西其实就是一个远景
人类追求制造skynet和matrix的一个过程
但是在此之前,指望在短短几年之内就变现
这是不现实的
【在 a******e 的大作中提到】 : 再扯这些抽象的之前,你先来说什么是big data,他要解决的问题是什么?
|
g*******u 发帖数: 3948 | 16 也不太远了吧
我咋感觉现在啥都是 deep learning呢? 感觉丫 效果不错
大家啥问题都是机体上 DL, 把以前的模型都不用了 ,试了下 DL 提高不少
【在 z****e 的大作中提到】 : 未必对统计要求高 : 但是你要知道怎么用统计上的那些知识 : 知道线性代数怎么用来做搜索 : 相似度理论,如何做群这些 : 严格说来这些是统计,也不是统计 : 可以说是统计跟cs结合的一个领域吧 : 另外我个人觉得big data离真正创造价值还有很长的路要走 : 前一段狂热有些hype的味道,我不认为把鸡蛋放在这一个篮子里是啥好事 : 你应该同时也考虑一下其他职位,比如开发岗
|