z****8 发帖数: 13 | 1 原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
来参考一下。大牛请忽视以下的内容,小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备:
1. Hadoop,HIVE,SQL数据库操作。
Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统,脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。
其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂
,交叉项多(二维或者三维的交叉)。
工程上的最优化论文推荐:
Ad Click Prediction a View from the Trenches
需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算
法,FTRL算法等。
5. 统计学:
时间序列模型,变量的相关系数,ROC曲线和AUC,交叉验证,主成分分析。
6. 大数据,推荐系统,计算广告学的科普书籍 |
p******e 发帖数: 528 | 2 确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。
【在 z****8 的大作中提到】 : 原文链接: : http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129& : 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候 : 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料 : 来参考一下。大牛请忽视以下的内容,小白可以参考下。 : 从数学专业转行到工业界做数据挖掘需要的知识储备: : 1. Hadoop,HIVE,SQL数据库操作。 : Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数, : 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。 : EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
|
a*****a 发帖数: 19262 | 3 非常好的文章,多谢多谢
若是英文就更好了,看中文好累,有些词汇反应不过来。
【在 z****8 的大作中提到】 : 原文链接: : http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129& : 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候 : 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料 : 来参考一下。大牛请忽视以下的内容,小白可以参考下。 : 从数学专业转行到工业界做数据挖掘需要的知识储备: : 1. Hadoop,HIVE,SQL数据库操作。 : Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数, : 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。 : EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
|
c******4 发帖数: 4896 | |
c******4 发帖数: 4896 | |
j**********3 发帖数: 3211 | |
z****8 发帖数: 13 | 7 原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
来参考一下。大牛请忽视以下的内容,小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备:
1. Hadoop,HIVE,SQL数据库操作。
Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统,脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。
其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂
,交叉项多(二维或者三维的交叉)。
工程上的最优化论文推荐:
Ad Click Prediction a View from the Trenches
需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算
法,FTRL算法等。
5. 统计学:
时间序列模型,变量的相关系数,ROC曲线和AUC,交叉验证,主成分分析。
6. 大数据,推荐系统,计算广告学的科普书籍 |
p******e 发帖数: 528 | 8 确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。
【在 z****8 的大作中提到】 : 原文链接: : http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129& : 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候 : 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料 : 来参考一下。大牛请忽视以下的内容,小白可以参考下。 : 从数学专业转行到工业界做数据挖掘需要的知识储备: : 1. Hadoop,HIVE,SQL数据库操作。 : Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数, : 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。 : EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
|
a*****a 发帖数: 19262 | 9 非常好的文章,多谢多谢
若是英文就更好了,看中文好累,有些词汇反应不过来。
【在 z****8 的大作中提到】 : 原文链接: : http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129& : 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候 : 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料 : 来参考一下。大牛请忽视以下的内容,小白可以参考下。 : 从数学专业转行到工业界做数据挖掘需要的知识储备: : 1. Hadoop,HIVE,SQL数据库操作。 : Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数, : 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。 : EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
|
c******4 发帖数: 4896 | |
|
|
c******4 发帖数: 4896 | |
j**********3 发帖数: 3211 | |
z****8 发帖数: 13 | 13 确实需要一定的时间,不过可以一边看书,一边寻找实习机会,在工作中结合业务学习
会快很多。
【在 p******e 的大作中提到】 : 确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西 : 需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有 : CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者 : 是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1 : 到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。
|
t******g 发帖数: 2253 | |
z****8 发帖数: 13 | 15 确实是ds。。。。
【在 t******g 的大作中提到】 : 这个list比较适合做计算广告相关的ds。
|
c********n 发帖数: 2 | 16 大家好!本人建了个qq群供数据科学爱好者互动交流,目前群内已召集800多位行业工作
者,相关企业HR和数据科学爱好者!主要供大数据、数学,算法、数据挖掘、机器学习
,数据可视化,数据仓库、商业智能、软件编程等方面爱好者交流。群里既谈数据科学
,也分享人生喜悦,大家互相帮助,长期寻求数据科学达人加入。感兴趣的朋友可以加
qq群,链接是【数据家-交流群】:http://jq.qq.com/?_wv=1027&k=hxebyg 或者搜索群号482167413 感谢mitbbs数据科学版提供平台! |