由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 转行数据挖掘和机器学习
相关主题
有人考虑过kaggle上这个预测CTR的题目么?一个面试题(predictive model) (转载)
特征工程简介做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
40道经典DS/ML面试题解答,求指导求教分类问题中预测概率的问题
有关Stochastic Gradient Descentlending club的notes 数据
你们用的都是pig吗?搞了个实时twitter文本分析来研究闯王和吸奶的行情分析 (转载)
有没有人想报Cloudera的Data Scientist Certificate的【真心请教】选master project课题 - 有包子 (转载)
现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊说说最近的一次面试,兼告诫国人
如何用python读取大数据Neural Network面试的时候会怎么问啊?
相关话题的讨论汇总
话题: 算法话题: 数据挖掘话题: 函数话题: lr话题: 特征
进入DataSciences版参与讨论
1 (共1页)
z****8
发帖数: 13
1
原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
来参考一下。大牛请忽视以下的内容,小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备:
1. Hadoop,HIVE,SQL数据库操作。
Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统,脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。
其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂
,交叉项多(二维或者三维的交叉)。
工程上的最优化论文推荐:
Ad Click Prediction a View from the Trenches
需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算
法,FTRL算法等。
5. 统计学:
时间序列模型,变量的相关系数,ROC曲线和AUC,交叉验证,主成分分析。
6. 大数据,推荐系统,计算广告学的科普书籍
p******e
发帖数: 528
2
确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

a*****a
发帖数: 19262
3
非常好的文章,多谢多谢
若是英文就更好了,看中文好累,有些词汇反应不过来。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

c******4
发帖数: 4896
4
非常感谢分享
c******4
发帖数: 4896
5
非常感谢分享
j**********3
发帖数: 3211
6
谢谢分享!
z****8
发帖数: 13
7
原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
来参考一下。大牛请忽视以下的内容,小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备:
1. Hadoop,HIVE,SQL数据库操作。
Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统,脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。
其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂
,交叉项多(二维或者三维的交叉)。
工程上的最优化论文推荐:
Ad Click Prediction a View from the Trenches
需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算
法,FTRL算法等。
5. 统计学:
时间序列模型,变量的相关系数,ROC曲线和AUC,交叉验证,主成分分析。
6. 大数据,推荐系统,计算广告学的科普书籍
p******e
发帖数: 528
8
确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

a*****a
发帖数: 19262
9
非常好的文章,多谢多谢
若是英文就更好了,看中文好累,有些词汇反应不过来。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

c******4
发帖数: 4896
10
非常感谢分享
相关主题
有没有人想报Cloudera的Data Scientist Certificate的一个面试题(predictive model) (转载)
现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
如何用python读取大数据求教分类问题中预测概率的问题
进入DataSciences版参与讨论
c******4
发帖数: 4896
11
非常感谢分享
j**********3
发帖数: 3211
12
谢谢分享!
z****8
发帖数: 13
13
确实需要一定的时间,不过可以一边看书,一边寻找实习机会,在工作中结合业务学习
会快很多。

【在 p******e 的大作中提到】
: 确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
: 需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
: CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
: 是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
: 到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。

t******g
发帖数: 2253
14
这个list比较适合做计算广告相关的ds。
z****8
发帖数: 13
15
确实是ds。。。。

【在 t******g 的大作中提到】
: 这个list比较适合做计算广告相关的ds。
c********n
发帖数: 2
16
大家好!本人建了个qq群供数据科学爱好者互动交流,目前群内已召集800多位行业工作
者,相关企业HR和数据科学爱好者!主要供大数据、数学,算法、数据挖掘、机器学习
,数据可视化,数据仓库、商业智能、软件编程等方面爱好者交流。群里既谈数据科学
,也分享人生喜悦,大家互相帮助,长期寻求数据科学达人加入。感兴趣的朋友可以加
qq群,链接是【数据家-交流群】:http://jq.qq.com/?_wv=1027&k=hxebyg 或者搜索群号482167413 感谢mitbbs数据科学版提供平台!
1 (共1页)
进入DataSciences版参与讨论
相关主题
Neural Network面试的时候会怎么问啊?你们用的都是pig吗?
我觉得neural network应用范围不大啊有没有人想报Cloudera的Data Scientist Certificate的
问一下python 或者是 R 里面 gradient boosting model 的问题现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊
Princeton Quant Trading Conference – Chicago Nov. 7th如何用python读取大数据
有人考虑过kaggle上这个预测CTR的题目么?一个面试题(predictive model) (转载)
特征工程简介做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
40道经典DS/ML面试题解答,求指导求教分类问题中预测概率的问题
有关Stochastic Gradient Descentlending club的notes 数据
相关话题的讨论汇总
话题: 算法话题: 数据挖掘话题: 函数话题: lr话题: 特征