由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - ML 需不需要搞懂那些数学
相关主题
关于搞ML刷数据的职业前途有没有大牛愿意牵头搞一个 deep learning project
准备向wdong大牛学习单干了数据科学碗2017
看了几个kaggle的答题,有点迷惑了Kaggle 被买了
NLP是使用什么技术或框架实现的?数据碗的结果出来了 weidong站上英雄榜了
已经全上内存了,还要40多秒啊Ai这个社团很多人是很坏的
被docker气死了Kaggle比赛禁止中国人参加
kaggle上那批人太逆天了Zillow Prize讨论专用贴
总结一下kaggle比赛廖方舟 李哲 金奖! (转载)
相关话题的讨论汇总
话题: ml话题: 公式话题: 算法话题: learning话题: 数学
进入Programming版参与讨论
1 (共1页)
c*****e
发帖数: 3226
1
1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需
要,最最推荐的书是?
2)搞 ML为生的, 工作的重点放在哪里?预先处理数据?调试参数?比较结果?还是
写系统处理大数据?感觉前面列的很多工作不需要写程序,完全就是 data scientist
做的事情。
3)很多时候,感觉没有一个确定的答案,因为不同的模型都可以用,是一种感知,没
有完全的对错。
c****3
发帖数: 10787
2
这玩意不是真理,你想要紧跟ML的东西,就得搞懂。
不过ML的东西,和人的学习完全不是一回事。所以就算搞懂,将来也不见得孩有用。因
为一直有个更好的,放在身边,就是大家不知道怎么实现的。
ML也就算勉强能用。从实用主义的角度,能解决一些问题。
说穿就是这么回事,就看你自己怎么想

1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需

【在 c*****e 的大作中提到】
: 1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需
: 要,最最推荐的书是?
: 2)搞 ML为生的, 工作的重点放在哪里?预先处理数据?调试参数?比较结果?还是
: 写系统处理大数据?感觉前面列的很多工作不需要写程序,完全就是 data scientist
: 做的事情。
: 3)很多时候,感觉没有一个确定的答案,因为不同的模型都可以用,是一种感知,没
: 有完全的对错。

g****t
发帖数: 31659
3
找个靠谱的学校,靠谱的老师很重要。

1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需

【在 c*****e 的大作中提到】
: 1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需
: 要,最最推荐的书是?
: 2)搞 ML为生的, 工作的重点放在哪里?预先处理数据?调试参数?比较结果?还是
: 写系统处理大数据?感觉前面列的很多工作不需要写程序,完全就是 data scientist
: 做的事情。
: 3)很多时候,感觉没有一个确定的答案,因为不同的模型都可以用,是一种感知,没
: 有完全的对错。

c*****e
发帖数: 3226
4
wdong 啥意见?
不觉得靠谱的学校有用,靠谱的老师少之又少

【在 g****t 的大作中提到】
: 找个靠谱的学校,靠谱的老师很重要。
:
: 1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需

w***g
发帖数: 5958
5
啥都不懂的, 从这里开始
https://github.com/dmlc/xgboost/blob/master/doc/get_started/index.md
开始出活以后读这个http://scikit-learn.org/stable/user_guide.html
不愿意全读, 可以只读1.1, 1.4-1.6, 1.10-1.11, 2.3, 3.1-3.5. 以及按需读5中的内
容.
还有一个办法, 就是去找kaggle比赛第一名的代码, 一行一行查过去.
如果能做到背下来, 基本上就是半个高手了. 我上面列的这些链接和kaggle
应该有很大的重合.
有老师带自然最好. 没老师,应用的东西自己下点苦功夫也能学.
如果没有PhD垫底, 出去找工作前最好做几个kaggle比赛然后把排名给人家看.
如果是做研究的话就必须老师了.
我做ML也就一般水平, 去kaggle上拿不了前10. 不过解决实际问题往往也够了.
我觉得对于出活, 知道API, 对数据有点感觉就行, 懂不懂数学应该没啥关系.
关键是要对数据有感觉. 这个感觉只能靠多看不同的数据, 多调参数来培养.

【在 c*****e 的大作中提到】
: wdong 啥意见?
: 不觉得靠谱的学校有用,靠谱的老师少之又少

w***g
发帖数: 5958
6
还是回原贴吧. 我觉得搞ML为生很难. ML是临门一脚的事情. 这种好位置就是有, 也都
有人占着了. 能进大公司ML组自然很好. 如果是小公司, 其实是养不起专职ML的.
而大公司就那么几个, 招人范围基本上就是几个top学校的phd毕业生.
如果等着赚前养家, 与其学ML, 还不如学写网页. 等会写网页了再学点ML锦上添花吧.

【在 c*****e 的大作中提到】
: 1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需
: 要,最最推荐的书是?
: 2)搞 ML为生的, 工作的重点放在哪里?预先处理数据?调试参数?比较结果?还是
: 写系统处理大数据?感觉前面列的很多工作不需要写程序,完全就是 data scientist
: 做的事情。
: 3)很多时候,感觉没有一个确定的答案,因为不同的模型都可以用,是一种感知,没
: 有完全的对错。

l******n
发帖数: 9344
7
ML就是高大上的屠龙技,可惜龙的数量有限呀

【在 w***g 的大作中提到】
: 还是回原贴吧. 我觉得搞ML为生很难. ML是临门一脚的事情. 这种好位置就是有, 也都
: 有人占着了. 能进大公司ML组自然很好. 如果是小公司, 其实是养不起专职ML的.
: 而大公司就那么几个, 招人范围基本上就是几个top学校的phd毕业生.
: 如果等着赚前养家, 与其学ML, 还不如学写网页. 等会写网页了再学点ML锦上添花吧.

c*****e
发帖数: 3226
8
我也感觉如此,感觉ML 主要还是侧重 data scientist, 数据分析。 除非你去写个
tensor flow, 大部分的人没这个机会,programmer 数据分析又拼不过 data
scientist, 还是写 JavaScript 或者 cloud backend 才能发挥自己的优势。当然如
果了解 ML, 程序员就更好了,不会被 data scientist 忽悠多玄乎。

【在 w***g 的大作中提到】
: 还是回原贴吧. 我觉得搞ML为生很难. ML是临门一脚的事情. 这种好位置就是有, 也都
: 有人占着了. 能进大公司ML组自然很好. 如果是小公司, 其实是养不起专职ML的.
: 而大公司就那么几个, 招人范围基本上就是几个top学校的phd毕业生.
: 如果等着赚前养家, 与其学ML, 还不如学写网页. 等会写网页了再学点ML锦上添花吧.

c*****e
发帖数: 3226
9
1) 那些做ML研究的是不是需要自己搞一个 model? 或者从原理上 improve 一个 model
, 比如 改进 PCA, SBS, SVM.
2) 看了好几本书,感觉完全真正弄明白透彻理解那些数学的估计一万个人有一人就很
不错了。
3)如你所说,其实只要会library api, 抄抄写写也能ML, 无需理解数学。scikit-
learn 都给你包装好class 了。

【在 w***g 的大作中提到】
: 啥都不懂的, 从这里开始
: https://github.com/dmlc/xgboost/blob/master/doc/get_started/index.md
: 开始出活以后读这个http://scikit-learn.org/stable/user_guide.html
: 不愿意全读, 可以只读1.1, 1.4-1.6, 1.10-1.11, 2.3, 3.1-3.5. 以及按需读5中的内
: 容.
: 还有一个办法, 就是去找kaggle比赛第一名的代码, 一行一行查过去.
: 如果能做到背下来, 基本上就是半个高手了. 我上面列的这些链接和kaggle
: 应该有很大的重合.
: 有老师带自然最好. 没老师,应用的东西自己下点苦功夫也能学.
: 如果没有PhD垫底, 出去找工作前最好做几个kaggle比赛然后把排名给人家看.

d*******r
发帖数: 3299
10
marked!

【在 w***g 的大作中提到】
: 啥都不懂的, 从这里开始
: https://github.com/dmlc/xgboost/blob/master/doc/get_started/index.md
: 开始出活以后读这个http://scikit-learn.org/stable/user_guide.html
: 不愿意全读, 可以只读1.1, 1.4-1.6, 1.10-1.11, 2.3, 3.1-3.5. 以及按需读5中的内
: 容.
: 还有一个办法, 就是去找kaggle比赛第一名的代码, 一行一行查过去.
: 如果能做到背下来, 基本上就是半个高手了. 我上面列的这些链接和kaggle
: 应该有很大的重合.
: 有老师带自然最好. 没老师,应用的东西自己下点苦功夫也能学.
: 如果没有PhD垫底, 出去找工作前最好做几个kaggle比赛然后把排名给人家看.

相关主题
被docker气死了有没有大牛愿意牵头搞一个 deep learning project
kaggle上那批人太逆天了数据科学碗2017
总结一下kaggle比赛Kaggle 被买了
进入Programming版参与讨论
T*******e
发帖数: 249
11
首先,是不是一定要搞懂,答:不是。
其次,搞懂了有没有好处, 答:有很大好处。 搞明白一个method为什么work,在什么
条件下work可以省去很多疑惑的时间。 也会让你的presentation更有干料。 并且在和
别人交流的时候显得更自信。 实话说,如果是行家的话你一说你做了什么他马上就知
道你明白不明白自己在干嘛。
w***g
发帖数: 5958
12
data scientist == machine learning
有句话叫技多不压身, 不要急着给自己定位. 你就是做ML, 最后不也得做
demo展示出来. 做demo不就得写网页. 如果这个网页你不自己写让别人写,
就是真有人给你写, 功劳也都被他抢走了.

【在 c*****e 的大作中提到】
: 我也感觉如此,感觉ML 主要还是侧重 data scientist, 数据分析。 除非你去写个
: tensor flow, 大部分的人没这个机会,programmer 数据分析又拼不过 data
: scientist, 还是写 JavaScript 或者 cloud backend 才能发挥自己的优势。当然如
: 果了解 ML, 程序员就更好了,不会被 data scientist 忽悠多玄乎。

w***g
发帖数: 5958
13
用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
pull request了.
对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.

model

【在 c*****e 的大作中提到】
: 1) 那些做ML研究的是不是需要自己搞一个 model? 或者从原理上 improve 一个 model
: , 比如 改进 PCA, SBS, SVM.
: 2) 看了好几本书,感觉完全真正弄明白透彻理解那些数学的估计一万个人有一人就很
: 不错了。
: 3)如你所说,其实只要会library api, 抄抄写写也能ML, 无需理解数学。scikit-
: learn 都给你包装好class 了。

w***g
发帖数: 5958
14
贴两个我以前做的笔记. 一个是LDA, 一个是restricted boltzmann machine.
http://www.wdong.org/wordpress/wp-content/uploads/2013/07/lda.pdf
http://www.wdong.org/wordpress/wp-content/uploads/2013/07/rbm.pdf
推这些公式的时候, 我心里的感觉是这样的
我是想说这些bullets我以前都是咬过的. 如果你想学, 可能也都得咬一遍才行.
未必还是这些方法, 但是恶心程度应该都差不多.
我自己认为, 这些东西如果从数学角度去理解是无法理解的. 只有真正
implement过一遍才能理解, 并且你会发现从程序的角度看, 里面的idea
其实想当简洁明了. ( 为了implement还是得推一遍公式: (, 但是发明新
公式就算了.)
我数学差, 数学好的同学可能能直接能从公式看出来所以然. 我都得
implement一遍才能理解. 按刘慈欣的说法, 数学牛x的, 看到公式能
想象出来图形, 看到图形能想象出来公式, 我觉得搞数学得能到这个
层次才行.
写到后来发现自相矛盾了. 大家还是去写网页吧. 推公式太难了.

【在 w***g 的大作中提到】
: 用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
: 什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
: 甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
: 那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
: 牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
: 进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
: fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
: 那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
: pull request了.
: 对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.

c*****e
发帖数: 3226
15
厉害,看来你下过苦工的。金融quant也是数学一大堆。
每次看到ML的书里面一大堆推倒公式,真想问候他祖宗数遍,其实这帮写书的好多也都
是是从别的地方抄来的。
有个类似的例子就是:很多人不会懂发动机的工作原理,但是不妨碍熟练开车。我感觉
这应该是大部分人学 ML 需要走的路。

【在 w***g 的大作中提到】
: 贴两个我以前做的笔记. 一个是LDA, 一个是restricted boltzmann machine.
: http://www.wdong.org/wordpress/wp-content/uploads/2013/07/lda.pdf
: http://www.wdong.org/wordpress/wp-content/uploads/2013/07/rbm.pdf
: 推这些公式的时候, 我心里的感觉是这样的
: 我是想说这些bullets我以前都是咬过的. 如果你想学, 可能也都得咬一遍才行.
: 未必还是这些方法, 但是恶心程度应该都差不多.
: 我自己认为, 这些东西如果从数学角度去理解是无法理解的. 只有真正
: implement过一遍才能理解, 并且你会发现从程序的角度看, 里面的idea
: 其实想当简洁明了. ( 为了implement还是得推一遍公式: (, 但是发明新
: 公式就算了.)

c*****e
发帖数: 3226
16
+1,
有个编程技术性的问题,经常搞矩阵运算的时候,有时候会很犹豫到底 tmd 要不要.T
有没有好的 tip ?

【在 w***g 的大作中提到】
: 用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
: 什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
: 甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
: 那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
: 牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
: 进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
: fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
: 那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
: pull request了.
: 对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.

m******r
发帖数: 1033
17
lol. 人家wdong是本版天才型大牛。 被你说成'下过苦工'.
别说机器学习里的公式,就算最简单的线性回归,能把主要公式推出来也很不简单。
反正我是不能。

【在 c*****e 的大作中提到】
: 厉害,看来你下过苦工的。金融quant也是数学一大堆。
: 每次看到ML的书里面一大堆推倒公式,真想问候他祖宗数遍,其实这帮写书的好多也都
: 是是从别的地方抄来的。
: 有个类似的例子就是:很多人不会懂发动机的工作原理,但是不妨碍熟练开车。我感觉
: 这应该是大部分人学 ML 需要走的路。

w***g
发帖数: 5958
18
T不T没啥关系. 写C/python这一路的, 一般是每个对象是一个行向量, 写fortran的是
列向量. 输入对象和输出对象应该是一致的. 这个定了, 别的矩阵方向应该也都定了吧.

T

【在 c*****e 的大作中提到】
: +1,
: 有个编程技术性的问题,经常搞矩阵运算的时候,有时候会很犹豫到底 tmd 要不要.T
: 有没有好的 tip ?

h*i
发帖数: 3446
19
这个我同意,对程序猿来说,要想成为ML算法专家,最好的办法,就是自己去实现一下
。实现一遍之后,就会有比较深的理解。
其实自己搞过就会发现,大部分发表的ML文章都是垃圾。往往不是对原有算法的提高,
而是倒退,overfit某些特别的个案。
ML其实就那么几个算法,而这些算法的直觉都是很简单的。你看见的那堆数学公式都是
算法出来之后,别人事后弄出来的。所以你学习的时候,不要去看公式,而是要试图去
理解背后的直觉。最好是找到最初的文章,那些古时候的文章往往没啥公式,但直觉讲
得很清楚。

【在 w***g 的大作中提到】
: 用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
: 什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
: 甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
: 那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
: 牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
: 进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
: fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
: 那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
: pull request了.
: 对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.

c*****e
发帖数: 3226
20
哈哈,怎么和我写研究生论文差不多,先搞个结论,最后推一堆公式往上套,显得很高
大上。

【在 h*i 的大作中提到】
: 这个我同意,对程序猿来说,要想成为ML算法专家,最好的办法,就是自己去实现一下
: 。实现一遍之后,就会有比较深的理解。
: 其实自己搞过就会发现,大部分发表的ML文章都是垃圾。往往不是对原有算法的提高,
: 而是倒退,overfit某些特别的个案。
: ML其实就那么几个算法,而这些算法的直觉都是很简单的。你看见的那堆数学公式都是
: 算法出来之后,别人事后弄出来的。所以你学习的时候,不要去看公式,而是要试图去
: 理解背后的直觉。最好是找到最初的文章,那些古时候的文章往往没啥公式,但直觉讲
: 得很清楚。

相关主题
数据碗的结果出来了 weidong站上英雄榜了Zillow Prize讨论专用贴
Ai这个社团很多人是很坏的廖方舟 李哲 金奖! (转载)
Kaggle比赛禁止中国人参加什么都别说了,刷题是王道,我要加入拳皇帮了
进入Programming版参与讨论
m*****n
发帖数: 3644
21
zan
h*i
发帖数: 3446
22
搞矩阵运算编程我觉得比其他编程还容易点,往往矩阵乘法的维度要求就排除了很多不
对的情况,有点天然type checker的意思。我一般把矩阵各个乘法及其维度都大致画个
示意图,仔细检查一遍是不是都搞对了,一般就错不了。

+1,
T

【在 c*****e 的大作中提到】
: +1,
: 有个编程技术性的问题,经常搞矩阵运算的时候,有时候会很犹豫到底 tmd 要不要.T
: 有没有好的 tip ?

n******g
发帖数: 2201
23
very nice insight! 学习写网页,最好的入门是不是javascript? 多谢

【在 w***g 的大作中提到】
: data scientist == machine learning
: 有句话叫技多不压身, 不要急着给自己定位. 你就是做ML, 最后不也得做
: demo展示出来. 做demo不就得写网页. 如果这个网页你不自己写让别人写,
: 就是真有人给你写, 功劳也都被他抢走了.

n******g
发帖数: 2201
24
赞经验

【在 h*i 的大作中提到】
: 搞矩阵运算编程我觉得比其他编程还容易点,往往矩阵乘法的维度要求就排除了很多不
: 对的情况,有点天然type checker的意思。我一般把矩阵各个乘法及其维度都大致画个
: 示意图,仔细检查一遍是不是都搞对了,一般就错不了。
:
: +1,
: T

h*i
发帖数: 3446
25
比你说的稍微复杂点,其实过程往往是这样的:
1. 某实际工作者为了解决实际问题,研究出了一个算法,写了个文章,发了,不一定
发在很高大上的地方,这个文章往往没有很多形式化,看上去很不正式。
2. 有人为了解决另一个相关的实际问题,用了这个算法,觉得还挺好用,写了文章来
稍作修改,推广什么的。
3. 计算机行当里面,有这么一种人,其业务就是把一个本来简单的东西形式化,普遍
化,发在他们觉得更高大上的地方。
4.写教科书的人往往会照抄这些人写的形式化,显得自己的教科书很严谨,很有权威性。
5.从头学习的人们就悲剧了,看见了一大堆公式,觉得自己好渺小好无助,这些专家们
都很伟大很权威。
6. 社会和谐了。

【在 c*****e 的大作中提到】
: 哈哈,怎么和我写研究生论文差不多,先搞个结论,最后推一堆公式往上套,显得很高
: 大上。

w***g
发帖数: 5958
26
我自己主要是django + jquery. 最近也在用jinja2.
从网上下过boostrap的模版.
google bootstrap template. 收费的我记得也就$18.
我的技术比较落后. 版上要有专家介绍下这方面的轮子就好了.

【在 n******g 的大作中提到】
: very nice insight! 学习写网页,最好的入门是不是javascript? 多谢
n*****3
发帖数: 1584
27
有一本 machine learning in action
好几年前的书了,
就是Python 实现 简易版的 常见 ml
算法, 可以看看
网上应该有 free PDF

+1,
T

【在 c*****e 的大作中提到】
: +1,
: 有个编程技术性的问题,经常搞矩阵运算的时候,有时候会很犹豫到底 tmd 要不要.T
: 有没有好的 tip ?

c*****e
发帖数: 3226
28
django 说实在的太死板了,基本上只能套 SQL 那个模子。
学客户端技术变化实在太快,感觉现在都是啥 node.js , meteor,

【在 w***g 的大作中提到】
: 我自己主要是django + jquery. 最近也在用jinja2.
: 从网上下过boostrap的模版.
: google bootstrap template. 收费的我记得也就$18.
: 我的技术比较落后. 版上要有专家介绍下这方面的轮子就好了.

c*****e
发帖数: 3226
29
没办法,我等是民工。
板上几个人知道 confidence interval vs prediction interval 的区别?哈哈

性。

【在 h*i 的大作中提到】
: 比你说的稍微复杂点,其实过程往往是这样的:
: 1. 某实际工作者为了解决实际问题,研究出了一个算法,写了个文章,发了,不一定
: 发在很高大上的地方,这个文章往往没有很多形式化,看上去很不正式。
: 2. 有人为了解决另一个相关的实际问题,用了这个算法,觉得还挺好用,写了文章来
: 稍作修改,推广什么的。
: 3. 计算机行当里面,有这么一种人,其业务就是把一个本来简单的东西形式化,普遍
: 化,发在他们觉得更高大上的地方。
: 4.写教科书的人往往会照抄这些人写的形式化,显得自己的教科书很严谨,很有权威性。
: 5.从头学习的人们就悲剧了,看见了一大堆公式,觉得自己好渺小好无助,这些专家们
: 都很伟大很权威。

d*******r
发帖数: 3299
30
哈哈哈,太精辟了

性。

【在 h*i 的大作中提到】
: 比你说的稍微复杂点,其实过程往往是这样的:
: 1. 某实际工作者为了解决实际问题,研究出了一个算法,写了个文章,发了,不一定
: 发在很高大上的地方,这个文章往往没有很多形式化,看上去很不正式。
: 2. 有人为了解决另一个相关的实际问题,用了这个算法,觉得还挺好用,写了文章来
: 稍作修改,推广什么的。
: 3. 计算机行当里面,有这么一种人,其业务就是把一个本来简单的东西形式化,普遍
: 化,发在他们觉得更高大上的地方。
: 4.写教科书的人往往会照抄这些人写的形式化,显得自己的教科书很严谨,很有权威性。
: 5.从头学习的人们就悲剧了,看见了一大堆公式,觉得自己好渺小好无助,这些专家们
: 都很伟大很权威。

相关主题
wdong的网站在我公司的黑名单上,LoL准备向wdong大牛学习单干了
请ML大神给点启发看了几个kaggle的答题,有点迷惑了
关于搞ML刷数据的职业前途NLP是使用什么技术或框架实现的?
进入Programming版参与讨论
e*******s
发帖数: 1979
31
对!

【在 d*******r 的大作中提到】
: 哈哈哈,太精辟了
:
: 性。

w***g
发帖数: 5958
32
这个我也不知道. 这个是统计的语言, 做ML的一般不说这套语言.
一般都是预测n选1, 没有区间, 最多再加一个0-1之间的分数.
结果给人去看,人家也就能理解到这个程度.
以前本科学过置信区间, 不知道是哪一个.

【在 c*****e 的大作中提到】
: 没办法,我等是民工。
: 板上几个人知道 confidence interval vs prediction interval 的区别?哈哈
:
: 性。

M********0
发帖数: 1230
33
市面上各种ML的书鱼龙混杂 看书还是要找本经典的
推荐Elements of Statistical Learning这本书 读透了差不多小牛了
w***g
发帖数: 5958
34
我也觉得这书是市面上最好的.
不过本版人众估计没那么多耐心读书, 所以我上面贴了速成法门.

【在 M********0 的大作中提到】
: 市面上各种ML的书鱼龙混杂 看书还是要找本经典的
: 推荐Elements of Statistical Learning这本书 读透了差不多小牛了

c*****e
发帖数: 3226
35
这个在 linear regression 上还是有用的一个参考指标。

【在 w***g 的大作中提到】
: 这个我也不知道. 这个是统计的语言, 做ML的一般不说这套语言.
: 一般都是预测n选1, 没有区间, 最多再加一个0-1之间的分数.
: 结果给人去看,人家也就能理解到这个程度.
: 以前本科学过置信区间, 不知道是哪一个.

c*****e
发帖数: 3226
36
我看他的姊妹篇:An Introduction to statistical learning 看到100页就顶
不住了,太多专业术语与数学。 你说的这本只会更难吧?
目前看来 Python machine learning 还不错

【在 M********0 的大作中提到】
: 市面上各种ML的书鱼龙混杂 看书还是要找本经典的
: 推荐Elements of Statistical Learning这本书 读透了差不多小牛了

j********g
发帖数: 61
37
是简版ESL,不带优化和理论。
m******r
发帖数: 1033
38
避免以下几类书:
1.黄皮书(尤其以springer等一小撮为首的)千万不能看。 理由:伤身体。 年轻也许可
以看。
2.elements of 什么什么的。 理由:逗你玩的
3.introduction of 什么什么的 理由:也是逗你玩儿的
4.满篇公式的 。 理由:高攀不起
5.教授写的书。 理由:他自己都未必干过,能教你什么?
选书要符合以下几个条件:
1.有软件应用的,有代码,有数据
2.有行业书应用的,比如我只看和营销相关的
3.语言幽默,通俗易懂的,这种人不装逼
4.华人用英文写的书
5.里面有100到200页你觉得对你有帮助的书。
w***g
发帖数: 5958
39
the art of programming
the art of electronics
这是最高境界了吧

【在 m******r 的大作中提到】
: 避免以下几类书:
: 1.黄皮书(尤其以springer等一小撮为首的)千万不能看。 理由:伤身体。 年轻也许可
: 以看。
: 2.elements of 什么什么的。 理由:逗你玩的
: 3.introduction of 什么什么的 理由:也是逗你玩儿的
: 4.满篇公式的 。 理由:高攀不起
: 5.教授写的书。 理由:他自己都未必干过,能教你什么?
: 选书要符合以下几个条件:
: 1.有软件应用的,有代码,有数据
: 2.有行业书应用的,比如我只看和营销相关的

l****1
发帖数: 66
40

Linear R看1小时都能懂啊,你没花时间看。

【在 m******r 的大作中提到】
: lol. 人家wdong是本版天才型大牛。 被你说成'下过苦工'.
: 别说机器学习里的公式,就算最简单的线性回归,能把主要公式推出来也很不简单。
: 反正我是不能。

相关主题
NLP是使用什么技术或框架实现的?kaggle上那批人太逆天了
已经全上内存了,还要40多秒啊总结一下kaggle比赛
被docker气死了有没有大牛愿意牵头搞一个 deep learning project
进入Programming版参与讨论
T*******x
发帖数: 8565
41
我最近看了一本neural network and deep learning的网络书,Michael Nielsen的,
感觉写的非常易懂,我入门了 :)
http://neuralnetworksanddeeplearning.com

【在 M********0 的大作中提到】
: 市面上各种ML的书鱼龙混杂 看书还是要找本经典的
: 推荐Elements of Statistical Learning这本书 读透了差不多小牛了

M********0
发帖数: 1230
42

我看他的姊妹篇:An Introduction to statistical learning 看到100页就顶
这本书是统计系的教程 算是最全面和详细的教材 CS专业好像不用这本书
你说的那本是简版的 更偏重于应用和R 如果用Python的话可以直接看scikit官网的
tutorials 我觉得完全够用了 wdong的速成不错
除非统计或者CS的phd方向是ML 需要对数学公式更了解 另外convex optimization也
要读 更难啃 其他人基本上能用现有的library就够了 比如scikit或者weka 或者
看看AndrewNg的stanford cs299讲义就够了(不是coursea那门课的讲义 那个太简单)

【在 c*****e 的大作中提到】
: 我看他的姊妹篇:An Introduction to statistical learning 看到100页就顶
: 不住了,太多专业术语与数学。 你说的这本只会更难吧?
: 目前看来 Python machine learning 还不错

M********0
发帖数: 1230
43

这个水太深....

【在 T*******x 的大作中提到】
: 我最近看了一本neural network and deep learning的网络书,Michael Nielsen的,
: 感觉写的非常易懂,我入门了 :)
: http://neuralnetworksanddeeplearning.com

T*******x
发帖数: 8565
44
啥意思?这个很易懂啊。

【在 M********0 的大作中提到】
:
: 这个水太深....

m******r
发帖数: 1033
45
对,还有这种'艺术'类的, 不要说,更要远离 - 尤其对我们转行换专业,有家有口,
每天只能读书一两个小时的,按我的方法读书(或者你的速成法),一两年就能出师,
三四年就算是转行成功了。

【在 w***g 的大作中提到】
: the art of programming
: the art of electronics
: 这是最高境界了吧

l*******m
发帖数: 1096
46
frequentists 数学微积分加线性代数就够了,不是很难。Bayesian比较复杂,不过由
于大数据的压力,现在也minibatch sampling/ inference,不少投靠Tensorflow用其
autograd.

【在 M********0 的大作中提到】
: 市面上各种ML的书鱼龙混杂 看书还是要找本经典的
: 推荐Elements of Statistical Learning这本书 读透了差不多小牛了

g****t
发帖数: 31659
47
pandas就是一个年轻毕业生做的。
其实现在谁做一个高质量的JavaScript
data frame也有市场的。
创造性的工作不是一般人能做的。
本身工程师也不需要多大创造。能有用户,
能赚钱才是第一位的。
对于水平局限于到这个版来问问题的同学,
我觉得培养好的习惯和工程成熟度更重要吧。
行走坐卧没有规矩,干啥都是..
数学那是想的太远了.

【在 w***g 的大作中提到】
: 用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
: 什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
: 甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
: 那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
: 牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
: 进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
: fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
: 那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
: pull request了.
: 对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.

g****t
发帖数: 31659
48
所以要好的老师。教科书上的东西往往都是封装了好几层的。
不会告诉你一个算法的design motivation.
而且大专家很多也非常蛋疼。发明lisp那哥们坚称自己没读过邱奇的
lambda calculus,是自己原创的
如果没有好老师分块讲解。收音机的电路图那也是读不懂的啊。
因为中间有很多design tradeoff decision。说是园的或者方的,
都是可以的。

性。

【在 h*i 的大作中提到】
: 比你说的稍微复杂点,其实过程往往是这样的:
: 1. 某实际工作者为了解决实际问题,研究出了一个算法,写了个文章,发了,不一定
: 发在很高大上的地方,这个文章往往没有很多形式化,看上去很不正式。
: 2. 有人为了解决另一个相关的实际问题,用了这个算法,觉得还挺好用,写了文章来
: 稍作修改,推广什么的。
: 3. 计算机行当里面,有这么一种人,其业务就是把一个本来简单的东西形式化,普遍
: 化,发在他们觉得更高大上的地方。
: 4.写教科书的人往往会照抄这些人写的形式化,显得自己的教科书很严谨,很有权威性。
: 5.从头学习的人们就悲剧了,看见了一大堆公式,觉得自己好渺小好无助,这些专家们
: 都很伟大很权威。

c*******9
发帖数: 9032
49
语言太啰嗦,一件事反复说。

【在 T*******x 的大作中提到】
: 啥意思?这个很易懂啊。
p**r
发帖数: 5853
50
这个要mark一下。

【在 w***g 的大作中提到】
: 啥都不懂的, 从这里开始
: https://github.com/dmlc/xgboost/blob/master/doc/get_started/index.md
: 开始出活以后读这个http://scikit-learn.org/stable/user_guide.html
: 不愿意全读, 可以只读1.1, 1.4-1.6, 1.10-1.11, 2.3, 3.1-3.5. 以及按需读5中的内
: 容.
: 还有一个办法, 就是去找kaggle比赛第一名的代码, 一行一行查过去.
: 如果能做到背下来, 基本上就是半个高手了. 我上面列的这些链接和kaggle
: 应该有很大的重合.
: 有老师带自然最好. 没老师,应用的东西自己下点苦功夫也能学.
: 如果没有PhD垫底, 出去找工作前最好做几个kaggle比赛然后把排名给人家看.

相关主题
数据科学碗2017Ai这个社团很多人是很坏的
Kaggle 被买了Kaggle比赛禁止中国人参加
数据碗的结果出来了 weidong站上英雄榜了Zillow Prize讨论专用贴
进入Programming版参与讨论
p**r
发帖数: 5853
51
精辟啊精辟!

【在 l******n 的大作中提到】
: ML就是高大上的屠龙技,可惜龙的数量有限呀
T*******x
发帖数: 8565
52
哦。我觉得还行。总共6页,每页一章,挺实惠的。

【在 c*******9 的大作中提到】
: 语言太啰嗦,一件事反复说。
c*******9
发帖数: 9032
53
会越来越多。

【在 l******n 的大作中提到】
: ML就是高大上的屠龙技,可惜龙的数量有限呀
c*******9
发帖数: 9032
54
和人的学习完全是不是一回事,不是你能想当然的。
更好的方法肯定会有,但不等于现在什么都不做就能等来好方法。

【在 c****3 的大作中提到】
: 这玩意不是真理,你想要紧跟ML的东西,就得搞懂。
: 不过ML的东西,和人的学习完全不是一回事。所以就算搞懂,将来也不见得孩有用。因
: 为一直有个更好的,放在身边,就是大家不知道怎么实现的。
: ML也就算勉强能用。从实用主义的角度,能解决一些问题。
: 说穿就是这么回事,就看你自己怎么想
:
: 1)每次看的似懂非懂,总觉得不是理解的很透,作为程序员,需要透彻理解么?如果需

1 (共1页)
进入Programming版参与讨论
相关主题
廖方舟 李哲 金奖! (转载)已经全上内存了,还要40多秒啊
什么都别说了,刷题是王道,我要加入拳皇帮了被docker气死了
wdong的网站在我公司的黑名单上,LoLkaggle上那批人太逆天了
请ML大神给点启发总结一下kaggle比赛
关于搞ML刷数据的职业前途有没有大牛愿意牵头搞一个 deep learning project
准备向wdong大牛学习单干了数据科学碗2017
看了几个kaggle的答题,有点迷惑了Kaggle 被买了
NLP是使用什么技术或框架实现的?数据碗的结果出来了 weidong站上英雄榜了
相关话题的讨论汇总
话题: ml话题: 公式话题: 算法话题: learning话题: 数学