说说浅学ML的感受 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 说说浅学ML的感受

相关主题
● [Data Science Project Case] Generate Categories for Product	● ds要刷leecode吗，
● 求教! how to run python programs on a hadoop cluster	● 求问编程语言的选择，学stat的往DS努力
● 请推荐生物界认可的Clustering Analysis的免费软件	● 湾区大妈转行做DS或BA，求建议
● 新手学python，有个简单数据结构问题，在线急等	● Leetcode?
● 现在PYTHON，SAS， R 在工业界怎么个比例？	● Pig UDF written in Python
● Locality Sensitive Hashing 问题	● 请问大家有没有直接用java全程写mapreduce的程序的？
● [Data Science Project Case] Fuzzy matching on names	● pig能做iterative的问题吗?
● 怎么计算距离比较好？	● data scientist position

相关话题的讨论汇总
话题: python话题: 数据话题: ml话题: learning话题: 算法

进入DataSciences版参与讨论

(共1页)

w**2
发帖数: 147

LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
In Action这本书，随便再练练Python。感觉很多ML的算法已经写入R中，所以把数据导
入然后把一些公式用一下就差不多了，而Python是把这个算法直接code进去，觉得比R
要难。所以说算法还是学Data Science的重中之重，不会编程的话真够呛。我还是继续
读算法书吧。。。

g*****o
发帖数: 812

python也有包，虽然没r这么齐全

Learning
R

【在 w**2 的大作中提到】

: LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
: In Action这本书，随便再练练Python。感觉很多ML的算法已经写入R中，所以把数据导
: 入然后把一些公式用一下就差不多了，而Python是把这个算法直接code进去，觉得比R
: 要难。所以说算法还是学Data Science的重中之重，不会编程的话真够呛。我还是继续
: 读算法书吧。。。

m*********t
发帖数: 689

能说说python具体用什么包吗？谢谢！

【在 g*****o 的大作中提到】

: python也有包，虽然没r这么齐全
:
: Learning
: R

g*****o
发帖数: 812

我只是知道有, 但是鉴于我不怎么做ml,也不关注过..

【在 m*********t 的大作中提到】

: 能说说python具体用什么包吗？谢谢！

O*********y
发帖数: 923

同打算学python。楼主觉得r好用是不是因为它有很多内置function，可以直接调用，
而其他programming还要自己写具体的function？有个问题，如果数据特别大，比如10
几万，几十万，那还能用R做DS的分析吗？

w**2
发帖数: 147

R可以处理相当大的数据，几万应该不成问题。但是真正的大数据都是Trillion级别的
，那个R，python都估计处理不了了，主要是RAM的原因。
现在的大数据归根究底还是需要很强的programming技巧，特别是算法决定了你的一个
程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。

10

【在 O*********y 的大作中提到】

: 同打算学python。楼主觉得r好用是不是因为它有很多内置function，可以直接调用，
: 而其他programming还要自己写具体的function？有个问题，如果数据特别大，比如10
: 几万，几十万，那还能用R做DS的分析吗？

w**2
发帖数: 147

R的确很好用，我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。

10

【在 O*********y 的大作中提到】

g*****o
发帖数: 812

因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
整理好, 然后导到r里算

【在 w**2 的大作中提到】

: R的确很好用，我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

l*******s
发帖数: 1258

上java吧整大数据和web service的时候就知道还是这玩意好使尤其是在IT公司工作

w**2
发帖数: 147

主要是利用了python中list comprehension，array，iteration还有recursion的优势。

【在 g*****o 的大作中提到】

: 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
: 整理好, 然后导到r里算

相关主题
● Locality Sensitive Hashing 问题	● ds要刷leecode吗，
● [Data Science Project Case] Fuzzy matching on names	● 求问编程语言的选择，学stat的往DS努力
● 怎么计算距离比较好？	● 湾区大妈转行做DS或BA，求建议
进入DataSciences版参与讨论

d******e
发帖数: 7844

个人经验，那些张嘴就说Trillion的，绝大部分没处理过啥“大数据”，甚至稍微大点
的都没处理过。
没有公司会指望一个人来搞定大规模数据的，Data Scientist只需要做的在已有的条件
下，尽可能的处理大的数据就OK了。

用，

【在 w**2 的大作中提到】

: R可以处理相当大的数据，几万应该不成问题。但是真正的大数据都是Trillion级别的
: ，那个R，python都估计处理不了了，主要是RAM的原因。
: 现在的大数据归根究底还是需要很强的programming技巧，特别是算法决定了你的一个
: 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
:
: 10

w**2
发帖数: 147

嘿嘿，LZ处理过百万级别的，Trillion真没有处理过。真正拥有大数据的就那么几家公
司，据说有些DS是基本上把所有活都包了。

【在 d******e 的大作中提到】

: 个人经验，那些张嘴就说Trillion的，绝大部分没处理过啥“大数据”，甚至稍微大点
: 的都没处理过。
: 没有公司会指望一个人来搞定大规模数据的，Data Scientist只需要做的在已有的条件
: 下，尽可能的处理大的数据就OK了。
:
: 用，

l******n
发帖数: 9344

百万级别的数据也就几百个G,1T都不到，我用啥都能搞定
你说的这种ds真是ds，也就是写程序，基本属于重复简单劳动，价值太低。我们做大数
据要的是business insight,一个model值几个M,几十个M。

【在 w**2 的大作中提到】

: 嘿嘿，LZ处理过百万级别的，Trillion真没有处理过。真正拥有大数据的就那么几家公
: 司，据说有些DS是基本上把所有活都包了。

O*********y
发帖数: 923

多谢解答，python现在好热（而且比较容易学）
突然想起来，你说的大数据big data和data mining是2个领域吧，我编程弱
，只能往偏重stat的data mining方向努力~~~~

【在 w**2 的大作中提到】

w**2
发帖数: 147

big data和data mining有重叠的部分。我编程也就马马虎虎。

【在 O*********y 的大作中提到】

:
: 多谢解答，python现在好热（而且比较容易学）
: 突然想起来，你说的大数据big data和data mining是2个领域吧，我编程弱
: ，只能往偏重stat的data mining方向努力~~~~

O*********y
发帖数: 923

：）））
楼主不要谦虚哈

【在 w**2 的大作中提到】

: big data和data mining有重叠的部分。我编程也就马马虎虎。

w**2
发帖数: 147

真心不咋地。

【在 O*********y 的大作中提到】

:
: ：）））
: 楼主不要谦虚哈

d****i
发帖数: 4809

Python比R好，R比较domain specific, 主要就是统计，而且还有SAS, STATA, SPSS等
的竞争。但是Python是一门general purpose language, 除了数据以外还可以用来做很
多事。

【在 w**2 的大作中提到】

: R的确很好用，我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

g****t
发帖数: 2751

我以为ML=making love

e**********y
发帖数: 49

我觉得做好marching learning还是要对统计和建模理解透彻，基本就不是一个fresh
phd可以干好的活，没有几年的处理经验，很难有那种数据建模的直觉。基本统计系的
博士做理论多，做应用也不一定顶用，做cs的做算法可以，但是建模也不一定行。现
在是刚开始，所以都可以，但是后面估计还是要分开的

相关主题
● Leetcode?	● pig能做iterative的问题吗?
● Pig UDF written in Python	● data scientist position
● 请问大家有没有直接用java全程写mapreduce的程序的？	● hive 里面的UDF会被几个node同时运行么？
进入DataSciences版参与讨论

l*******m
发帖数: 1096

ml 两种人吃的开，一种是天才，一种是能忽悠的。coding还是出路比较宽

【在 e**********y 的大作中提到】

: 我觉得做好marching learning还是要对统计和建模理解透彻，基本就不是一个fresh
: phd可以干好的活，没有几年的处理经验，很难有那种数据建模的直觉。基本统计系的
: 博士做理论多，做应用也不一定顶用，做cs的做算法可以，但是建模也不一定行。现
: 在是刚开始，所以都可以，但是后面估计还是要分开的

d******y
发帖数: 322

python用的不多，感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
直接用anaconda。你也可以试试mrjob，不用装hadoop就可以写mapreduce程序，也很容
易去emr上跑。虽然效率远低于java，比hadoop streaming也差很多，但至少可以用。

【在 m*********t 的大作中提到】

: 能说说python具体用什么包吗？谢谢！

k*****u
发帖数: 1688

re

【在 d******y 的大作中提到】

: python用的不多，感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
: 直接用anaconda。你也可以试试mrjob，不用装hadoop就可以写mapreduce程序，也很容
: 易去emr上跑。虽然效率远低于java，比hadoop streaming也差很多，但至少可以用。

w**2
发帖数: 147

多谢~

【在 d******y 的大作中提到】

w****k
发帖数: 6244

scikit-learn
pybrain
etc

【在 m*********t 的大作中提到】

: 能说说python具体用什么包吗？谢谢！

s**i
发帖数: 271

我个人还是喜欢python。你要是熟悉matlab的话，numpy, scipy, matplotlib也很快就
上手了。统计的话scipy.stats和statsmodel也还可以。
大数据处理象PIG之类都支持python的UDF(user defined function),可以
实现比较复杂的算法。Java还要编译，在server上拷贝来拷贝去，太烦了。

c****d
发帖数: 13

http://scikit-learn.org/
is a very decent python ML package

c****d
发帖数: 13

http://scikit-learn.org/ is a very decent python ML package.

c****d
发帖数: 13

http://scikit-learn.org/

f******y
发帖数: 645

每次看到这个
if __name__ == '__main__':
main()
就想笑。。。

相关主题
● HIVE load CSV 问题请教	● 求教! how to run python programs on a hadoop cluster
● [Road map] From ClickStream to ConsumerInsight	● 请推荐生物界认可的Clustering Analysis的免费软件
● [Data Science Project Case] Generate Categories for Product	● 新手学python，有个简单数据结构问题，在线急等
进入DataSciences版参与讨论

w**2
发帖数: 147

难道说我不需要把算法硬生生地code进去了？谢谢~
Machine Learning In Action里面大部分都是写python代码，没有看到用这些的。特别
是classification那章，用entropy算出先split哪个feature，再用一个resursion弄一
个nested dictionary出来，都快看哭了。

【在 c****d 的大作中提到】

: http://scikit-learn.org/

d****n
发帖数: 12461

通用算法可以用包，但是要专用算法或者提高性能都得自己来。

【在 w**2 的大作中提到】

: 难道说我不需要把算法硬生生地code进去了？谢谢~
: Machine Learning In Action里面大部分都是写python代码，没有看到用这些的。特别
: 是classification那章，用entropy算出先split哪个feature，再用一个resursion弄一
: 个nested dictionary出来，都快看哭了。

w**2
发帖数: 147

谢谢。

【在 d****n 的大作中提到】

: 通用算法可以用包，但是要专用算法或者提高性能都得自己来。

c***z
发帖数: 6348

ditto
for example, when I need to rewrite the join function using Jaccard index
instead of exact string matching, I need to write the thing...

【在 d****n 的大作中提到】

: 通用算法可以用包，但是要专用算法或者提高性能都得自己来。

h********3
发帖数: 2075

如果是大数据情况下的Jaccard Index Similarity，应该考虑用Min-Hash和Locality
Sensitive Hashing的方式。
http://en.wikipedia.org/wiki/Locality-sensitive_hashing

【在 c***z 的大作中提到】

: ditto
: for example, when I need to rewrite the join function using Jaccard index
: instead of exact string matching, I need to write the thing...

T*****u
发帖数: 7103

做ml本质上还是一个cost-benefit trade-off，建模的时候stakeholder很多的，尤其
是某类特定的小众应用，做的人很少，限制很多，优化的空间很大，用现成的包不太可
行。而且做这个，编程，统计(model），优化，硬件，市场，用户体验/故事，系统维
护，扩展，都要考虑，能做出点道道来不太容易。
昨天刚看一篇文章，说做期末作业，经济学的数据，一个星期实验了100多个model。。
。典型的push button statistician 穷举法，也没什么意思。

【在 e**********y 的大作中提到】

g*****o
发帖数: 812

100多种方法...
那人是恶意卖萌么

【在 T*****u 的大作中提到】

: 做ml本质上还是一个cost-benefit trade-off，建模的时候stakeholder很多的，尤其
: 是某类特定的小众应用，做的人很少，限制很多，优化的空间很大，用现成的包不太可
: 行。而且做这个，编程，统计(model），优化，硬件，市场，用户体验/故事，系统维
: 护，扩展，都要考虑，能做出点道道来不太容易。
: 昨天刚看一篇文章，说做期末作业，经济学的数据，一个星期实验了100多个model。。
: 。典型的push button statistician 穷举法，也没什么意思。

w**2
发帖数: 147

g*****o
发帖数: 812

python也有包，虽然没r这么齐全

Learning
R

【在 w**2 的大作中提到】

m*********t
发帖数: 689

能说说python具体用什么包吗？谢谢！

【在 g*****o 的大作中提到】

: python也有包，虽然没r这么齐全
:
: Learning
: R

相关主题
● 新手学python，有个简单数据结构问题，在线急等	● [Data Science Project Case] Fuzzy matching on names
● 现在PYTHON，SAS， R 在工业界怎么个比例？	● 怎么计算距离比较好？
● Locality Sensitive Hashing 问题	● ds要刷leecode吗，
进入DataSciences版参与讨论

g*****o
发帖数: 812

我只是知道有, 但是鉴于我不怎么做ml,也不关注过..

【在 m*********t 的大作中提到】

: 能说说python具体用什么包吗？谢谢！

O*********y
发帖数: 923

w**2
发帖数: 147

R的确很好用，我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。

10

【在 O*********y 的大作中提到】

g*****o
发帖数: 812

因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
整理好, 然后导到r里算

【在 w**2 的大作中提到】

: R的确很好用，我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

l*******s
发帖数: 1258

上java吧整大数据和web service的时候就知道还是这玩意好使尤其是在IT公司工作

w**2
发帖数: 147

主要是利用了python中list comprehension，array，iteration还有recursion的优势。

【在 g*****o 的大作中提到】

: 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
: 整理好, 然后导到r里算

d******e
发帖数: 7844

w**2
发帖数: 147

l******n
发帖数: 9344

: 嘿嘿，LZ处理过百万级别的，Trillion真没有处理过。真正拥有大数据的就那么几家公
: 司，据说有些DS是基本上把所有活都包了。

相关主题
● 求问编程语言的选择，学stat的往DS努力	● Pig UDF written in Python
● 湾区大妈转行做DS或BA，求建议	● 请问大家有没有直接用java全程写mapreduce的程序的？
● Leetcode?	● pig能做iterative的问题吗?
进入DataSciences版参与讨论

O*********y
发帖数: 923

w**2
发帖数: 147

big data和data mining有重叠的部分。我编程也就马马虎虎。

【在 O*********y 的大作中提到】

O*********y
发帖数: 923

：）））
楼主不要谦虚哈

【在 w**2 的大作中提到】

: big data和data mining有重叠的部分。我编程也就马马虎虎。

w**2
发帖数: 147

真心不咋地。

【在 O*********y 的大作中提到】

:
: ：）））
: 楼主不要谦虚哈

d****i
发帖数: 4809

: R的确很好用，我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

e**********y
发帖数: 49

l*******m
发帖数: 1096

ml 两种人吃的开，一种是天才，一种是能忽悠的。coding还是出路比较宽

【在 e**********y 的大作中提到】

d******y
发帖数: 322

: 能说说python具体用什么包吗？谢谢！

k*****u
发帖数: 1688

re

【在 d******y 的大作中提到】

w**2
发帖数: 147

多谢~

【在 d******y 的大作中提到】

相关主题
● data scientist position	● [Road map] From ClickStream to ConsumerInsight
● hive 里面的UDF会被几个node同时运行么？	● [Data Science Project Case] Generate Categories for Product
● HIVE load CSV 问题请教	● 求教! how to run python programs on a hadoop cluster
进入DataSciences版参与讨论

w****k
发帖数: 6244

scikit-learn
pybrain
etc

【在 m*********t 的大作中提到】

: 能说说python具体用什么包吗？谢谢！

s**i
发帖数: 271

c****d
发帖数: 13

http://scikit-learn.org/
is a very decent python ML package

c****d
发帖数: 13

http://scikit-learn.org/ is a very decent python ML package.

c****d
发帖数: 13

http://scikit-learn.org/

f******y
发帖数: 645

每次看到这个
if __name__ == '__main__':
main()
就想笑。。。

w**2
发帖数: 147

: http://scikit-learn.org/

d****n
发帖数: 12461

通用算法可以用包，但是要专用算法或者提高性能都得自己来。

【在 w**2 的大作中提到】

w**2
发帖数: 147

谢谢。

【在 d****n 的大作中提到】

: 通用算法可以用包，但是要专用算法或者提高性能都得自己来。

c***z
发帖数: 6348

ditto
for example, when I need to rewrite the join function using Jaccard index
instead of exact string matching, I need to write the thing...

【在 d****n 的大作中提到】

: 通用算法可以用包，但是要专用算法或者提高性能都得自己来。

相关主题
● 求教! how to run python programs on a hadoop cluster	● 现在PYTHON，SAS， R 在工业界怎么个比例？
● 请推荐生物界认可的Clustering Analysis的免费软件	● Locality Sensitive Hashing 问题
● 新手学python，有个简单数据结构问题，在线急等	● [Data Science Project Case] Fuzzy matching on names
进入DataSciences版参与讨论

h********3
发帖数: 2075

: ditto
: for example, when I need to rewrite the join function using Jaccard index
: instead of exact string matching, I need to write the thing...

T*****u
发帖数: 7103

g*****o
发帖数: 812

100多种方法...
那人是恶意卖萌么

【在 T*****u 的大作中提到】

w**2
发帖数: 147

最近用sklearn比较多，感觉sklearn好方便啊。R已经要被我抛弃了，速度让人抓狂。
sklearn的validation curve和learning curve太handy。

P**********k
发帖数: 1629

amazon上对这本书的评价很低啊。。。。

Learning
R

【在 w**2 的大作中提到】

w**p
发帖数: 4080

是的，用个oracle就能搞定几百个G的数据。
实际上那些动则叫嚣trillion的很可能自己连几百个G的数据都没处理过。
而且需要trillion才能挖出useful information的DS，真的是ds（屌丝）了。。

【在 l******n 的大作中提到】

: 百万级别的数据也就几百个G,1T都不到，我用啥都能搞定
: 你说的这种ds真是ds，也就是写程序，基本属于重复简单劳动，价值太低。我们做大数
: 据要的是business insight,一个model值几个M,几十个M。

n*****3
发帖数: 1584

that book is good, it implements some ML algorithm from scratch,
it looks like some toy work, but has the core part there. It is already
good to understand what is inside the black-box.
In the real life, most of the time , you do not need to implement those by
yourself ,
just use/call the library like scikit-learning.

【在 P**********k 的大作中提到】

: amazon上对这本书的评价很低啊。。。。
:
: Learning
: R

w*********y
发帖数: 7895

人处理数据和找PATTERN其实不需要这么多数据的。。。
可是机器需要这么多数据来建立PATTERN。。以后的趋势大概都是
AUTOMATIC PROCESS了，所以要训练机器来做大数据。。

【在 w**p 的大作中提到】

: 是的，用个oracle就能搞定几百个G的数据。
: 实际上那些动则叫嚣trillion的很可能自己连几百个G的数据都没处理过。
: 而且需要trillion才能挖出useful information的DS，真的是ds（屌丝）了。。

O*********h
发帖数: 140

整篇下来就您说了句大实话。具体哪个编程语言都是浮云，说到底是为了内容服务的，
差别只是运行效率。对于time intense的客户区别很大，但对更关心趋势的企业，这都
可以接受。

【在 l******n 的大作中提到】

(共1页)

进入DataSciences版参与讨论

相关主题
● data scientist position	● 现在PYTHON，SAS， R 在工业界怎么个比例？
● hive 里面的UDF会被几个node同时运行么？	● Locality Sensitive Hashing 问题
● HIVE load CSV 问题请教	● [Data Science Project Case] Fuzzy matching on names
● [Road map] From ClickStream to ConsumerInsight	● 怎么计算距离比较好？
● [Data Science Project Case] Generate Categories for Product	● ds要刷leecode吗，
● 求教! how to run python programs on a hadoop cluster	● 求问编程语言的选择，学stat的往DS努力
● 请推荐生物界认可的Clustering Analysis的免费软件	● 湾区大妈转行做DS或BA，求建议
● 新手学python，有个简单数据结构问题，在线急等	● Leetcode?

相关话题的讨论汇总
话题: python话题: 数据话题: ml话题: learning话题: 算法

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天