由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 说说浅学ML的感受
相关主题
[Data Science Project Case] Generate Categories for Productds要刷leecode吗,
求教! how to run python programs on a hadoop cluster求问编程语言的选择,学stat的往DS努力
请推荐生物界认可的Clustering Analysis的免费软件湾区大妈转行做DS或BA,求建议
新手学python, 有个简单数据结构问题,在线急等Leetcode?
现在PYTHON,SAS, R 在工业界怎么个比例?Pig UDF written in Python
Locality Sensitive Hashing 问题请问大家有没有直接用java全程写mapreduce的程序的?
[Data Science Project Case] Fuzzy matching on namespig能做iterative的问题吗?
怎么计算距离比较好?data scientist position
相关话题的讨论汇总
话题: python话题: 数据话题: ml话题: learning话题: 算法
进入DataSciences版参与讨论
1 (共1页)
w**2
发帖数: 147
1
LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
读算法书吧。。。
g*****o
发帖数: 812
2
python也有包,虽然没r这么齐全

Learning
R

【在 w**2 的大作中提到】
: LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
: In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
: 入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
: 要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
: 读算法书吧。。。

m*********t
发帖数: 689
3
能说说python具体用什么包吗? 谢谢!

【在 g*****o 的大作中提到】
: python也有包,虽然没r这么齐全
:
: Learning
: R

g*****o
发帖数: 812
4
我只是知道有, 但是鉴于我不怎么做ml,也不关注过..

【在 m*********t 的大作中提到】
: 能说说python具体用什么包吗? 谢谢!
O*********y
发帖数: 923
5
同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
几万,几十万,那还能用R做DS的分析吗?
w**2
发帖数: 147
6
R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
,那个R,python都估计处理不了了,主要是RAM的原因。
现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。

10

【在 O*********y 的大作中提到】
: 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
: 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
: 几万,几十万,那还能用R做DS的分析吗?

w**2
发帖数: 147
7
R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。

10

【在 O*********y 的大作中提到】
: 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
: 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
: 几万,几十万,那还能用R做DS的分析吗?

g*****o
发帖数: 812
8
因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
整理好, 然后导到r里算

【在 w**2 的大作中提到】
: R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

l*******s
发帖数: 1258
9
上java吧 整大数据和web service的时候 就知道还是这玩意好使 尤其是在IT公司工作
w**2
发帖数: 147
10
主要是利用了python中list comprehension,array,iteration还有recursion的优势。

【在 g*****o 的大作中提到】
: 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
: 整理好, 然后导到r里算

相关主题
Locality Sensitive Hashing 问题ds要刷leecode吗,
[Data Science Project Case] Fuzzy matching on names求问编程语言的选择,学stat的往DS努力
怎么计算距离比较好?湾区大妈转行做DS或BA,求建议
进入DataSciences版参与讨论
d******e
发帖数: 7844
11
个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点
的都没处理过。
没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件
下,尽可能的处理大的数据就OK了。

用,

【在 w**2 的大作中提到】
: R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
: ,那个R,python都估计处理不了了,主要是RAM的原因。
: 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
: 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
:
: 10

w**2
发帖数: 147
12
嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公
司,据说有些DS是基本上把所有活都包了。

【在 d******e 的大作中提到】
: 个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点
: 的都没处理过。
: 没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件
: 下,尽可能的处理大的数据就OK了。
:
: 用,

l******n
发帖数: 9344
13
百万级别的数据也就几百个G,1T都不到,我用啥都能搞定
你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数
据要的是business insight,一个model值几个M,几十个M。

【在 w**2 的大作中提到】
: 嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公
: 司,据说有些DS是基本上把所有活都包了。

O*********y
发帖数: 923
14

多谢解答,python现在好热(而且比较容易学)
突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱
,只能往偏重stat的data mining方向努力~~~~

【在 w**2 的大作中提到】
: R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
: ,那个R,python都估计处理不了了,主要是RAM的原因。
: 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
: 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
:
: 10

w**2
发帖数: 147
15
big data和data mining有重叠的部分。我编程也就马马虎虎。

【在 O*********y 的大作中提到】
:
: 多谢解答,python现在好热(而且比较容易学)
: 突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱
: ,只能往偏重stat的data mining方向努力~~~~

O*********y
发帖数: 923
16

:)))
楼主不要谦虚哈

【在 w**2 的大作中提到】
: big data和data mining有重叠的部分。我编程也就马马虎虎。
w**2
发帖数: 147
17
真心不咋地。

【在 O*********y 的大作中提到】
:
: :)))
: 楼主不要谦虚哈

d****i
发帖数: 4809
18
Python比R好,R比较domain specific, 主要就是统计,而且还有SAS, STATA, SPSS等
的竞争。但是Python是一门general purpose language, 除了数据以外还可以用来做很
多事。

【在 w**2 的大作中提到】
: R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

g****t
发帖数: 2751
19
我以为ML=making love
e**********y
发帖数: 49
20
我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
在是刚开始,所以都可以,但是后面估计还是要分开的
相关主题
Leetcode?pig能做iterative的问题吗?
Pig UDF written in Pythondata scientist position
请问大家有没有直接用java全程写mapreduce的程序的?hive 里面的UDF会被几个node同时运行么?
进入DataSciences版参与讨论
l*******m
发帖数: 1096
21
ml 两种人吃的开,一种是天才,一种是能忽悠的。coding还是出路比较宽

【在 e**********y 的大作中提到】
: 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
: phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
: 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
: 在是刚开始,所以都可以,但是后面估计还是要分开的

d******y
发帖数: 322
22
python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。

【在 m*********t 的大作中提到】
: 能说说python具体用什么包吗? 谢谢!
k*****u
发帖数: 1688
23
re

【在 d******y 的大作中提到】
: python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
: 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
: 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。

w**2
发帖数: 147
24
多谢~

【在 d******y 的大作中提到】
: python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
: 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
: 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。

w****k
发帖数: 6244
25
scikit-learn
pybrain
etc

【在 m*********t 的大作中提到】
: 能说说python具体用什么包吗? 谢谢!
s**i
发帖数: 271
26
我个人还是喜欢python。你要是熟悉matlab的话,numpy, scipy, matplotlib也很快就
上手了。统计的话scipy.stats和statsmodel也还可以。
大数据处理象PIG之类都支持python的UDF(user defined function),可以
实现比较复杂的算法。Java还要编译,在server上拷贝来拷贝去,太烦了。
c****d
发帖数: 13
27
http://scikit-learn.org/
is a very decent python ML package
c****d
发帖数: 13
28
http://scikit-learn.org/ is a very decent python ML package.
c****d
发帖数: 13
f******y
发帖数: 645
30
每次看到这个
if __name__ == '__main__':
main()
就想笑。。。
相关主题
HIVE load CSV 问题请教求教! how to run python programs on a hadoop cluster
[Road map] From ClickStream to ConsumerInsight请推荐生物界认可的Clustering Analysis的免费软件
[Data Science Project Case] Generate Categories for Product新手学python, 有个简单数据结构问题,在线急等
进入DataSciences版参与讨论
w**2
发帖数: 147
31
难道说我不需要把算法硬生生地code进去了?谢谢~
Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别
是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一
个nested dictionary出来,都快看哭了。

【在 c****d 的大作中提到】
: http://scikit-learn.org/
d****n
发帖数: 12461
32
通用算法可以用包,但是要专用算法或者提高性能都得自己来。

【在 w**2 的大作中提到】
: 难道说我不需要把算法硬生生地code进去了?谢谢~
: Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别
: 是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一
: 个nested dictionary出来,都快看哭了。

w**2
发帖数: 147
33
谢谢。

【在 d****n 的大作中提到】
: 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
c***z
发帖数: 6348
34
ditto
for example, when I need to rewrite the join function using Jaccard index
instead of exact string matching, I need to write the thing...

【在 d****n 的大作中提到】
: 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
h********3
发帖数: 2075
35
如果是大数据情况下的Jaccard Index Similarity,应该考虑用Min-Hash和Locality
Sensitive Hashing的方式。
http://en.wikipedia.org/wiki/Locality-sensitive_hashing

【在 c***z 的大作中提到】
: ditto
: for example, when I need to rewrite the join function using Jaccard index
: instead of exact string matching, I need to write the thing...

T*****u
发帖数: 7103
36
做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其
是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可
行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维
护,扩展,都要考虑,能做出点道道来不太容易。
昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。
。典型的push button statistician 穷举法,也没什么意思。

【在 e**********y 的大作中提到】
: 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
: phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
: 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
: 在是刚开始,所以都可以,但是后面估计还是要分开的

g*****o
发帖数: 812
37
100多种方法...
那人是恶意卖萌么

【在 T*****u 的大作中提到】
: 做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其
: 是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可
: 行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维
: 护,扩展,都要考虑,能做出点道道来不太容易。
: 昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。
: 。典型的push button statistician 穷举法,也没什么意思。

w**2
发帖数: 147
38
LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
读算法书吧。。。
g*****o
发帖数: 812
39
python也有包,虽然没r这么齐全

Learning
R

【在 w**2 的大作中提到】
: LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
: In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
: 入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
: 要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
: 读算法书吧。。。

m*********t
发帖数: 689
40
能说说python具体用什么包吗? 谢谢!

【在 g*****o 的大作中提到】
: python也有包,虽然没r这么齐全
:
: Learning
: R

相关主题
新手学python, 有个简单数据结构问题,在线急等[Data Science Project Case] Fuzzy matching on names
现在PYTHON,SAS, R 在工业界怎么个比例?怎么计算距离比较好?
Locality Sensitive Hashing 问题ds要刷leecode吗,
进入DataSciences版参与讨论
g*****o
发帖数: 812
41
我只是知道有, 但是鉴于我不怎么做ml,也不关注过..

【在 m*********t 的大作中提到】
: 能说说python具体用什么包吗? 谢谢!
O*********y
发帖数: 923
42
同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
几万,几十万,那还能用R做DS的分析吗?
w**2
发帖数: 147
43
R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
,那个R,python都估计处理不了了,主要是RAM的原因。
现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。

10

【在 O*********y 的大作中提到】
: 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
: 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
: 几万,几十万,那还能用R做DS的分析吗?

w**2
发帖数: 147
44
R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。

10

【在 O*********y 的大作中提到】
: 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
: 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
: 几万,几十万,那还能用R做DS的分析吗?

g*****o
发帖数: 812
45
因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
整理好, 然后导到r里算

【在 w**2 的大作中提到】
: R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

l*******s
发帖数: 1258
46
上java吧 整大数据和web service的时候 就知道还是这玩意好使 尤其是在IT公司工作
w**2
发帖数: 147
47
主要是利用了python中list comprehension,array,iteration还有recursion的优势。

【在 g*****o 的大作中提到】
: 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
: 整理好, 然后导到r里算

d******e
发帖数: 7844
48
个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点
的都没处理过。
没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件
下,尽可能的处理大的数据就OK了。

用,

【在 w**2 的大作中提到】
: R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
: ,那个R,python都估计处理不了了,主要是RAM的原因。
: 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
: 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
:
: 10

w**2
发帖数: 147
49
嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公
司,据说有些DS是基本上把所有活都包了。

【在 d******e 的大作中提到】
: 个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点
: 的都没处理过。
: 没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件
: 下,尽可能的处理大的数据就OK了。
:
: 用,

l******n
发帖数: 9344
50
百万级别的数据也就几百个G,1T都不到,我用啥都能搞定
你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数
据要的是business insight,一个model值几个M,几十个M。

【在 w**2 的大作中提到】
: 嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公
: 司,据说有些DS是基本上把所有活都包了。

相关主题
求问编程语言的选择,学stat的往DS努力Pig UDF written in Python
湾区大妈转行做DS或BA,求建议请问大家有没有直接用java全程写mapreduce的程序的?
Leetcode?pig能做iterative的问题吗?
进入DataSciences版参与讨论
O*********y
发帖数: 923
51

多谢解答,python现在好热(而且比较容易学)
突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱
,只能往偏重stat的data mining方向努力~~~~

【在 w**2 的大作中提到】
: R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
: ,那个R,python都估计处理不了了,主要是RAM的原因。
: 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
: 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
:
: 10

w**2
发帖数: 147
52
big data和data mining有重叠的部分。我编程也就马马虎虎。

【在 O*********y 的大作中提到】
:
: 多谢解答,python现在好热(而且比较容易学)
: 突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱
: ,只能往偏重stat的data mining方向努力~~~~

O*********y
发帖数: 923
53

:)))
楼主不要谦虚哈

【在 w**2 的大作中提到】
: big data和data mining有重叠的部分。我编程也就马马虎虎。
w**2
发帖数: 147
54
真心不咋地。

【在 O*********y 的大作中提到】
:
: :)))
: 楼主不要谦虚哈

d****i
发帖数: 4809
55
Python比R好,R比较domain specific, 主要就是统计,而且还有SAS, STATA, SPSS等
的竞争。但是Python是一门general purpose language, 除了数据以外还可以用来做很
多事。

【在 w**2 的大作中提到】
: R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
:
: 10

e**********y
发帖数: 49
56
我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
在是刚开始,所以都可以,但是后面估计还是要分开的
l*******m
发帖数: 1096
57
ml 两种人吃的开,一种是天才,一种是能忽悠的。coding还是出路比较宽

【在 e**********y 的大作中提到】
: 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
: phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
: 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
: 在是刚开始,所以都可以,但是后面估计还是要分开的

d******y
发帖数: 322
58
python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。

【在 m*********t 的大作中提到】
: 能说说python具体用什么包吗? 谢谢!
k*****u
发帖数: 1688
59
re

【在 d******y 的大作中提到】
: python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
: 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
: 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。

w**2
发帖数: 147
60
多谢~

【在 d******y 的大作中提到】
: python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
: 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
: 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。

相关主题
data scientist position[Road map] From ClickStream to ConsumerInsight
hive 里面的UDF会被几个node同时运行么?[Data Science Project Case] Generate Categories for Product
HIVE load CSV 问题请教求教! how to run python programs on a hadoop cluster
进入DataSciences版参与讨论
w****k
发帖数: 6244
61
scikit-learn
pybrain
etc

【在 m*********t 的大作中提到】
: 能说说python具体用什么包吗? 谢谢!
s**i
发帖数: 271
62
我个人还是喜欢python。你要是熟悉matlab的话,numpy, scipy, matplotlib也很快就
上手了。统计的话scipy.stats和statsmodel也还可以。
大数据处理象PIG之类都支持python的UDF(user defined function),可以
实现比较复杂的算法。Java还要编译,在server上拷贝来拷贝去,太烦了。
c****d
发帖数: 13
63
http://scikit-learn.org/
is a very decent python ML package
c****d
发帖数: 13
64
http://scikit-learn.org/ is a very decent python ML package.
c****d
发帖数: 13
f******y
发帖数: 645
66
每次看到这个
if __name__ == '__main__':
main()
就想笑。。。
w**2
发帖数: 147
67
难道说我不需要把算法硬生生地code进去了?谢谢~
Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别
是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一
个nested dictionary出来,都快看哭了。

【在 c****d 的大作中提到】
: http://scikit-learn.org/
d****n
发帖数: 12461
68
通用算法可以用包,但是要专用算法或者提高性能都得自己来。

【在 w**2 的大作中提到】
: 难道说我不需要把算法硬生生地code进去了?谢谢~
: Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别
: 是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一
: 个nested dictionary出来,都快看哭了。

w**2
发帖数: 147
69
谢谢。

【在 d****n 的大作中提到】
: 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
c***z
发帖数: 6348
70
ditto
for example, when I need to rewrite the join function using Jaccard index
instead of exact string matching, I need to write the thing...

【在 d****n 的大作中提到】
: 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
相关主题
求教! how to run python programs on a hadoop cluster现在PYTHON,SAS, R 在工业界怎么个比例?
请推荐生物界认可的Clustering Analysis的免费软件Locality Sensitive Hashing 问题
新手学python, 有个简单数据结构问题,在线急等[Data Science Project Case] Fuzzy matching on names
进入DataSciences版参与讨论
h********3
发帖数: 2075
71
如果是大数据情况下的Jaccard Index Similarity,应该考虑用Min-Hash和Locality
Sensitive Hashing的方式。
http://en.wikipedia.org/wiki/Locality-sensitive_hashing

【在 c***z 的大作中提到】
: ditto
: for example, when I need to rewrite the join function using Jaccard index
: instead of exact string matching, I need to write the thing...

T*****u
发帖数: 7103
72
做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其
是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可
行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维
护,扩展,都要考虑,能做出点道道来不太容易。
昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。
。典型的push button statistician 穷举法,也没什么意思。

【在 e**********y 的大作中提到】
: 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
: phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
: 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
: 在是刚开始,所以都可以,但是后面估计还是要分开的

g*****o
发帖数: 812
73
100多种方法...
那人是恶意卖萌么

【在 T*****u 的大作中提到】
: 做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其
: 是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可
: 行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维
: 护,扩展,都要考虑,能做出点道道来不太容易。
: 昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。
: 。典型的push button statistician 穷举法,也没什么意思。

w**2
发帖数: 147
74
最近用sklearn比较多,感觉sklearn好方便啊。R已经要被我抛弃了,速度让人抓狂。
sklearn的validation curve和learning curve太handy。
P**********k
发帖数: 1629
75
amazon上对这本书的评价很低啊。。。。

Learning
R

【在 w**2 的大作中提到】
: LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
: In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
: 入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
: 要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
: 读算法书吧。。。

w**p
发帖数: 4080
76
是的,用个oracle就能搞定几百个G的数据。
实际上那些动则叫嚣trillion的很可能自己连几百个G的数据都没处理过。
而且需要trillion才能挖出useful information的DS,真的是ds(屌丝)了。。

【在 l******n 的大作中提到】
: 百万级别的数据也就几百个G,1T都不到,我用啥都能搞定
: 你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数
: 据要的是business insight,一个model值几个M,几十个M。

n*****3
发帖数: 1584
77
that book is good, it implements some ML algorithm from scratch,
it looks like some toy work, but has the core part there. It is already
good to understand what is inside the black-box.
In the real life, most of the time , you do not need to implement those by
yourself ,
just use/call the library like scikit-learning.

【在 P**********k 的大作中提到】
: amazon上对这本书的评价很低啊。。。。
:
: Learning
: R

w*********y
发帖数: 7895
78
人处理数据和找PATTERN其实不需要这么多数据的。。。
可是机器需要这么多数据来建立PATTERN。。以后的趋势大概都是
AUTOMATIC PROCESS了,所以要训练机器来做大数据。。

【在 w**p 的大作中提到】
: 是的,用个oracle就能搞定几百个G的数据。
: 实际上那些动则叫嚣trillion的很可能自己连几百个G的数据都没处理过。
: 而且需要trillion才能挖出useful information的DS,真的是ds(屌丝)了。。

O*********h
发帖数: 140
79
整篇下来就您说了句大实话。具体哪个编程语言都是浮云,说到底是为了内容服务的,
差别只是运行效率。对于time intense的客户区别很大,但对更关心趋势的企业,这都
可以接受。

【在 l******n 的大作中提到】
: 百万级别的数据也就几百个G,1T都不到,我用啥都能搞定
: 你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数
: 据要的是business insight,一个model值几个M,几十个M。

1 (共1页)
进入DataSciences版参与讨论
相关主题
data scientist position现在PYTHON,SAS, R 在工业界怎么个比例?
hive 里面的UDF会被几个node同时运行么?Locality Sensitive Hashing 问题
HIVE load CSV 问题请教[Data Science Project Case] Fuzzy matching on names
[Road map] From ClickStream to ConsumerInsight怎么计算距离比较好?
[Data Science Project Case] Generate Categories for Productds要刷leecode吗,
求教! how to run python programs on a hadoop cluster求问编程语言的选择,学stat的往DS努力
请推荐生物界认可的Clustering Analysis的免费软件湾区大妈转行做DS或BA,求建议
新手学python, 有个简单数据结构问题,在线急等Leetcode?
相关话题的讨论汇总
话题: python话题: 数据话题: ml话题: learning话题: 算法