w**2 发帖数: 147 | 1 LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
读算法书吧。。。 |
g*****o 发帖数: 812 | 2 python也有包,虽然没r这么齐全
Learning
R
【在 w**2 的大作中提到】 : LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning : In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导 : 入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R : 要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续 : 读算法书吧。。。
|
m*********t 发帖数: 689 | 3 能说说python具体用什么包吗? 谢谢!
【在 g*****o 的大作中提到】 : python也有包,虽然没r这么齐全 : : Learning : R
|
g*****o 发帖数: 812 | 4 我只是知道有, 但是鉴于我不怎么做ml,也不关注过..
【在 m*********t 的大作中提到】 : 能说说python具体用什么包吗? 谢谢!
|
O*********y 发帖数: 923 | 5 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
几万,几十万,那还能用R做DS的分析吗? |
w**2 发帖数: 147 | 6 R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
,那个R,python都估计处理不了了,主要是RAM的原因。
现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
10
【在 O*********y 的大作中提到】 : 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用, : 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10 : 几万,几十万,那还能用R做DS的分析吗?
|
w**2 发帖数: 147 | 7 R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
10
【在 O*********y 的大作中提到】 : 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用, : 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10 : 几万,几十万,那还能用R做DS的分析吗?
|
g*****o 发帖数: 812 | 8 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
整理好, 然后导到r里算
【在 w**2 的大作中提到】 : R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。 : : 10
|
l*******s 发帖数: 1258 | 9 上java吧 整大数据和web service的时候 就知道还是这玩意好使 尤其是在IT公司工作 |
w**2 发帖数: 147 | 10 主要是利用了python中list comprehension,array,iteration还有recursion的优势。
【在 g*****o 的大作中提到】 : 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据 : 整理好, 然后导到r里算
|
|
|
d******e 发帖数: 7844 | 11 个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点
的都没处理过。
没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件
下,尽可能的处理大的数据就OK了。
用,
【在 w**2 的大作中提到】 : R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的 : ,那个R,python都估计处理不了了,主要是RAM的原因。 : 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个 : 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。 : : 10
|
w**2 发帖数: 147 | 12 嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公
司,据说有些DS是基本上把所有活都包了。
【在 d******e 的大作中提到】 : 个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点 : 的都没处理过。 : 没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件 : 下,尽可能的处理大的数据就OK了。 : : 用,
|
l******n 发帖数: 9344 | 13 百万级别的数据也就几百个G,1T都不到,我用啥都能搞定
你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数
据要的是business insight,一个model值几个M,几十个M。
【在 w**2 的大作中提到】 : 嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公 : 司,据说有些DS是基本上把所有活都包了。
|
O*********y 发帖数: 923 | 14
多谢解答,python现在好热(而且比较容易学)
突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱
,只能往偏重stat的data mining方向努力~~~~
【在 w**2 的大作中提到】 : R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的 : ,那个R,python都估计处理不了了,主要是RAM的原因。 : 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个 : 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。 : : 10
|
w**2 发帖数: 147 | 15 big data和data mining有重叠的部分。我编程也就马马虎虎。
【在 O*********y 的大作中提到】 : : 多谢解答,python现在好热(而且比较容易学) : 突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱 : ,只能往偏重stat的data mining方向努力~~~~
|
O*********y 发帖数: 923 | 16
:)))
楼主不要谦虚哈
【在 w**2 的大作中提到】 : big data和data mining有重叠的部分。我编程也就马马虎虎。
|
w**2 发帖数: 147 | 17 真心不咋地。
【在 O*********y 的大作中提到】 : : :))) : 楼主不要谦虚哈
|
d****i 发帖数: 4809 | 18 Python比R好,R比较domain specific, 主要就是统计,而且还有SAS, STATA, SPSS等
的竞争。但是Python是一门general purpose language, 除了数据以外还可以用来做很
多事。
【在 w**2 的大作中提到】 : R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。 : : 10
|
g****t 发帖数: 2751 | |
e**********y 发帖数: 49 | 20 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
在是刚开始,所以都可以,但是后面估计还是要分开的 |
|
|
l*******m 发帖数: 1096 | 21 ml 两种人吃的开,一种是天才,一种是能忽悠的。coding还是出路比较宽
【在 e**********y 的大作中提到】 : 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh : phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的 : 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现 : 在是刚开始,所以都可以,但是后面估计还是要分开的
|
d******y 发帖数: 322 | 22 python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。
【在 m*********t 的大作中提到】 : 能说说python具体用什么包吗? 谢谢!
|
k*****u 发帖数: 1688 | 23 re
【在 d******y 的大作中提到】 : python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话 : 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容 : 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。
|
w**2 发帖数: 147 | 24 多谢~
【在 d******y 的大作中提到】 : python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话 : 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容 : 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。
|
w****k 发帖数: 6244 | 25 scikit-learn
pybrain
etc
【在 m*********t 的大作中提到】 : 能说说python具体用什么包吗? 谢谢!
|
s**i 发帖数: 271 | 26 我个人还是喜欢python。你要是熟悉matlab的话,numpy, scipy, matplotlib也很快就
上手了。统计的话scipy.stats和statsmodel也还可以。
大数据处理象PIG之类都支持python的UDF(user defined function),可以
实现比较复杂的算法。Java还要编译,在server上拷贝来拷贝去,太烦了。 |
c****d 发帖数: 13 | 27 http://scikit-learn.org/
is a very decent python ML package |
c****d 发帖数: 13 | 28 http://scikit-learn.org/ is a very decent python ML package. |
c****d 发帖数: 13 | |
f******y 发帖数: 645 | 30 每次看到这个
if __name__ == '__main__':
main()
就想笑。。。 |
|
|
w**2 发帖数: 147 | 31 难道说我不需要把算法硬生生地code进去了?谢谢~
Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别
是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一
个nested dictionary出来,都快看哭了。
【在 c****d 的大作中提到】 : http://scikit-learn.org/
|
d****n 发帖数: 12461 | 32 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
【在 w**2 的大作中提到】 : 难道说我不需要把算法硬生生地code进去了?谢谢~ : Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别 : 是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一 : 个nested dictionary出来,都快看哭了。
|
w**2 发帖数: 147 | 33 谢谢。
【在 d****n 的大作中提到】 : 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
|
c***z 发帖数: 6348 | 34 ditto
for example, when I need to rewrite the join function using Jaccard index
instead of exact string matching, I need to write the thing...
【在 d****n 的大作中提到】 : 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
|
h********3 发帖数: 2075 | 35 如果是大数据情况下的Jaccard Index Similarity,应该考虑用Min-Hash和Locality
Sensitive Hashing的方式。
http://en.wikipedia.org/wiki/Locality-sensitive_hashing
【在 c***z 的大作中提到】 : ditto : for example, when I need to rewrite the join function using Jaccard index : instead of exact string matching, I need to write the thing...
|
T*****u 发帖数: 7103 | 36 做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其
是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可
行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维
护,扩展,都要考虑,能做出点道道来不太容易。
昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。
。典型的push button statistician 穷举法,也没什么意思。
【在 e**********y 的大作中提到】 : 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh : phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的 : 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现 : 在是刚开始,所以都可以,但是后面估计还是要分开的
|
g*****o 发帖数: 812 | 37 100多种方法...
那人是恶意卖萌么
【在 T*****u 的大作中提到】 : 做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其 : 是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可 : 行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维 : 护,扩展,都要考虑,能做出点道道来不太容易。 : 昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。 : 。典型的push button statistician 穷举法,也没什么意思。
|
w**2 发帖数: 147 | 38 LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning
In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导
入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R
要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续
读算法书吧。。。 |
g*****o 发帖数: 812 | 39 python也有包,虽然没r这么齐全
Learning
R
【在 w**2 的大作中提到】 : LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning : In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导 : 入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R : 要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续 : 读算法书吧。。。
|
m*********t 发帖数: 689 | 40 能说说python具体用什么包吗? 谢谢!
【在 g*****o 的大作中提到】 : python也有包,虽然没r这么齐全 : : Learning : R
|
|
|
g*****o 发帖数: 812 | 41 我只是知道有, 但是鉴于我不怎么做ml,也不关注过..
【在 m*********t 的大作中提到】 : 能说说python具体用什么包吗? 谢谢!
|
O*********y 发帖数: 923 | 42 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用,
而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10
几万,几十万,那还能用R做DS的分析吗? |
w**2 发帖数: 147 | 43 R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的
,那个R,python都估计处理不了了,主要是RAM的原因。
现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个
程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。
10
【在 O*********y 的大作中提到】 : 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用, : 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10 : 几万,几十万,那还能用R做DS的分析吗?
|
w**2 发帖数: 147 | 44 R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。
10
【在 O*********y 的大作中提到】 : 同打算学python。楼主觉得r好用是不是因为它有很多内置function,可以直接调用, : 而其他programming还要自己写具体的function?有个问题,如果数据特别大,比如10 : 几万,几十万,那还能用R做DS的分析吗?
|
g*****o 发帖数: 812 | 45 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据
整理好, 然后导到r里算
【在 w**2 的大作中提到】 : R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。 : : 10
|
l*******s 发帖数: 1258 | 46 上java吧 整大数据和web service的时候 就知道还是这玩意好使 尤其是在IT公司工作 |
w**2 发帖数: 147 | 47 主要是利用了python中list comprehension,array,iteration还有recursion的优势。
【在 g*****o 的大作中提到】 : 因为python更适合处理数据, 你要用r来整理数据, 会恶心死的吧, 倒是可以先把数据 : 整理好, 然后导到r里算
|
d******e 发帖数: 7844 | 48 个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点
的都没处理过。
没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件
下,尽可能的处理大的数据就OK了。
用,
【在 w**2 的大作中提到】 : R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的 : ,那个R,python都估计处理不了了,主要是RAM的原因。 : 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个 : 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。 : : 10
|
w**2 发帖数: 147 | 49 嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公
司,据说有些DS是基本上把所有活都包了。
【在 d******e 的大作中提到】 : 个人经验,那些张嘴就说Trillion的,绝大部分没处理过啥“大数据”,甚至稍微大点 : 的都没处理过。 : 没有公司会指望一个人来搞定大规模数据的,Data Scientist只需要做的在已有的条件 : 下,尽可能的处理大的数据就OK了。 : : 用,
|
l******n 发帖数: 9344 | 50 百万级别的数据也就几百个G,1T都不到,我用啥都能搞定
你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数
据要的是business insight,一个model值几个M,几十个M。
【在 w**2 的大作中提到】 : 嘿嘿,LZ处理过百万级别的,Trillion真没有处理过。真正拥有大数据的就那么几家公 : 司,据说有些DS是基本上把所有活都包了。
|
|
|
O*********y 发帖数: 923 | 51
多谢解答,python现在好热(而且比较容易学)
突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱
,只能往偏重stat的data mining方向努力~~~~
【在 w**2 的大作中提到】 : R可以处理相当大的数据,几万应该不成问题。但是真正的大数据都是Trillion级别的 : ,那个R,python都估计处理不了了,主要是RAM的原因。 : 现在的大数据归根究底还是需要很强的programming技巧,特别是算法决定了你的一个 : 程序运行的速度。所以说很多CS公司招Data Scientist直接考编程了。 : : 10
|
w**2 发帖数: 147 | 52 big data和data mining有重叠的部分。我编程也就马马虎虎。
【在 O*********y 的大作中提到】 : : 多谢解答,python现在好热(而且比较容易学) : 突然想起来,你说的大数据big data和data mining是2个领域吧,我编程弱 : ,只能往偏重stat的data mining方向努力~~~~
|
O*********y 发帖数: 923 | 53
:)))
楼主不要谦虚哈
【在 w**2 的大作中提到】 : big data和data mining有重叠的部分。我编程也就马马虎虎。
|
w**2 发帖数: 147 | 54 真心不咋地。
【在 O*********y 的大作中提到】 : : :))) : 楼主不要谦虚哈
|
d****i 发帖数: 4809 | 55 Python比R好,R比较domain specific, 主要就是统计,而且还有SAS, STATA, SPSS等
的竞争。但是Python是一门general purpose language, 除了数据以外还可以用来做很
多事。
【在 w**2 的大作中提到】 : R的确很好用,我比较懒所以更倾向于R。但是Python现在好像是更受欢迎的语言。 : : 10
|
e**********y 发帖数: 49 | 56 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh
phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的
博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现
在是刚开始,所以都可以,但是后面估计还是要分开的 |
l*******m 发帖数: 1096 | 57 ml 两种人吃的开,一种是天才,一种是能忽悠的。coding还是出路比较宽
【在 e**********y 的大作中提到】 : 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh : phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的 : 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现 : 在是刚开始,所以都可以,但是后面估计还是要分开的
|
d******y 发帖数: 322 | 58 python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话
直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容
易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。
【在 m*********t 的大作中提到】 : 能说说python具体用什么包吗? 谢谢!
|
k*****u 发帖数: 1688 | 59 re
【在 d******y 的大作中提到】 : python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话 : 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容 : 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。
|
w**2 发帖数: 147 | 60 多谢~
【在 d******y 的大作中提到】 : python用的不多,感觉numpy,scipy,pandas, sklearn 基本上够用了。懒得自己装的话 : 直接用anaconda。你也可以试试mrjob,不用装hadoop就可以写mapreduce程序,也很容 : 易去emr上跑。虽然效率远低于java,比hadoop streaming也差很多,但至少可以用。
|
|
|
w****k 发帖数: 6244 | 61 scikit-learn
pybrain
etc
【在 m*********t 的大作中提到】 : 能说说python具体用什么包吗? 谢谢!
|
s**i 发帖数: 271 | 62 我个人还是喜欢python。你要是熟悉matlab的话,numpy, scipy, matplotlib也很快就
上手了。统计的话scipy.stats和statsmodel也还可以。
大数据处理象PIG之类都支持python的UDF(user defined function),可以
实现比较复杂的算法。Java还要编译,在server上拷贝来拷贝去,太烦了。 |
c****d 发帖数: 13 | 63 http://scikit-learn.org/
is a very decent python ML package |
c****d 发帖数: 13 | 64 http://scikit-learn.org/ is a very decent python ML package. |
c****d 发帖数: 13 | |
f******y 发帖数: 645 | 66 每次看到这个
if __name__ == '__main__':
main()
就想笑。。。 |
w**2 发帖数: 147 | 67 难道说我不需要把算法硬生生地code进去了?谢谢~
Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别
是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一
个nested dictionary出来,都快看哭了。
【在 c****d 的大作中提到】 : http://scikit-learn.org/
|
d****n 发帖数: 12461 | 68 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
【在 w**2 的大作中提到】 : 难道说我不需要把算法硬生生地code进去了?谢谢~ : Machine Learning In Action里面大部分都是写python代码,没有看到用这些的。特别 : 是classification那章,用entropy算出先split哪个feature,再用一个resursion弄一 : 个nested dictionary出来,都快看哭了。
|
w**2 发帖数: 147 | 69 谢谢。
【在 d****n 的大作中提到】 : 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
|
c***z 发帖数: 6348 | 70 ditto
for example, when I need to rewrite the join function using Jaccard index
instead of exact string matching, I need to write the thing...
【在 d****n 的大作中提到】 : 通用算法可以用包,但是要专用算法或者提高性能都得自己来。
|
|
|
h********3 发帖数: 2075 | 71 如果是大数据情况下的Jaccard Index Similarity,应该考虑用Min-Hash和Locality
Sensitive Hashing的方式。
http://en.wikipedia.org/wiki/Locality-sensitive_hashing
【在 c***z 的大作中提到】 : ditto : for example, when I need to rewrite the join function using Jaccard index : instead of exact string matching, I need to write the thing...
|
T*****u 发帖数: 7103 | 72 做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其
是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可
行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维
护,扩展,都要考虑,能做出点道道来不太容易。
昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。
。典型的push button statistician 穷举法,也没什么意思。
【在 e**********y 的大作中提到】 : 我觉得做好marching learning还是要对统计和建模理解透彻,基本就不是一个fresh : phd可以干好的活,没有几年的处理经验,很难有那种数据建模的直觉。 基本统计系的 : 博士做理论多,做应用也不一定顶用,做cs的做算法可以,但是建模也不一定行。 现 : 在是刚开始,所以都可以,但是后面估计还是要分开的
|
g*****o 发帖数: 812 | 73 100多种方法...
那人是恶意卖萌么
【在 T*****u 的大作中提到】 : 做ml本质上还是一个cost-benefit trade-off,建模的时候stakeholder很多的,尤其 : 是某类特定的小众应用,做的人很少,限制很多,优化的空间很大,用现成的包不太可 : 行。而且做这个,编程,统计(model),优化,硬件,市场,用户体验/故事,系统维 : 护,扩展,都要考虑,能做出点道道来不太容易。 : 昨天刚看一篇文章,说做期末作业,经济学的数据,一个星期实验了100多个model。。 : 。典型的push button statistician 穷举法,也没什么意思。
|
w**2 发帖数: 147 | 74 最近用sklearn比较多,感觉sklearn好方便啊。R已经要被我抛弃了,速度让人抓狂。
sklearn的validation curve和learning curve太handy。 |
P**********k 发帖数: 1629 | 75 amazon上对这本书的评价很低啊。。。。
Learning
R
【在 w**2 的大作中提到】 : LZ之前学了用R来做supervised/unsupervised learning。现在在读Machine Learning : In Action这本书,随便再练练Python。感觉很多ML的算法已经写入R中,所以把数据导 : 入然后把一些公式用一下就差不多了,而Python是把这个算法直接code进去,觉得比R : 要难。所以说算法还是学Data Science的重中之重,不会编程的话真够呛。我还是继续 : 读算法书吧。。。
|
w**p 发帖数: 4080 | 76 是的,用个oracle就能搞定几百个G的数据。
实际上那些动则叫嚣trillion的很可能自己连几百个G的数据都没处理过。
而且需要trillion才能挖出useful information的DS,真的是ds(屌丝)了。。
【在 l******n 的大作中提到】 : 百万级别的数据也就几百个G,1T都不到,我用啥都能搞定 : 你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数 : 据要的是business insight,一个model值几个M,几十个M。
|
n*****3 发帖数: 1584 | 77 that book is good, it implements some ML algorithm from scratch,
it looks like some toy work, but has the core part there. It is already
good to understand what is inside the black-box.
In the real life, most of the time , you do not need to implement those by
yourself ,
just use/call the library like scikit-learning.
【在 P**********k 的大作中提到】 : amazon上对这本书的评价很低啊。。。。 : : Learning : R
|
w*********y 发帖数: 7895 | 78 人处理数据和找PATTERN其实不需要这么多数据的。。。
可是机器需要这么多数据来建立PATTERN。。以后的趋势大概都是
AUTOMATIC PROCESS了,所以要训练机器来做大数据。。
【在 w**p 的大作中提到】 : 是的,用个oracle就能搞定几百个G的数据。 : 实际上那些动则叫嚣trillion的很可能自己连几百个G的数据都没处理过。 : 而且需要trillion才能挖出useful information的DS,真的是ds(屌丝)了。。
|
O*********h 发帖数: 140 | 79 整篇下来就您说了句大实话。具体哪个编程语言都是浮云,说到底是为了内容服务的,
差别只是运行效率。对于time intense的客户区别很大,但对更关心趋势的企业,这都
可以接受。
【在 l******n 的大作中提到】 : 百万级别的数据也就几百个G,1T都不到,我用啥都能搞定 : 你说的这种ds真是ds,也就是写程序,基本属于重复简单劳动,价值太低。我们做大数 : 据要的是business insight,一个model值几个M,几十个M。
|