m********g 发帖数: 46 | 1 Matlab, R, Python, Clementine, RapidMiner.
综合方便和功能两个因素,哪个最好?谢谢! | s*****n 发帖数: 2174 | | m********g 发帖数: 46 | 3 能简单说说理由吗?Clementine, RapidMiner 这两个有什么优缺点,多谢了! | d******e 发帖数: 7844 | 4 自己写
【在 m********g 的大作中提到】 : Matlab, R, Python, Clementine, RapidMiner. : 综合方便和功能两个因素,哪个最好?谢谢!
| s*****n 发帖数: 2174 | 5 Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件.
R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是
统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现
在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab.
不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域
的优势.
那本<>, 基本上成了Bible级的著作了.
无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧.
里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合.
你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.
如果从头学起, 现在不知道选什么, 那就选R.
【在 m********g 的大作中提到】 : 能简单说说理由吗?Clementine, RapidMiner 这两个有什么优缺点,多谢了!
| e****s 发帖数: 117 | 6 你说那么多,有个前提,那就是学术界内。
在公司里,SAS EM,Clemtime,KXEN用的多。公司里主要是如果把DM自动化,快速建模
应用,所以算法啥的根本不要紧,自己要写的东西很少。
【在 s*****n 的大作中提到】 : Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件. : R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是 : 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现 : 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab. : 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域 : 的优势. : 那本<>, 基本上成了Bible级的著作了. : 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧. : 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合. : 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.
| s*****n 发帖数: 2174 | 7 对, 那种情况下, 肯定是遵循行业的传统了.
不过看楼主的意思, 不像是问这个.
严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM.
这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归
最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件
都无所谓, 只要选一个行业内用的最普遍的就行了.
如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至
自己要写package来做. 那肯定是R最方便.
【在 e****s 的大作中提到】 : 你说那么多,有个前提,那就是学术界内。 : 在公司里,SAS EM,Clemtime,KXEN用的多。公司里主要是如果把DM自动化,快速建模 : 应用,所以算法啥的根本不要紧,自己要写的东西很少。
| o****o 发帖数: 8077 | 8 如果要自己写算法的话,肯定是先搞R,写个prototype
如果新的算法是现成算法的组合的话,其实SAS/STAT我觉得也挺好
【在 s*****n 的大作中提到】 : 对, 那种情况下, 肯定是遵循行业的传统了. : 不过看楼主的意思, 不像是问这个. : 严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM. : 这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归 : 最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件 : 都无所谓, 只要选一个行业内用的最普遍的就行了. : 如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至 : 自己要写package来做. 那肯定是R最方便.
| m********g 发帖数: 46 | 9 我现在是要自己manipulate data,然后用data mining的方法来挖掘出一些有意义的结
果。比如说,我想做一些nonlinear regression, 比如neural network, 用R的话是不
是所有code都的自己写,没什么可用的package?
【在 s*****n 的大作中提到】 : 对, 那种情况下, 肯定是遵循行业的传统了. : 不过看楼主的意思, 不像是问这个. : 严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM. : 这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归 : 最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件 : 都无所谓, 只要选一个行业内用的最普遍的就行了. : 如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至 : 自己要写package来做. 那肯定是R最方便.
| m********g 发帖数: 46 | 10 商用DM软件的缺点是很多自己不能控制,很死。
那Matlab 和 R 比呢?自己感觉R的功能Matlab都有啊. | | | e******o 发帖数: 644 | 11 我一直狠推崇matlab 但是老师说r的统计包多 总之matlab在统计界真的没地位。。。
【在 m********g 的大作中提到】 : 商用DM软件的缺点是很多自己不能控制,很死。 : 那Matlab 和 R 比呢?自己感觉R的功能Matlab都有啊.
| f***a 发帖数: 329 | 12 都有现成的package
neural network in R: library(nnet)
【在 m********g 的大作中提到】 : 我现在是要自己manipulate data,然后用data mining的方法来挖掘出一些有意义的结 : 果。比如说,我想做一些nonlinear regression, 比如neural network, 用R的话是不 : 是所有code都的自己写,没什么可用的package?
| f***a 发帖数: 329 | 13 你们老师说得对。。。
【在 e******o 的大作中提到】 : 我一直狠推崇matlab 但是老师说r的统计包多 总之matlab在统计界真的没地位。。。
| N**D 发帖数: 10322 | 14 the reason is this is tht stat board.
that book is completely useless. eg. still using that iris data.
the authors are business men. charge thousands for 3 day lecture taling
about nothing.
【在 s*****n 的大作中提到】 : Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件. : R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是 : 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现 : 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab. : 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域 : 的优势. : 那本<>, 基本上成了Bible级的著作了. : 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧. : 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合. : 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.
| N**D 发帖数: 10322 | 15 how much data can you load into R at once.
【在 s*****n 的大作中提到】 : 对, 那种情况下, 肯定是遵循行业的传统了. : 不过看楼主的意思, 不像是问这个. : 严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM. : 这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归 : 最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件 : 都无所谓, 只要选一个行业内用的最普遍的就行了. : 如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至 : 自己要写package来做. 那肯定是R最方便.
| N**D 发帖数: 10322 | 16 bible?
it's just a reference book full of (en, full of) typo and mistakes.
【在 s*****n 的大作中提到】 : Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件. : R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是 : 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现 : 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab. : 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域 : 的优势. : 那本<>, 基本上成了Bible级的著作了. : 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧. : 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合. : 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.
| d*******1 发帖数: 854 | 17 不懂, iris data 不是R.A. FISHER 收集并分析的吗, 怎么就没用了?
【在 N**D 的大作中提到】 : the reason is this is tht stat board. : that book is completely useless. eg. still using that iris data. : the authors are business men. charge thousands for 3 day lecture taling : about nothing.
| m**y 发帖数: 361 | 18 R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能
进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<<
Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来
,他看不起machine learning的这套东西.
【在 s*****n 的大作中提到】 : Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件. : R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是 : 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现 : 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab. : 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域 : 的优势. : 那本<>, 基本上成了Bible级的著作了. : 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧. : 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合. : 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.
| h***i 发帖数: 3844 | 19 随便问一下,你那个教授是做什么方向的?
【在 m**y 的大作中提到】 : R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能 : 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<< : Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来 : ,他看不起machine learning的这套东西.
| o****o 发帖数: 8077 | 20 估计是这个数据doesn't impose any difficulties in classification
easily well separated
【在 d*******1 的大作中提到】 : 不懂, iris data 不是R.A. FISHER 收集并分析的吗, 怎么就没用了?
| | | m********g 发帖数: 46 | 21 看来R的一个缺点是不能做大数据处理。那你觉得什么比R好,适合大数据处理?
Machine learning的东西哪些被看不起?难道你导师有很多更高明的办法?
【在 m**y 的大作中提到】 : R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能 : 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<< : Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来 : ,他看不起machine learning的这套东西.
| m********g 发帖数: 46 | 22 那date mining比较经典的书都有哪些?
【在 m**y 的大作中提到】 : R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能 : 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<< : Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来 : ,他看不起machine learning的这套东西.
| d*******1 发帖数: 854 | 23 从传统统计的观点看, 很多machine learning的东西都是overfitting, sample size
太小, feature太多. 统计和machine learning从历史上就是两个完全不同的领域,只不
过近近些年才开始融合.
【在 m********g 的大作中提到】 : 看来R的一个缺点是不能做大数据处理。那你觉得什么比R好,适合大数据处理? : Machine learning的东西哪些被看不起?难道你导师有很多更高明的办法?
| m**y 发帖数: 361 | 24 我说觉得machine learning不行的那个教授是另一个人,不是我导师.我导师本身也是
machine learning系的教授.R里面稍微大点的数据就挂了,存点数据进去,就很慢.
算起来也很慢.用C好了.我那个教授说machine learning的那些方法,都是没什么道理的,
弄一堆模型,然后把那些结果做些解释,往好的方面凑.大把的例子machine learning那
些算法根本不成功,那些书上每次都用几百人做了无数遍的相同数据.
【在 m********g 的大作中提到】 : 看来R的一个缺点是不能做大数据处理。那你觉得什么比R好,适合大数据处理? : Machine learning的东西哪些被看不起?难道你导师有很多更高明的办法?
| m**y 发帖数: 361 | 25 我提到两个人,我导师和另一个我很熟悉的教授.你指哪位?
【在 h***i 的大作中提到】 : 随便问一下,你那个教授是做什么方向的?
| o****o 发帖数: 8077 | 26 大家见过统计类模型比那些machine learning的模型在实际应用中表现明显差很多的么?
前提是两个模型都是仔细建模建起来的
的,
【在 m**y 的大作中提到】 : 我说觉得machine learning不行的那个教授是另一个人,不是我导师.我导师本身也是 : machine learning系的教授.R里面稍微大点的数据就挂了,存点数据进去,就很慢. : 算起来也很慢.用C好了.我那个教授说machine learning的那些方法,都是没什么道理的, : 弄一堆模型,然后把那些结果做些解释,往好的方面凑.大把的例子machine learning那 : 些算法根本不成功,那些书上每次都用几百人做了无数遍的相同数据.
| d******e 发帖数: 7844 | 27 Most of popular Machine Learning models are based on Statistics. So what do
you mean by "Machine Learning Model"?
么?
【在 o****o 的大作中提到】 : 大家见过统计类模型比那些machine learning的模型在实际应用中表现明显差很多的么? : 前提是两个模型都是仔细建模建起来的 : : 的,
| o****o 发帖数: 8077 | 28 比如神经网络
我不觉得的NN是统计模型。你不能用这个模型做统计推断
还有用BAGGING的模型
do
【在 d******e 的大作中提到】 : Most of popular Machine Learning models are based on Statistics. So what do : you mean by "Machine Learning Model"? : : 么?
| m**y 发帖数: 361 | 29 oloolo,我看到过的统计模型表现比machine learning好的情况远远超过machine
learning比统计模型好的情况. 一个简单例子,我暑假做了个实习,做那什么logistic
reg based lasso,最后发现其实没什么大的区别.后来回过头来去念那些L-1 norm的文
章,发现一帮人在做这个事,而且似乎有把这个当生意做的意思.什么都往lasso上挤,千
方百计往interpretation上做文章. 我个人猜测,machine learning people在统计界的
影响是使统计界出现了一批搞model selection的人. 我个人不喜欢这个想法.
么?
【在 o****o 的大作中提到】 : 大家见过统计类模型比那些machine learning的模型在实际应用中表现明显差很多的么? : 前提是两个模型都是仔细建模建起来的 : : 的,
| h***i 发帖数: 3844 | 30 那个你很熟悉的教授
做什么的,比如semi-para, longitudinal, mcmc, time-series, robust or
something else?
【在 m**y 的大作中提到】 : 我提到两个人,我导师和另一个我很熟悉的教授.你指哪位?
| | | h***i 发帖数: 3844 | 31 NN是个统计model吧
【在 o****o 的大作中提到】 : 比如神经网络 : 我不觉得的NN是统计模型。你不能用这个模型做统计推断 : 还有用BAGGING的模型 : : do
| o****o 发帖数: 8077 | 32 你要把它看成非参的一种也可以,但是有些统计教授不认这个干儿子
NN好像是计算机那边最先搞出来的
【在 h***i 的大作中提到】 : NN是个统计model吧
| N**D 发帖数: 10322 | 33 typicall stat problem: low dimension, moderate amount of data
typical ml problem: high dimension, huge amount of data (like terabyte).
lasso is stat, was invented by stat people (the author of that book). I
think it is junk.
【在 m**y 的大作中提到】 : oloolo,我看到过的统计模型表现比machine learning好的情况远远超过machine : learning比统计模型好的情况. 一个简单例子,我暑假做了个实习,做那什么logistic : reg based lasso,最后发现其实没什么大的区别.后来回过头来去念那些L-1 norm的文 : 章,发现一帮人在做这个事,而且似乎有把这个当生意做的意思.什么都往lasso上挤,千 : 方百计往interpretation上做文章. 我个人猜测,machine learning people在统计界的 : 影响是使统计界出现了一批搞model selection的人. 我个人不喜欢这个想法. : : 么?
| N**D 发帖数: 10322 | 34 the phrase 'statical learning' is popular and everyone want to touch it.
unfortunately, this book is just statistics, traditional.
for sl, check Vapnik's book, or R Dudley's book
【在 m**y 的大作中提到】 : R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能 : 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<< : Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来 : ,他看不起machine learning的这套东西.
| N**D 发帖数: 10322 | 35 and only 3 d, 150 data points.
【在 o****o 的大作中提到】 : 估计是这个数据doesn't impose any difficulties in classification : easily well separated
| h***i 发帖数: 3844 | 36 当然和经典的统计model不是一个类型
【在 o****o 的大作中提到】 : 你要把它看成非参的一种也可以,但是有些统计教授不认这个干儿子 : NN好像是计算机那边最先搞出来的
| e****s 发帖数: 117 | 37 NN是AI的
【在 o****o 的大作中提到】 : 你要把它看成非参的一种也可以,但是有些统计教授不认这个干儿子 : NN好像是计算机那边最先搞出来的
|
|