由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请问做data mining下面哪个软件最好,谢谢!
相关主题
请教Clementine问题求教machine learning的基础材料
盗版clementine 画的decision tree 图 敢不敢用作PRESENTATION 啊求推荐machine learning的基础材料
[合集] Can we incorporate R or C codes into SAS Enterprise Miner o求教:Machine Learning 在金融交易里到底有没有实质的应用?
陈大师的两大硬伤和两大法宝machine learning textbook
can anybody receommend a good book for SPSS Clementine?Nvidia 的问题, 今年还有潜力股吗?
求 spss clementine买了本deep learning来翻翻,看能否搞个learning TA
WHAT IS CART?请教一下这个做Learning的faculty水平如何?
[转载] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的[合集] 请教一下: 这几个领域对做quant有用么?
相关话题的讨论汇总
话题: learning话题: data话题: machine话题: 统计话题: mining
进入Statistics版参与讨论
1 (共1页)
m********g
发帖数: 46
1
Matlab, R, Python, Clementine, RapidMiner.
综合方便和功能两个因素,哪个最好?谢谢!
s*****n
发帖数: 2174
2
R
m********g
发帖数: 46
3
能简单说说理由吗?Clementine, RapidMiner 这两个有什么优缺点,多谢了!
d******e
发帖数: 7844
4
自己写

【在 m********g 的大作中提到】
: Matlab, R, Python, Clementine, RapidMiner.
: 综合方便和功能两个因素,哪个最好?谢谢!

s*****n
发帖数: 2174
5
Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件.
R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是
统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现
在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab.
不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域
的优势.
那本<>, 基本上成了Bible级的著作了.
无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧.
里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合.
你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.
如果从头学起, 现在不知道选什么, 那就选R.

【在 m********g 的大作中提到】
: 能简单说说理由吗?Clementine, RapidMiner 这两个有什么优缺点,多谢了!
e****s
发帖数: 117
6
你说那么多,有个前提,那就是学术界内。
在公司里,SAS EM,Clemtime,KXEN用的多。公司里主要是如果把DM自动化,快速建模
应用,所以算法啥的根本不要紧,自己要写的东西很少。

【在 s*****n 的大作中提到】
: Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件.
: R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是
: 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现
: 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab.
: 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域
: 的优势.
: 那本<>, 基本上成了Bible级的著作了.
: 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧.
: 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合.
: 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.

s*****n
发帖数: 2174
7
对, 那种情况下, 肯定是遵循行业的传统了.
不过看楼主的意思, 不像是问这个.
严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM.
这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归
最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件
都无所谓, 只要选一个行业内用的最普遍的就行了.
如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至
自己要写package来做. 那肯定是R最方便.

【在 e****s 的大作中提到】
: 你说那么多,有个前提,那就是学术界内。
: 在公司里,SAS EM,Clemtime,KXEN用的多。公司里主要是如果把DM自动化,快速建模
: 应用,所以算法啥的根本不要紧,自己要写的东西很少。

o****o
发帖数: 8077
8
如果要自己写算法的话,肯定是先搞R,写个prototype
如果新的算法是现成算法的组合的话,其实SAS/STAT我觉得也挺好

【在 s*****n 的大作中提到】
: 对, 那种情况下, 肯定是遵循行业的传统了.
: 不过看楼主的意思, 不像是问这个.
: 严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM.
: 这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归
: 最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件
: 都无所谓, 只要选一个行业内用的最普遍的就行了.
: 如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至
: 自己要写package来做. 那肯定是R最方便.

m********g
发帖数: 46
9
我现在是要自己manipulate data,然后用data mining的方法来挖掘出一些有意义的结
果。比如说,我想做一些nonlinear regression, 比如neural network, 用R的话是不
是所有code都的自己写,没什么可用的package?

【在 s*****n 的大作中提到】
: 对, 那种情况下, 肯定是遵循行业的传统了.
: 不过看楼主的意思, 不像是问这个.
: 严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM.
: 这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归
: 最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件
: 都无所谓, 只要选一个行业内用的最普遍的就行了.
: 如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至
: 自己要写package来做. 那肯定是R最方便.

m********g
发帖数: 46
10
商用DM软件的缺点是很多自己不能控制,很死。
那Matlab 和 R 比呢?自己感觉R的功能Matlab都有啊.
相关主题
求 spss clementine求教machine learning的基础材料
WHAT IS CART?求推荐machine learning的基础材料
[转载] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的求教:Machine Learning 在金融交易里到底有没有实质的应用?
进入Statistics版参与讨论
e******o
发帖数: 644
11
我一直狠推崇matlab 但是老师说r的统计包多 总之matlab在统计界真的没地位。。。

【在 m********g 的大作中提到】
: 商用DM软件的缺点是很多自己不能控制,很死。
: 那Matlab 和 R 比呢?自己感觉R的功能Matlab都有啊.

f***a
发帖数: 329
12
都有现成的package
neural network in R: library(nnet)

【在 m********g 的大作中提到】
: 我现在是要自己manipulate data,然后用data mining的方法来挖掘出一些有意义的结
: 果。比如说,我想做一些nonlinear regression, 比如neural network, 用R的话是不
: 是所有code都的自己写,没什么可用的package?

f***a
发帖数: 329
13
你们老师说得对。。。

【在 e******o 的大作中提到】
: 我一直狠推崇matlab 但是老师说r的统计包多 总之matlab在统计界真的没地位。。。
N**D
发帖数: 10322
14
the reason is this is tht stat board.
that book is completely useless. eg. still using that iris data.
the authors are business men. charge thousands for 3 day lecture taling
about nothing.

【在 s*****n 的大作中提到】
: Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件.
: R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是
: 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现
: 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab.
: 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域
: 的优势.
: 那本<>, 基本上成了Bible级的著作了.
: 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧.
: 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合.
: 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.

N**D
发帖数: 10322
15
how much data can you load into R at once.

【在 s*****n 的大作中提到】
: 对, 那种情况下, 肯定是遵循行业的传统了.
: 不过看楼主的意思, 不像是问这个.
: 严格来说, 用现成的DM软件做, 都不能算叫"做data mining". 只能叫应用DM.
: 这个时候谈论哪个软件好没什么意义. 这就好像说用什么软件做线性回归
: 最好, 用什么软件做时间序列最好. 如果只是狭义的应用, 那么什么软件
: 都无所谓, 只要选一个行业内用的最普遍的就行了.
: 如果是要自己manipulate data, 然后逐步做探索性的data mining. 甚至
: 自己要写package来做. 那肯定是R最方便.

N**D
发帖数: 10322
16
bible?
it's just a reference book full of (en, full of) typo and mistakes.

【在 s*****n 的大作中提到】
: Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件.
: R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是
: 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现
: 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab.
: 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域
: 的优势.
: 那本<>, 基本上成了Bible级的著作了.
: 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧.
: 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合.
: 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.

d*******1
发帖数: 854
17
不懂, iris data 不是R.A. FISHER 收集并分析的吗, 怎么就没用了?

【在 N**D 的大作中提到】
: the reason is this is tht stat board.
: that book is completely useless. eg. still using that iris data.
: the authors are business men. charge thousands for 3 day lecture taling
: about nothing.

m**y
发帖数: 361
18
R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能
进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<<
Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来
,他看不起machine learning的这套东西.

【在 s*****n 的大作中提到】
: Data mining里面, 很多东西都要自己写, 所以你需要一种灵活度很高的软件.
: R绝对是这个领域的主流. 传统的data mining, 无非是两个领域在做, 一个是
: 统计, 一个是计算机. 两个领域的人做研究, 风格和理念都不太一样, 但是现
: 在越来越融合了. 统计界, 传统就用R. 计算机界, 传统上用C++或者Matlab.
: 不过现在的趋势, 是计算机的系的老师也逐渐开始用R了, 这足以说明R在这个领域
: 的优势.
: 那本<>, 基本上成了Bible级的著作了.
: 无论是统计背景还是计算机背景的人, 只要做这个方向的, 基本人手一册吧.
: 里面的sample code, 都是R的. 这本书, 很大程度上促进了这个领域的大融合.
: 你提到的另外这两个, 我不了解, 如果你会用, 你就选你用的顺手的.

h***i
发帖数: 3844
19
随便问一下,你那个教授是做什么方向的?

【在 m**y 的大作中提到】
: R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能
: 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<<
: Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来
: ,他看不起machine learning的这套东西.

o****o
发帖数: 8077
20
估计是这个数据doesn't impose any difficulties in classification
easily well separated

【在 d*******1 的大作中提到】
: 不懂, iris data 不是R.A. FISHER 收集并分析的吗, 怎么就没用了?
相关主题
machine learning textbook请教一下这个做Learning的faculty水平如何?
Nvidia 的问题, 今年还有潜力股吗?[合集] 请教一下: 这几个领域对做quant有用么?
买了本deep learning来翻翻,看能否搞个learning TAdeep learning就是小团体 (转载)
进入Statistics版参与讨论
m********g
发帖数: 46
21
看来R的一个缺点是不能做大数据处理。那你觉得什么比R好,适合大数据处理?
Machine learning的东西哪些被看不起?难道你导师有很多更高明的办法?

【在 m**y 的大作中提到】
: R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能
: 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<<
: Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来
: ,他看不起machine learning的这套东西.

m********g
发帖数: 46
22
那date mining比较经典的书都有哪些?

【在 m**y 的大作中提到】
: R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能
: 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<<
: Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来
: ,他看不起machine learning的这套东西.

d*******1
发帖数: 854
23
从传统统计的观点看, 很多machine learning的东西都是overfitting, sample size
太小, feature太多. 统计和machine learning从历史上就是两个完全不同的领域,只不
过近近些年才开始融合.

【在 m********g 的大作中提到】
: 看来R的一个缺点是不能做大数据处理。那你觉得什么比R好,适合大数据处理?
: Machine learning的东西哪些被看不起?难道你导师有很多更高明的办法?

m**y
发帖数: 361
24
我说觉得machine learning不行的那个教授是另一个人,不是我导师.我导师本身也是
machine learning系的教授.R里面稍微大点的数据就挂了,存点数据进去,就很慢.
算起来也很慢.用C好了.我那个教授说machine learning的那些方法,都是没什么道理的,
弄一堆模型,然后把那些结果做些解释,往好的方面凑.大把的例子machine learning那
些算法根本不成功,那些书上每次都用几百人做了无数遍的相同数据.

【在 m********g 的大作中提到】
: 看来R的一个缺点是不能做大数据处理。那你觉得什么比R好,适合大数据处理?
: Machine learning的东西哪些被看不起?难道你导师有很多更高明的办法?

m**y
发帖数: 361
25
我提到两个人,我导师和另一个我很熟悉的教授.你指哪位?

【在 h***i 的大作中提到】
: 随便问一下,你那个教授是做什么方向的?
o****o
发帖数: 8077
26
大家见过统计类模型比那些machine learning的模型在实际应用中表现明显差很多的么?
前提是两个模型都是仔细建模建起来的

的,

【在 m**y 的大作中提到】
: 我说觉得machine learning不行的那个教授是另一个人,不是我导师.我导师本身也是
: machine learning系的教授.R里面稍微大点的数据就挂了,存点数据进去,就很慢.
: 算起来也很慢.用C好了.我那个教授说machine learning的那些方法,都是没什么道理的,
: 弄一堆模型,然后把那些结果做些解释,往好的方面凑.大把的例子machine learning那
: 些算法根本不成功,那些书上每次都用几百人做了无数遍的相同数据.

d******e
发帖数: 7844
27
Most of popular Machine Learning models are based on Statistics. So what do
you mean by "Machine Learning Model"?

么?

【在 o****o 的大作中提到】
: 大家见过统计类模型比那些machine learning的模型在实际应用中表现明显差很多的么?
: 前提是两个模型都是仔细建模建起来的
:
: 的,

o****o
发帖数: 8077
28
比如神经网络
我不觉得的NN是统计模型。你不能用这个模型做统计推断
还有用BAGGING的模型

do

【在 d******e 的大作中提到】
: Most of popular Machine Learning models are based on Statistics. So what do
: you mean by "Machine Learning Model"?
:
: 么?

m**y
发帖数: 361
29
oloolo,我看到过的统计模型表现比machine learning好的情况远远超过machine
learning比统计模型好的情况. 一个简单例子,我暑假做了个实习,做那什么logistic
reg based lasso,最后发现其实没什么大的区别.后来回过头来去念那些L-1 norm的文
章,发现一帮人在做这个事,而且似乎有把这个当生意做的意思.什么都往lasso上挤,千
方百计往interpretation上做文章. 我个人猜测,machine learning people在统计界的
影响是使统计界出现了一批搞model selection的人. 我个人不喜欢这个想法.

么?

【在 o****o 的大作中提到】
: 大家见过统计类模型比那些machine learning的模型在实际应用中表现明显差很多的么?
: 前提是两个模型都是仔细建模建起来的
:
: 的,

h***i
发帖数: 3844
30
那个你很熟悉的教授
做什么的,比如semi-para, longitudinal, mcmc, time-series, robust or
something else?

【在 m**y 的大作中提到】
: 我提到两个人,我导师和另一个我很熟悉的教授.你指哪位?
相关主题
请教Clementine问题陈大师的两大硬伤和两大法宝
盗版clementine 画的decision tree 图 敢不敢用作PRESENTATION 啊can anybody receommend a good book for SPSS Clementine?
[合集] Can we incorporate R or C codes into SAS Enterprise Miner o求 spss clementine
进入Statistics版参与讨论
h***i
发帖数: 3844
31
NN是个统计model吧

【在 o****o 的大作中提到】
: 比如神经网络
: 我不觉得的NN是统计模型。你不能用这个模型做统计推断
: 还有用BAGGING的模型
:
: do

o****o
发帖数: 8077
32
你要把它看成非参的一种也可以,但是有些统计教授不认这个干儿子
NN好像是计算机那边最先搞出来的

【在 h***i 的大作中提到】
: NN是个统计model吧
N**D
发帖数: 10322
33
typicall stat problem: low dimension, moderate amount of data
typical ml problem: high dimension, huge amount of data (like terabyte).
lasso is stat, was invented by stat people (the author of that book). I
think it is junk.

【在 m**y 的大作中提到】
: oloolo,我看到过的统计模型表现比machine learning好的情况远远超过machine
: learning比统计模型好的情况. 一个简单例子,我暑假做了个实习,做那什么logistic
: reg based lasso,最后发现其实没什么大的区别.后来回过头来去念那些L-1 norm的文
: 章,发现一帮人在做这个事,而且似乎有把这个当生意做的意思.什么都往lasso上挤,千
: 方百计往interpretation上做文章. 我个人猜测,machine learning people在统计界的
: 影响是使统计界出现了一批搞model selection的人. 我个人不喜欢这个想法.
:
: 么?

N**D
发帖数: 10322
34
the phrase 'statical learning' is popular and everyone want to touch it.
unfortunately, this book is just statistics, traditional.
for sl, check Vapnik's book, or R Dudley's book

【在 m**y 的大作中提到】
: R在统计界很受一些人欢迎,很大原因是统计界的人很多都不懂怎么写好的程序。不能
: 进行大数据的处理,用我导师的话来讲,R就是一个fooling around的小软件.<<
: Elements of Statistical Learning>>, 我另一个教授说,书写的太差。不过话说回来
: ,他看不起machine learning的这套东西.

N**D
发帖数: 10322
35
and only 3 d, 150 data points.

【在 o****o 的大作中提到】
: 估计是这个数据doesn't impose any difficulties in classification
: easily well separated

h***i
发帖数: 3844
36
当然和经典的统计model不是一个类型

【在 o****o 的大作中提到】
: 你要把它看成非参的一种也可以,但是有些统计教授不认这个干儿子
: NN好像是计算机那边最先搞出来的

e****s
发帖数: 117
37
NN是AI的

【在 o****o 的大作中提到】
: 你要把它看成非参的一种也可以,但是有些统计教授不认这个干儿子
: NN好像是计算机那边最先搞出来的

1 (共1页)
进入Statistics版参与讨论
相关主题
[合集] 请教一下: 这几个领域对做quant有用么?WHAT IS CART?
deep learning就是小团体 (转载)[转载] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的
请教Clementine问题求教machine learning的基础材料
盗版clementine 画的decision tree 图 敢不敢用作PRESENTATION 啊求推荐machine learning的基础材料
[合集] Can we incorporate R or C codes into SAS Enterprise Miner o求教:Machine Learning 在金融交易里到底有没有实质的应用?
陈大师的两大硬伤和两大法宝machine learning textbook
can anybody receommend a good book for SPSS Clementine?Nvidia 的问题, 今年还有潜力股吗?
求 spss clementine买了本deep learning来翻翻,看能否搞个learning TA
相关话题的讨论汇总
话题: learning话题: data话题: machine话题: 统计话题: mining