f*******8 发帖数: 149 | 1 我刚刚接到一个项目,对我们公司的数据库做data mining。
数据库很大,有billions records,存在数据库中。
请问我应该选择什么样的软件呢?
万分感谢! |
u*****u 发帖数: 2651 | |
s******a 发帖数: 472 | 3 自己回编程是不是也可以?
【在 f*******8 的大作中提到】 : 我刚刚接到一个项目,对我们公司的数据库做data mining。 : 数据库很大,有billions records,存在数据库中。 : 请问我应该选择什么样的软件呢? : 万分感谢!
|
f*******8 发帖数: 149 | 4 我刚刚接到一个项目,对我们公司的数据库做data mining。
数据库很大,有billions records,存在数据库中。
请问我应该选择什么样的软件呢?
万分感谢! |
u*****u 发帖数: 2651 | |
s******a 发帖数: 472 | 6 自己回编程是不是也可以?
【在 f*******8 的大作中提到】 : 我刚刚接到一个项目,对我们公司的数据库做data mining。 : 数据库很大,有billions records,存在数据库中。 : 请问我应该选择什么样的软件呢? : 万分感谢!
|
S******y 发帖数: 1123 | 7 您问的问题很好, 回答起来沒有那么简单 :-)
最短平快的方法 sampling,把选的数据拿出来在R或Python里来分析(但有局限性)
Mahout 可以直接在hadoop上做数据挖掘,in batch jobs
尽量不要自己写,用现成open source
m*********[email protected]
实战速成Python/R/Hadoop课程-
http://plus.google.com/+statsGuyMITBBS/about
【在 f*******8 的大作中提到】 : 我刚刚接到一个项目,对我们公司的数据库做data mining。 : 数据库很大,有billions records,存在数据库中。 : 请问我应该选择什么样的软件呢? : 万分感谢!
|