p****2 发帖数: 518 | 1 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL
的de-duplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦! |
p****2 发帖数: 518 | 2 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL
的de-duplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦! |
z*******3 发帖数: 13709 | |
c******3 发帖数: 296 | 4 什么数据库呀,连million数目都处理不好?"效率明显不够",是不是把整个record都
内存了?
重复是指某个key重复了?全部key应该不占多少内存吧。写几行code,计算count,再
batch SQL删。
或者先用MapReduce算count,再Reducer删重复。
SQL
【在 p****2 的大作中提到】 : 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL : 的de-duplication,在record数目到million级的时候,效率明显不够要求, : 求个好工具,或者自己做的话,可以借用什么framework? : Lucene + Mahout? R语言? : 多谢啦!
|
p****2 发帖数: 518 | 5 测试用的是ms SQL server 2012的DQS
这里主要是 fuzzy matching 和 fuzzy grouping,
exact matching会容易很多,也不需那么多内存了
譬如说,同一个人,先前在两个部门工作,现在要把这两个部门的人员数据系统合并管
理,也就是说,需要建立关于这个人的record linkage
【在 c******3 的大作中提到】 : 什么数据库呀,连million数目都处理不好?"效率明显不够",是不是把整个record都 : 内存了? : 重复是指某个key重复了?全部key应该不占多少内存吧。写几行code,计算count,再 : batch SQL删。 : 或者先用MapReduce算count,再Reducer删重复。 : : SQL
|
r**u 发帖数: 42 | |
g*****g 发帖数: 34805 | |
w***g 发帖数: 5958 | 8 我觉着million级的MS SQL不应该搞不定啊。你内存没给够吧?
SQL
【在 p****2 的大作中提到】 : 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL : 的de-duplication,在record数目到million级的时候,效率明显不够要求, : 求个好工具,或者自己做的话,可以借用什么framework? : Lucene + Mahout? R语言? : 多谢啦!
|