由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 有没工具或framework可以对大数据库运行中去重复?
相关主题
ZK框架用处大吗?StackOverflow的架构
三年来MS SQL server 有没更新?搜索 lucene 之类是不是不流行了?
与其无意义的争论,不如干点实事Webinar hosted by CINAOUG on September 15, 2011
请大牛来谈谈对Solr的看法Webinar hosted by CINAOUG on September 22, 2011
如何智能化合并数据库中属于相关objects的各种属性到一个object下?Re: 请教板上老司机 关于组和以后的发展方向
请教下本地搜索是否值得把业务逻辑做到Hbase coprocessor里面?
怎么做个文件的 index, 比如archive 这样的prolog, lisp, sql,这些算functional programming么?
想更新一下有点过时的知识体系,大家给开个单子吧你们读写数据库,是直接用java hibernate,还是Spring Framework transaction management?
相关话题的讨论汇总
话题: sql话题: framework话题: 数据库话题: ms话题: 工具
进入Programming版参与讨论
1 (共1页)
p****2
发帖数: 518
1
测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL
的de-duplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦!
p****2
发帖数: 518
2
测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL
的de-duplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦!
z*******3
发帖数: 13709
3
看看data warehousing相关的工具
c******3
发帖数: 296
4
什么数据库呀,连million数目都处理不好?"效率明显不够",是不是把整个record都
内存了?
重复是指某个key重复了?全部key应该不占多少内存吧。写几行code,计算count,再
batch SQL删。
或者先用MapReduce算count,再Reducer删重复。

SQL

【在 p****2 的大作中提到】
: 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL
: 的de-duplication,在record数目到million级的时候,效率明显不够要求,
: 求个好工具,或者自己做的话,可以借用什么framework?
: Lucene + Mahout? R语言?
: 多谢啦!

p****2
发帖数: 518
5
测试用的是ms SQL server 2012的DQS
这里主要是 fuzzy matching 和 fuzzy grouping,
exact matching会容易很多,也不需那么多内存了
譬如说,同一个人,先前在两个部门工作,现在要把这两个部门的人员数据系统合并管
理,也就是说,需要建立关于这个人的record linkage

【在 c******3 的大作中提到】
: 什么数据库呀,连million数目都处理不好?"效率明显不够",是不是把整个record都
: 内存了?
: 重复是指某个key重复了?全部key应该不占多少内存吧。写几行code,计算count,再
: batch SQL删。
: 或者先用MapReduce算count,再Reducer删重复。
:
: SQL

r**u
发帖数: 42
6
在一台最牛的机子上用OpenRefine Clustering,可惜好像不是全自动。
https://github.com/OpenRefine/OpenRefine/wiki/Clustering
g*****g
发帖数: 34805
7
Elastic Search
w***g
发帖数: 5958
8
我觉着million级的MS SQL不应该搞不定啊。你内存没给够吧?

SQL

【在 p****2 的大作中提到】
: 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软MS SQL
: 的de-duplication,在record数目到million级的时候,效率明显不够要求,
: 求个好工具,或者自己做的话,可以借用什么framework?
: Lucene + Mahout? R语言?
: 多谢啦!

1 (共1页)
进入Programming版参与讨论
相关主题
你们读写数据库,是直接用java hibernate,还是Spring Framework transaction management?如何智能化合并数据库中属于相关objects的各种属性到一个object下?
一道c++ 题, 找出duplicate numbers请教下本地搜索
Python based web frameworks怎么做个文件的 index, 比如archive 这样的
在经历了无穷多的灾难后。。。想更新一下有点过时的知识体系,大家给开个单子吧
ZK框架用处大吗?StackOverflow的架构
三年来MS SQL server 有没更新?搜索 lucene 之类是不是不流行了?
与其无意义的争论,不如干点实事Webinar hosted by CINAOUG on September 15, 2011
请大牛来谈谈对Solr的看法Webinar hosted by CINAOUG on September 22, 2011
相关话题的讨论汇总
话题: sql话题: framework话题: 数据库话题: ms话题: 工具