有没工具或framework可以对大数据库运行中去重复？ - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 有没工具或framework可以对大数据库运行中去重复？

相关主题
● ZK框架用处大吗？	● StackOverflow的架构
● 三年来MS SQL server 有没更新？	● 搜索 lucene 之类是不是不流行了？
● 与其无意义的争论，不如干点实事	● Webinar hosted by CINAOUG on September 15, 2011
● 请大牛来谈谈对Solr的看法	● Webinar hosted by CINAOUG on September 22, 2011
● 如何智能化合并数据库中属于相关objects的各种属性到一个object下？	● Re: 请教板上老司机关于组和以后的发展方向
● 请教下本地搜索	● 是否值得把业务逻辑做到Hbase coprocessor里面?
● 怎么做个文件的 index, 比如archive 这样的	● prolog, lisp, sql，这些算functional programming么？
● 想更新一下有点过时的知识体系，大家给开个单子吧	● 你们读写数据库，是直接用java hibernate,还是Spring Framework transaction management?

相关话题的讨论汇总
话题: sql话题: framework话题: 数据库话题: ms话题: 工具

进入Programming版参与讨论

1

(共1页)

p****2 发帖数: 518	1 测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软MS SQL 的de-duplication，在record数目到million级的时候，效率明显不够要求，求个好工具，或者自己做的话，可以借用什么framework？ Lucene + Mahout? R语言? 多谢啦！
p****2 发帖数: 518	2 测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软MS SQL 的de-duplication，在record数目到million级的时候，效率明显不够要求，求个好工具，或者自己做的话，可以借用什么framework？ Lucene + Mahout? R语言? 多谢啦！
z*******3 发帖数: 13709	3 看看data warehousing相关的工具
c******3 发帖数: 296	4 什么数据库呀，连million数目都处理不好？"效率明显不够"，是不是把整个record都内存了？重复是指某个key重复了？全部key应该不占多少内存吧。写几行code，计算count，再 batch SQL删。或者先用MapReduce算count，再Reducer删重复。 SQL 【在 p****2 的大作中提到】 : 测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软MS SQL : 的de-duplication，在record数目到million级的时候，效率明显不够要求， : 求个好工具，或者自己做的话，可以借用什么framework？ : Lucene + Mahout? R语言? : 多谢啦！
p****2 发帖数: 518	5 测试用的是ms SQL server 2012的DQS 这里主要是 fuzzy matching 和 fuzzy grouping, exact matching会容易很多，也不需那么多内存了譬如说，同一个人，先前在两个部门工作，现在要把这两个部门的人员数据系统合并管理，也就是说，需要建立关于这个人的record linkage 【在 c******3 的大作中提到】 : 什么数据库呀，连million数目都处理不好？"效率明显不够"，是不是把整个record都 : 内存了？ : 重复是指某个key重复了？全部key应该不占多少内存吧。写几行code，计算count，再 : batch SQL删。 : 或者先用MapReduce算count，再Reducer删重复。 : : SQL
r**u 发帖数: 42	6 在一台最牛的机子上用OpenRefine Clustering,可惜好像不是全自动。 https://github.com/OpenRefine/OpenRefine/wiki/Clustering
g*****g 发帖数: 34805	7 Elastic Search
w***g 发帖数: 5958	8 我觉着million级的MS SQL不应该搞不定啊。你内存没给够吧？ SQL 【在 p****2 的大作中提到】 : 测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软MS SQL : 的de-duplication，在record数目到million级的时候，效率明显不够要求， : 求个好工具，或者自己做的话，可以借用什么framework？ : Lucene + Mahout? R语言? : 多谢啦！

1

(共1页)

进入Programming版参与讨论

相关主题
● 你们读写数据库，是直接用java hibernate,还是Spring Framework transaction management?	● 如何智能化合并数据库中属于相关objects的各种属性到一个object下？
● 一道c++ 题, 找出duplicate numbers	● 请教下本地搜索
● Python based web frameworks	● 怎么做个文件的 index, 比如archive 这样的
● 在经历了无穷多的灾难后。。。	● 想更新一下有点过时的知识体系，大家给开个单子吧
● ZK框架用处大吗？	● StackOverflow的架构
● 三年来MS SQL server 有没更新？	● 搜索 lucene 之类是不是不流行了？
● 与其无意义的争论，不如干点实事	● Webinar hosted by CINAOUG on September 15, 2011
● 请大牛来谈谈对Solr的看法	● Webinar hosted by CINAOUG on September 22, 2011

相关话题的讨论汇总
话题: sql话题: framework话题: 数据库话题: ms话题: 工具

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)