w**2 发帖数: 147 | 1 最近在做一个project,需要match merge大量的address。地址的方式写得千奇百怪的
,所以想请教一下大家,有啥比较好的fuzzy match的方法。我试了phonetic match,
但是不能做到完全找出match,而且还找到了一些根本就不match的。多谢。 |
P****D 发帖数: 11146 | 2 如果千奇百怪的话,你先把地址本身整理整理再merge吧。 |
w**2 发帖数: 147 | 3 好滴,谢谢。我只是想能够尽可能的catch所有的records。
我还看到有种方法叫“parsing”,但是感觉比较难了。 |
P****D 发帖数: 11146 | 4 地址要整理应该不难吧。经常在网上填写地址的时候,填完了被问“你的地址不符合
USPS的标准格式,我们给你标准化了一下,你确认下是不是这个?”应该有一个实现这
个标准化的现成方法。 |
D******n 发帖数: 2836 | 5 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
【在 P****D 的大作中提到】 : 地址要整理应该不难吧。经常在网上填写地址的时候,填完了被问“你的地址不符合 : USPS的标准格式,我们给你标准化了一下,你确认下是不是这个?”应该有一个实现这 : 个标准化的现成方法。
|
A*******s 发帖数: 3942 | 6 能不能说说这个keying solution的技术关键点在哪?
pricing怎么样?
我们组倒是想买
【在 D******n 的大作中提到】 : 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
|
P******X 发帖数: 482 | |
P****D 发帖数: 11146 | 8 太经常看到了,我以为很简单……
【在 D******n 的大作中提到】 : 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
|
w**2 发帖数: 147 | 9 我也不太了解这个key solution。能简单介绍一下吗?
而且我们组今年的budget很少,估计买新的软件不是特别可能了。
【在 D******n 的大作中提到】 : 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
|
d********i 发帖数: 193 | |
D******n 发帖数: 2836 | 11 我说的keying solution是假设你这些地址是home address。Bureau有一套regularize
地址的办法。而且会纪录每个人以往的地址。所以这个keying solution可以提供超出
模糊识别的范畴。假设有两个data sets,各有各的地址和姓名等信息,分别做key,
然后就可以用这个key match上了。
【在 A*******s 的大作中提到】 : 能不能说说这个keying solution的技术关键点在哪? : pricing怎么样? : 我们组倒是想买
|
k*z 发帖数: 4704 | 12 一般从credit bureau买资料要多少钱? |
k*z 发帖数: 4704 | 13 一般从credit bureau买资料要多少钱? |
w**2 发帖数: 147 | 14 多谢了。
regularize
【在 D******n 的大作中提到】 : 我说的keying solution是假设你这些地址是home address。Bureau有一套regularize : 地址的办法。而且会纪录每个人以往的地址。所以这个keying solution可以提供超出 : 模糊识别的范畴。假设有两个data sets,各有各的地址和姓名等信息,分别做key, : 然后就可以用这个key match上了。
|