由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教关于SAS fuzzy match merge的问题
相关主题
[SAS] row merging[Data Science Project Case] Fuzzy matching on names (转载)
how to fuzzy match in SAS?SAS: fuzzy match
有没有办法取代SAS。how to use Scan in SAS (so it works like parse in excel)
比较两个地址如何用SAS找到exact match?
recommendation for a smartphone (转载)[合集] [求助]一个生物统计工作的电话面试
SAS date-time parsing讲讲最近来我们公司面试的一个小姑娘吧
关于MATCH HOSPITAL NAME[合集] 讲讲最近来我们公司面试的一个小姑娘吧
用SAS从网页上抓数据[合集] 问个SAS和R的问题
相关话题的讨论汇总
话题: match话题: fuzzy话题: merge话题: sas话题: 地址
进入Statistics版参与讨论
1 (共1页)
w**2
发帖数: 147
1
最近在做一个project,需要match merge大量的address。地址的方式写得千奇百怪的
,所以想请教一下大家,有啥比较好的fuzzy match的方法。我试了phonetic match,
但是不能做到完全找出match,而且还找到了一些根本就不match的。多谢。
P****D
发帖数: 11146
2
如果千奇百怪的话,你先把地址本身整理整理再merge吧。
w**2
发帖数: 147
3
好滴,谢谢。我只是想能够尽可能的catch所有的records。
我还看到有种方法叫“parsing”,但是感觉比较难了。
P****D
发帖数: 11146
4
地址要整理应该不难吧。经常在网上填写地址的时候,填完了被问“你的地址不符合
USPS的标准格式,我们给你标准化了一下,你确认下是不是这个?”应该有一个实现这
个标准化的现成方法。
D******n
发帖数: 2836
5
这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。

【在 P****D 的大作中提到】
: 地址要整理应该不难吧。经常在网上填写地址的时候,填完了被问“你的地址不符合
: USPS的标准格式,我们给你标准化了一下,你确认下是不是这个?”应该有一个实现这
: 个标准化的现成方法。

A*******s
发帖数: 3942
6
能不能说说这个keying solution的技术关键点在哪?
pricing怎么样?
我们组倒是想买

【在 D******n 的大作中提到】
: 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
P******X
发帖数: 482
7
也不过就是regex吧
P****D
发帖数: 11146
8
太经常看到了,我以为很简单……

【在 D******n 的大作中提到】
: 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
w**2
发帖数: 147
9
我也不太了解这个key solution。能简单介绍一下吗?
而且我们组今年的budget很少,估计买新的软件不是特别可能了。

【在 D******n 的大作中提到】
: 这个现行方法可不简单喔。 可以向credit bureau买一个keying solution。
d********i
发帖数: 193
10
好像有个免费的叫做Link Plus的软件,楼主可以去看看~
http://www.cdc.gov/cancer/npcr/tools/registryplus/lp.htm
D******n
发帖数: 2836
11
我说的keying solution是假设你这些地址是home address。Bureau有一套regularize
地址的办法。而且会纪录每个人以往的地址。所以这个keying solution可以提供超出
模糊识别的范畴。假设有两个data sets,各有各的地址和姓名等信息,分别做key,
然后就可以用这个key match上了。

【在 A*******s 的大作中提到】
: 能不能说说这个keying solution的技术关键点在哪?
: pricing怎么样?
: 我们组倒是想买

k*z
发帖数: 4704
12
一般从credit bureau买资料要多少钱?
k*z
发帖数: 4704
13
一般从credit bureau买资料要多少钱?
w**2
发帖数: 147
14
多谢了。

regularize

【在 D******n 的大作中提到】
: 我说的keying solution是假设你这些地址是home address。Bureau有一套regularize
: 地址的办法。而且会纪录每个人以往的地址。所以这个keying solution可以提供超出
: 模糊识别的范畴。假设有两个data sets,各有各的地址和姓名等信息,分别做key,
: 然后就可以用这个key match上了。

1 (共1页)
进入Statistics版参与讨论
相关主题
[合集] 问个SAS和R的问题recommendation for a smartphone (转载)
请问R Code和 Matlab Code 思路是否近似?SAS date-time parsing
SAS Question关于MATCH HOSPITAL NAME
问一下SQL in Python。用SAS从网页上抓数据
[SAS] row merging[Data Science Project Case] Fuzzy matching on names (转载)
how to fuzzy match in SAS?SAS: fuzzy match
有没有办法取代SAS。how to use Scan in SAS (so it works like parse in excel)
比较两个地址如何用SAS找到exact match?
相关话题的讨论汇总
话题: match话题: fuzzy话题: merge话题: sas话题: 地址