l*******s 发帖数: 437 | 1 一个variable,是email 的subject,里面可能会出现人名,住址,电话号码等等私人
信息,现在被要求将这些敏感信息全部用abc代替,其他还是正常显示。请问应该如何
做?
非常感谢! |
l*********s 发帖数: 5409 | 2 SAS has regular expression too. |
l*******s 发帖数: 437 | 3 Thanks for your input!
Could you say more details? |
w*****9 发帖数: 122 | 4 if variable1='subject' then variable2='abc'? |
g****8 发帖数: 2828 | 5 You may write a macro to do so. Try google it, I think there are some
existing macros there.
But more efficient, you can use a cross reference table to store the real
subjects with random numbers as identifier variable, and use the identifier
in your original table. |
d******9 发帖数: 404 | 6 You have to create a new dataset for use , and keep the original one for
future lookup.
The problem is:
How to tell 人名,住址,电话号码 from other ???????
This is a big challenge.
Say, Red Rose, it could be sb's name, and could be not too. |
o****o 发帖数: 8077 | 7 hash those variables and drop the original ones? |
D******n 发帖数: 2836 | 8 you guys are all wrong. it should be
subject="abc";
lol
【在 l*******s 的大作中提到】 : 一个variable,是email 的subject,里面可能会出现人名,住址,电话号码等等私人 : 信息,现在被要求将这些敏感信息全部用abc代替,其他还是正常显示。请问应该如何 : 做? : 非常感谢!
|
l*******s 发帖数: 437 | 9 汗,可能没说清楚,举几个例子吧。
subject new subject
Tom is having a cold [abc] is having a cold
Urgent, plz call me at 123456789 Urgent, plz call me at [abc]
my id#123456789 my id#[abc]
my son has 103 fever my son has 103 fever
主要出现的私人信息是人名,如果出现Rose 啥的可为人名可为花名的,屏蔽掉了也无
所谓,关键是是否有直接把人名都提取出来的sas function 或者macro. |
l*******s 发帖数: 437 | 10 的确搜了些macro,但都是scramble或者encode的,搜到的前者的那个macro是将数字改
为乱码的,后者是给整个variable加密的,我只是要replace敏感词,其他信息还是会
保留。
不太懂你说的random numbers as identifier variable 的意思,要是把全部人名一个
一个列出来得累死掉,因为一共至少有2万多rows,我没仔细瞅,一眼飘过去出现的不
少人名。
谢谢了!
identifier
【在 g****8 的大作中提到】 : You may write a macro to do so. Try google it, I think there are some : existing macros there. : But more efficient, you can use a cross reference table to store the real : subjects with random numbers as identifier variable, and use the identifier : in your original table.
|
|
|
g****8 发帖数: 2828 | 11 好像是看错了你的问题了。
你这个问题,确实要 regular expression 来解决。不过,具体的,我也不会了。
最后好是你那些敏感信息,还有其他的单独variable。要不然,还要自动detect 这些
敏感信息?
【在 l*******s 的大作中提到】 : 的确搜了些macro,但都是scramble或者encode的,搜到的前者的那个macro是将数字改 : 为乱码的,后者是给整个variable加密的,我只是要replace敏感词,其他信息还是会 : 保留。 : 不太懂你说的random numbers as identifier variable 的意思,要是把全部人名一个 : 一个列出来得累死掉,因为一共至少有2万多rows,我没仔细瞅,一眼飘过去出现的不 : 少人名。 : 谢谢了! : : identifier
|
D******n 发帖数: 2836 | 12 Your task can be very hard if you want 0% miss rate.
it is more like a AI problem, because you need the machine to know/learn
what is "sensitive" in a human world.
unless u can enumerate the situations you list and also have a "human name"
table.
【在 l*******s 的大作中提到】 : 汗,可能没说清楚,举几个例子吧。 : subject new subject : Tom is having a cold [abc] is having a cold : Urgent, plz call me at 123456789 Urgent, plz call me at [abc] : my id#123456789 my id#[abc] : my son has 103 fever my son has 103 fever : 主要出现的私人信息是人名,如果出现Rose 啥的可为人名可为花名的,屏蔽掉了也无 : 所谓,关键是是否有直接把人名都提取出来的sas function 或者macro.
|
l*******s 发帖数: 437 | 13 Yes, I need to detect those sensitive info.
【在 g****8 的大作中提到】 : 好像是看错了你的问题了。 : 你这个问题,确实要 regular expression 来解决。不过,具体的,我也不会了。 : 最后好是你那些敏感信息,还有其他的单独variable。要不然,还要自动detect 这些 : 敏感信息?
|
l*******s 发帖数: 437 | 14 As long as we replace all private info, we do not need 0% miss rate.
Yes, all I want to know is if we have a sas function which can extract name
automatically .
"
【在 D******n 的大作中提到】 : Your task can be very hard if you want 0% miss rate. : it is more like a AI problem, because you need the machine to know/learn : what is "sensitive" in a human world. : unless u can enumerate the situations you list and also have a "human name" : table.
|
a*****3 发帖数: 601 | 15 据我所知, 没这功能.
要不干脆把凡事有大写字母出现的单词, 凡事有连续数字在3位以上的, 凡是有@出现
的, ...凡是有敏感词的...统统和谐了!!
比较暴力 不好意思啊.
name
【在 l*******s 的大作中提到】 : As long as we replace all private info, we do not need 0% miss rate. : Yes, all I want to know is if we have a sas function which can extract name : automatically . : : "
|
l*********s 发帖数: 5409 | 16 That is actually a good plan.
【在 a*****3 的大作中提到】 : 据我所知, 没这功能. : 要不干脆把凡事有大写字母出现的单词, 凡事有连续数字在3位以上的, 凡是有@出现 : 的, ...凡是有敏感词的...统统和谐了!! : 比较暴力 不好意思啊. : : name
|
l*******s 发帖数: 437 | 17 这这这,太暴力了吧。
得了,既然大牛都说没这个function,俺就一一列举出来屏蔽掉吧。
【在 a*****3 的大作中提到】 : 据我所知, 没这功能. : 要不干脆把凡事有大写字母出现的单词, 凡事有连续数字在3位以上的, 凡是有@出现 : 的, ...凡是有敏感词的...统统和谐了!! : 比较暴力 不好意思啊. : : name
|