由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请教一道比较funky的join
相关主题
"R in a Nutshell"里面的问题【免费讲座】如何面试大数据开发职位(4/7 8PM CDT)
[Pig Progamming] Pig Latin join problem建了个散户自动交易俱乐部,欢迎有志之士加入 (转载)
a question about pig latin (转载)Facebook DS onsite 求建议!顺便发个phone interview question攒人品
请教一下SQL的资料求助一道sql问题,谢谢 (转载)
刚电面一个,fail了julia有前途吗? (转载)
Career talk --你问我答-Next Tuesday 8PM CDT(May 26) (转载)30+零经验大妈求转行DS建议
下周二讲座, 主数据管理, 如何撰写和管理简历 (转载)大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)
Free Session: Big Data Real User Case in Financing请问如何access SAS软件?
相关话题的讨论汇总
话题: 20005话题: 10001话题: 10003话题: 20008话题: 10002
进入DataSciences版参与讨论
1 (共1页)
s*********a
发帖数: 2623
1
我join了两个table之后大概是这样子的:
ID_1 ID_2
10001 20005
10001 20006
10001 20007
10002 20005
10002 20008
10003 20005
10003 20008
10003 20009
10004 20005
. .
. .
. .
同一个ID_1会对着很多个ID_2,当然同一个ID_2也对着很多个ID_1。 我其实只要
unique combination如下:
ID_1 ID_2
10001 20006
10002 20008
10003 20009
10004 20005
. .
. .
Kick是ID_2就像一个pool。我拿出来了就不能放进去了,同时,我要发现as many
unique combination as possible。
我是在SAS下面写的。这是不是一个harsh的问题?要怎么写呢?
万分感谢
s*********a
发帖数: 2623
2
顶一下哦
E*********g
发帖数: 185
3
我不做SAS,提个思路你看对不对:
先对ID_1做group, 得到字典1 {10001: {5,6,7}, 10002:{5,8}...}
再对ID_2做group count, 得到字典2{5:4,6:1,7:1,8:2...}
然后遍历字典1的值,以此为key,看字典2里的值是否大于1
大于1就不unique
BTW, 我写到着才发现你给的unique combination不make sense
20008对应多个ID_1值,怎么也是unique?
s*********a
发帖数: 2623
4
hey谢谢回复 。第一个table确实是一个科对应多个哦,第二个table要unique。而且要
争取所有的ID_1能找到一个对应的ID_2。我有一个思路是sort ID2 by decending of
the # of appearances. 当ID_2 appearance=1的时候,它直接接到ID_1上。然后把这一
行的两个ID 分别从ID_1和ID_2中delete掉。但是后面问题是,当appearance>=2的时候
,我怎么选一个出来?rand吗?然后难道我来个'bootstrap'个1000次,找出一组所有/
最多的ID_1能找到一个对应的ID_2。。。
。。我programming功底不是很好。
谢谢建议哦!!

【在 E*********g 的大作中提到】
: 我不做SAS,提个思路你看对不对:
: 先对ID_1做group, 得到字典1 {10001: {5,6,7}, 10002:{5,8}...}
: 再对ID_2做group count, 得到字典2{5:4,6:1,7:1,8:2...}
: 然后遍历字典1的值,以此为key,看字典2里的值是否大于1
: 大于1就不unique
: BTW, 我写到着才发现你给的unique combination不make sense
: 20008对应多个ID_1值,怎么也是unique?

E*********g
发帖数: 185
5
大致明白你的意思了
一时还真的想不出合适的算法,估计这个没有唯一解

有/

【在 s*********a 的大作中提到】
: hey谢谢回复 。第一个table确实是一个科对应多个哦,第二个table要unique。而且要
: 争取所有的ID_1能找到一个对应的ID_2。我有一个思路是sort ID2 by decending of
: the # of appearances. 当ID_2 appearance=1的时候,它直接接到ID_1上。然后把这一
: 行的两个ID 分别从ID_1和ID_2中delete掉。但是后面问题是,当appearance>=2的时候
: ,我怎么选一个出来?rand吗?然后难道我来个'bootstrap'个1000次,找出一组所有/
: 最多的ID_1能找到一个对应的ID_2。。。
: 。。我programming功底不是很好。
: 谢谢建议哦!!

s*********a
发帖数: 2623
6
还是谢谢你哦!卡在Marco上了。。sigh...

【在 E*********g 的大作中提到】
: 大致明白你的意思了
: 一时还真的想不出合适的算法,估计这个没有唯一解
:
: 有/

c***z
发帖数: 6348
7
没看懂题目

【在 s*********a 的大作中提到】
: 我join了两个table之后大概是这样子的:
: ID_1 ID_2
: 10001 20005
: 10001 20006
: 10001 20007
: 10002 20005
: 10002 20008
: 10003 20005
: 10003 20008
: 10003 20009

1 (共1页)
进入DataSciences版参与讨论
相关主题
请问如何access SAS软件?刚电面一个,fail了
有人参加过SIAM的会议吗 (转载)Career talk --你问我答-Next Tuesday 8PM CDT(May 26) (转载)
问个问题。下周二讲座, 主数据管理, 如何撰写和管理简历 (转载)
quant openings (contract position)Free Session: Big Data Real User Case in Financing
"R in a Nutshell"里面的问题【免费讲座】如何面试大数据开发职位(4/7 8PM CDT)
[Pig Progamming] Pig Latin join problem建了个散户自动交易俱乐部,欢迎有志之士加入 (转载)
a question about pig latin (转载)Facebook DS onsite 求建议!顺便发个phone interview question攒人品
请教一下SQL的资料求助一道sql问题,谢谢 (转载)
相关话题的讨论汇总
话题: 20005话题: 10001话题: 10003话题: 20008话题: 10002