h*****y 发帖数: 218 | 1 假设一个数据源S,分别存到数据集A和B去,理论上A和B的数据是完全一致的,假设key
是event ID,1到10。
但是呢因为各种原因,存的过程中总有loss,实际上A和B只是1到10的一个某个子集,
于是总是有discrepancy,A和B可能大小一样,可能不一样,可能有overlap也可能没有。
我的问题是,怎么用机器学习的方法来找到最能区分A和B的field或者field的组合呢?
也就是什么导致了这个discrepancy。
这不是直接的feature selection,因为A和B可能有overlap。 | Z****1 发帖数: 64 | 2 请先解释下什么是"A和B的field或者field的组合", 是A,B的列? 照之前的说法A,B因为
loss只是行不一样,难道列也丢了? |
|