elo merchant category recommendation后处理新思路

作者 NeuronBlack 日期 2019-03-04
elo merchant category recommendation后处理新思路

kaggle上面的elo比赛私榜放出后,使用了后处理的队伍基本全部翻车,我们团队为了稳健,在选择最终文件时选择了一份未经后处理的和一份经过后处理的结果,最终未经后处理的文件拿下了27/4128的成绩,成功获得一枚银牌,虽然未用二分类进行改值,但是实际上我们的成绩融入了二分类的结果,具体使用方式可以参考我队友的知乎。虽然这次比赛中后处理不是很好的操作方式,但是不能否认后处理是个很好的方法,在联通的比赛中我们团队使用了后处理方案,在特征工程做的不足的情况下,依旧取得了第三名的成绩。

elo比赛时候我使用Siamese lightgbm进行了改值,在公榜上面取得大幅度的提升,Siamese lightgbm是我自己取的名字,他的思路源自于Siamese network,这个网络同时接收两个样本输入,输出为两个样本的相似度,示意图如下:

这个网络两个输入的样本共享了权重,还有一种思路就是两个样本不共享权重进行计算,这种网络被称为伪孪生网络。由于在这种题目上面神经网络无法达到lgb等树型模型的准确度,所以用同样的思路,拼接两个样本作为新的输入样本,若两个样本都大于或者小于-33标签至为1,反之则为0。样本之间如何组合属于指派问题的范畴,所以可以使用经典的匈牙利算法进行组合。对于这种数据我们可以计算下两个样本之间的距离作为新的特征进行拼接,五折交叉验证时候,每次测试集都会和训练集的数据进行相似度计算,五次预测分别使用五批不同的异常样本进行比对,绘制PR曲线图,选择合适的概率阈值,将高于阈值的样本判定为异常样本,对原始回归模型输出的结果进行直接的改值。