admin管理员组

文章数量:1122918

【K

【K-S检验】检验两个数据集的分布是否一致

前言:在训练机器学习模型时,遇到了模型在数据集分割出来的test set上预测准确率高,但是在另一个test set数据集上预测准确率很低的情况。第一直觉是判断两个数据集的分布是否一致。

K-S检验方法

KS-test(Kolmogorov–Smirnov test)一般用来检验两个数据分布是否一致,KS检验不用假设数据的分布情况,算是一种非参数检验方法。
下图是两个数据的累积分布函数(CDF):

代码

from scipy.stats import ks_2sampdataset_a = ['123','456']
dataset_b= ['789','12321']
result = ks_2samp(dataset_a,dataset_b).pvalueprint("pvalue between 2 datasets: {}".format(result))

我们先生成两个数据集的list,使用ks_2samp检验两个list是否来自同一个样本,首先提出假设:dataset_a和dataset_b服从相同的分布。

最终返回的结果,p-value=6.060226485128174e-18,比指定的显著水平(假设为5%)小,则我们完全可以拒绝假设:dataset_a和dataset_b不服从同一分布

p_value越大,说明两者属于同一分布的可能性越大。
p_value越小(越接近0),说明两者属于同一分布的概率越小。一般来说小于5%,就能证明原假设不成立,即dataset_a和dataset_b不服从同一分布。

注:用来比较的两个数据集的长度(size)可以不相同。

参考文献

[1] 双样本KS检验与p-value推导(Kolmogorov–Smirnov test)
[2] 使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
[3] 5种数据同分布的检测方法
[4] 训练集/测试集分布一致性检查

本文标签: K