机器学习数据不满足同分布，怎么整？-全球快播

来源：2022-12-27 14:31:33

机器学习作为一门科学，不可避免的是，科学本身是基于归纳得到经验总结，必然存在历史经验不适用未来的情况（科学必可证伪）。这里很应景地讲一个小故事--By 哲学家罗素：

农场有一群火鸡，农夫每天来给它们喂食。经过长期观察后，一只火鸡（火鸡中的科学鸡）得出结论，“每天早上农夫来到鸡舍，我就有吃的”，之后每天的经历都在证实它的这个结论。但是有一天，农夫来到鸡舍，没有带来食物而是把它烤了，因为这天是圣诞节，做成了圣诞节火鸡。

通过有限的观察，得出自以为正确的规律性结论的，结局如是此。以这角度，我们去看AI/机器学习的应用，也能看到很多类似的例子。

【资料图】

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学，是基于一系列假设（基本的如，独立同分布假设）归纳得到经验，进行预测的过程。

也不可避免的，机器学习中也可能出现预测的数据与训练数据不满足同分布，历史数据经验不那么适用了！导致预测效果变差或失效的情况。这就类似我们考试的时候，发现这类型的题目我没有见过，歇菜了...

一、什么是数据不满足同分布

实际预测与训练数据不满足同分布的问题，也就是数据集偏移(Dataset shift)，是机器学习一个很重要的问题。

从贝叶斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y)，当输入空间的边缘概率分布P(x) , 输出空间的标签分布P(y) 以及表示该机器学习任务的条件概率分布 P(y|x) 之中，有任一项因素发生偏移导致训练数据与预测数据 P(y,x)造成差异，即为数据集偏移现象。

不同因素对应着如下三种情况得数据偏移：

Covariate shift：协变量偏移（统计学中的协变量即机器学习中的特征的概念），指的是输入空间的边缘概率分布P(x)，也就输入特征x分布变化导致的偏移。这个应该是最为常见的，比如图像识别任务中，训练时输入的人脸图像数据没戴口罩，而预测的时候出现了很多戴口罩人脸的图像。再如反欺诈识别中，实际预测欺诈用户的欺诈行为发生升级改变，与训练数据的行为特征有差异的情况。

Prior probability shift：先验偏移，指的是标签分布P(Y) 差异导致的。比如反欺诈识别中，线上某段时间欺诈用户的比例对比训练数据突然变得很大的情况。

Concept shift：映射关系偏移，指P(y|x) 分布变化，也就是x-> y的映射关系发生变化。比如农场的火鸡，本来x是【早上/农夫/来到/鸡舍】对应着 y是【火鸡被喂食】，但是圣诞节那天这层关系突然变了，x还是【早上/农夫/来到/鸡舍】但对应着 y是【火鸡被烤了】..hah，留下心疼的口水..

二、为什么数据不满足同分布

可能导致数据不满足同分布的两个常见的原因是：

（1）样本选择偏差(Sample Selection Bias) ：分布上的差异是由于训练数据是通过有偏见的方法获得的。

比如金融领域的信贷客群是通过某种渠道/规则获得的，后面我们新增加营销渠道获客或者放宽了客户准入规则。这样就会直接导致实际客群样本比历史训练时点的客群样本更加多样了（分布差异）。

（2）不平稳环境(Non-stationary Environments)：由于时间上的或空间上的变化导致训练与测试环境不同。

比如金融领域，预测用户是否会偿还贷款的任务。有一小类用户在经济环境好的时候有能力偿还债务，但是由于疫情或其他的影响，宏观经济环境不太景气，如今就无法偿还了。

三、如何检测数据满足同分布

可能我们模型在训练、验证及测试集表现都不错，但一到OOT（时间外样本）或者线上预测的时候，效果就掉下来了。这时我们就不能简单说是模型复杂导致过拟合了，也有可能是预测数据的分布变化导致的效果变差。我们可以通过如下常用方式检测数据分布有没有变化：

3.1 统计指标的方法

通过统计指标去检测分布差异是很直接的，我们通常用群体稳定性指标（Population Stability Index，PSI），衡量未来的样本（如测试集）及训练样本评分的分布比例是否保持一致，以评估数据/模型的稳定性（按照经验值，PSI<0.1分布差异是比较小的。）。同理，PSI也可以细化衡量特征值的分布差异，评估数据特征层面的稳定性。PSI指标计算公式为 SUM(各分数段的 (实际占比 - 预期占比）* ln(实际占比 / 预期占比) )，介绍可见：指标。其他的方法如 KS检验，KDE （核密度估计）分布图等方法可见参考链接[2]

3.2 异常（新颖）点检测的方法

可以通过训练数据集训练一个模型（如 oneclass-SVM），利用模型判定哪些数据样本的不同于训练集分布（异常概率）。异常检测方法可见：异常检测算法速览

3.3 分类的方法

混合训练数据与测试数据（测试数据可得情况），将训练数据与测试数据分别标注为’1‘和’0‘标签，进行分类，若一个模型，可以以一个较好的精度将训练实例与测试实例区分开，说明训练数据与测试数据的特征值分布有较大差异，存在协变量偏移。

相应的对这个分类模型贡献度比较高的特征，也就是分布偏差比较大的特征。分类较准确的样本（简单样本）也就是分布偏差比较大的样本。

四、如何解决数据不满足同分布4.1 增加数据

增加数据是王道，训练数据只要足够大，什么场面没见过，测试数据的效果自然也可以保证。

如上面的例子，作为一只农场中的科学鸡，如果观察到完整周期、全场景的数据，或者被灌输一些先验知识，就能更为准确预测火鸡的命运。

但是现实情况可能多少比较无奈，可能业务场景的原因限制，并不一定可以搞得到更多数据，诸如联邦学习、数据增强等方法也是同样的思路。

4.2 数据增强

在现实情况没法新增数据的时候，数据增强(Data Augmentation)是一个备选方案，在不实质性的增加数据的情况下，从原始数据加工出更多的表示，提高原数据的数量及质量，以接近于更多数据量产生的价值。

其原理是通过对原始数据融入先验知识，加工出更多数据的表示，有助于模型判别数据中统计噪声，加强本体特征的学习，减少模型过拟合，提升泛化能力。具体可见：数据增强方法

4.3 选择数据

我们可以选择和待预测样本分布比较一致的数据做模型训练，使得在待预测样本的效果变得更好。

这个方法看起来有点投机，这在一些数据波动大的数据竞赛中很经常出现，直接用全量训练样本的结果不一定会好，而我们更改下数据集划分split的随机种子（如暴力for循环遍历一遍各个随机种子的效果），或者人工选择与线上待预测样本业务类型、时间相近的样本集用于训练模型（或者提高这部分样本的学习权重），线上数据的预测效果就提升了。

4.4 半监督学习

半监督学习是介于传统监督学习和无监督学习之间，其思想是通过在模型训练中直接引入无标记样本，以充分捕捉数据整体潜在分布，以改善如传统无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。

通过半监督学习，训练时候可以充分捕捉数据整体潜在分布，同理也可以缓解预测数据分布有差异的问题。半监督分类常用的做法是，通过业务含义或者模型选择出一些虽然无标签的样本，并打上大概率的某个标签（伪标签）加入到训练数据中，验证待预测样本的效果有没有变好。

经典的如金融信贷领域的拒绝推断方法（参考链接[6]），我们可以从贷款被拒绝的用户中（这部分用户是贷款的时候直接被拒绝了，没有"是否违约"的标签），通过现有信贷违约模型（申请评分卡）预测这部分拒绝用户的违约概率，并把模型认为大概率违约的用户作为坏样本加入到训练样本中，以提升模型的泛化效果。

4.5 特征选择

对于常见的协变量偏移，用特征选择是一个不错的方法。我们可以分析各个特征在分布稳定性（如PSI值）的情况，筛选掉分布差异比较大的特征。需要注意的是，这里适用的是筛掉特征重要性一般且稳定性差的特征。如果重要特征的分布差距也很大，这就难搞了，还是回头搞搞数据或者整整其他的强特征。特征选择方法可见：python特征选择

4.6 均衡学习

均衡学习适用与标签分布差异（先验偏移）导致的数据集偏移。均衡学习的方法可以归结为：通过某种方法，使得不同类别的样本对于模型学习中的Loss（或梯度）贡献是比较均衡的，以消除模型对不同类别的偏向性，学习到更为本质的决策。

比如原反欺诈训练样本中，好坏样本的比例是1000：1，但到了预测，有时实际的好坏样本的比例是10：1。这时如果没有通过均衡学习，直接从训练样本学习到模型，会先天认为欺诈坏样本的概率就是很低的，导致很多欺诈坏样本的漏判。

不均衡的任务中，一方面可以通过代价敏感、采样等方法做均衡学习；另一方面也可以通过合适指标（如AUC），减少非均衡样本的影响去判定模型的效果。具体可见：一文解决样本不均衡（全）

最后，机器学习是一门注重实践的科学，在实践中验证效果，不断探索原理。

仅以此文致敬我们的数据科学鸡啊。

参考链接：
1、理解数据集偏移 https://zhuanlan.zhihu.com/p/449101154
2、训练/测试集分布不一致解法总结
3、训练集和测试集的分布差距太大有好的处理方法吗 https://www.zhihu.com/question/265829982/answer/1770310534
4、训练集与测试集之间的数据偏移（dataset shift or drifting） https://zhuanlan.zhihu.com/p/304018288
5、数据集偏移&领域偏移 Dataset Shift&Domain Shift https://zhuanlan.zhihu.com/p/195704051
6、如何量化样本偏差对信贷风控模型的影响？https://zhuanlan.zhihu.com/p/350616539

-推荐阅读-

深度学习系列

1、一文概览神经网络模型2、一文搞定深度学习建模预测全流程(Python)3、一文弄懂CNN及图像识别(Python)机器学习系列1、一文解决样本不均衡（全）2、一文全览机器学习建模流程（Python代码）3、一文速览机器学习的类别（Python代码）...更多原创文章，请关注个人博客：https://github.com/aialgorithm/Blog关注【算法进阶】领福利回复【课程】：即可免费领取Python、机器学习、AI 等精品课程资料大全回复【加群】：可提问咨询、共享资源...与群内伙伴一起交流，共同进步或扫码，备注“加群”

标签：

机器学习数据不满足同分布，怎么整？-全球快播

机器学习作为一门科学，不可避免的是，科学本身是基于归纳得到经验总结，必然存在历史经验不适用未来的情况（科学必可证伪）。这里很应景地讲

2022-12-27

天天速读：官宣了！利物浦5000万截胡荷兰锋霸！曼联猎物加盟死敌

官宣了！利物浦5000万截胡荷兰锋霸！曼联猎物加盟死敌

2022-12-27

知网发布15项整改措施包括解除独家合作协议、大幅降低数据库服务价格-天天快播报

12月26日，“CNKI知网”微信公众号发布整改公告，回应《国家市场监督管理总局行政处罚决定书》，知网称：自5月13日国家市场监督管理总局对...

2022-12-26

【报资讯】丰光精密（430510）12月26日游资资金净卖出7554.00元

截至2022年12月26日收盘，丰光精密(430510)报收于9 04元，上涨0 78%，换手率0 04%，成交量227 82手，成交额20 39万元。12月2

2022-12-26

视点！老板让我写个营销方案，对标疯狂星期四

周四，朋友跟我发了个段子，第一遍我没看懂其中奥妙，直到朋友提醒我，看每段第一个字，原来连起来是:“今天疯狂星期javascript四，谁请我...

2022-12-26

没房产证的话怎么贷款|热文

贷款是银行或其他金融机构按一定利率和必须归还等条件出借货币资金的一种信用活动形式。按照担保方式不同，贷款分为信用贷款和担保贷款。信用

2022-12-25

陆金贷（大额普惠）借款逾期3天拖欠多久上征信世界报道

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构，而有些借贷机构则是会在几天后上报给征信机构，因为有些借贷机构可

2022-12-25

香港设网上专属平台，全球年抢3.5万人才|全球百事通

今届香港政府首份《施政报告》提出多项“抢人才”、“抢企业”措施，政府昨日阐述相关细节，宣布下星期三起推出“人才服务窗口”线上平台，...

2022-12-24

阳了？没阳？

随着疫情政策的放开，公司的同事、身边的朋友陆续中招，公司里上班戴口罩的越来越多，上班的人却每天都在减少。我一直的心态都是，反正迟早都

2022-12-23

全球最大地下变电站扩建工程正式投产送电当前独家

近日，上海静安500千伏变电站扩建工程正式投产送电。　　据了解，上海静安500千伏地下变电站于2010年建成投运，是目前世界上建设规模最大、设

2022-12-23

【机构调研记录】上银基金调研迪瑞医疗-播资讯

个股亮点：公司在国家生育二胎、三胎政策上积极响应和布局，产前筛查项目如性激素、AMH（评价卵巢储备功能）、妇科白带常规检查等产品已经上市

2022-12-23

怀化粮油产品国际班列发运米粉直达东盟市场

中新网怀化12月22日电(杨磊雷明雄)12月22日下午3时许，“怀化—万象、怀化—曼谷”怀化粮油产品国际班列在湖南怀化国际陆港鸣笛启程，此次...

2022-12-22

Alameda前CEO和FTX联合创始人承认欺诈指控，将分别面临最高110年和50年监禁-天天速看

综合ABC等多家美媒报道，当地时间21日，美国联邦检察官表示，加密货币对冲基金AlamedaResearch的前首席执行官卡罗琳·埃里森（CarolynEl

2022-12-22

AVR® DB单片机系列-今日精选

varplayer=polyvPlayer({ wrap : plv_608c319f9fdd212fca97d86c591a2936_6 , width : 680 , height : 381 , vid : 608c319f9fdd212fca97d86c59 AVR®DB单片机系列

2022-12-22

12-21 复盘 —— 冰点数据频现，冬至日将迎来变盘？

20221221复盘盘面综述指数小幅调整，延续阴跌。个股约3500只绿盘，呈普跌状态，消费、医药活跃，赛道、科技调整。两市合计成交仅5750亿，年内

2022-12-21

当前看点!安奈儿再度强势涨停近一个月已累计大涨超2倍

安奈儿(002875)21日盘中强势拉升，截至发稿，该股涨停报25 38元，涨停板上封单超4万手。该股近日持续走高，自11月18日启动以来，近一个月已大

2022-12-21

每日热闻!这个波卡钱包可以让你玩转 NFT、XCM、Staking 和 Crowdloan｜SubWallet 钱包体验报告

加入PolkaWorld社区，共建Web3 0！钱包是区块链生态的入口，一个好用的钱包可以让人你轻松地管理自己的资产，并与生态中的项目交互。在“波卡生

2022-12-21

“基本款+棉鞋”才是30+岁女人该有的冬日穿搭，不露脚踝不张扬，时髦感UP！_速看料

三十岁，真得是一个很神奇的年龄分界点。在此之前，不管熬夜到几点，第二天依旧神采奕奕。一旦跨过了三十岁的门槛，当我们再次熬夜之后，就能

2022-12-20

雅居乐集团：拟以先旧后新方式配售股份，净筹6.172亿港元

12月20日，雅居乐集团发布公告表示，今日交易时段前，公司、卖方及配售代理订立协议，拟以先旧后新方式配售股份，按配售价每股2 32港元配售2 6

2022-12-20

孕产妇“阳了”怎么办？产科专家做客极目新闻直播间在线支招

孕产妇“阳了”怎么办？产科专家做客极目新闻直播间在线支招---孕产妇如何做好防护避免感染。所以，孕妈妈和新妈妈们并不需要特别担心。目...

2022-12-19

双星新材：公司目前整体产能为106万吨，后续将根据市场情况进行

双星新材(002585)12月15日在投资者关系平台上答复了投资者关心的问题。投资者：尊敬的董秘！公司目前项目建设多，更应该缩减库存。高额库存，

2022-12-19

安彩高科：查阅股东户数请致电投资者电话0372-3732533沟通天天快消息

安彩高科(600207)12月16日在投资者关系平台上答复了投资者关心的问题。

2022-12-19

观焦点：许昌东城区推出“智慧办税”新模式

为持续优化税收营商环境，全面提升纳税人满意度和获得感，许昌东城区税务局创新税费服务方式，推出“智慧办税”新模式，多措并举优化税收营...

2022-12-19

鹈鹕3人20+送勇士5连败英格拉姆复出砍26+5+5|环球信息

鹈鹕3人20+送勇士5连败英格拉姆复出砍26+5+5,英格拉姆,勇士,新奥尔良鹈鹕,nba常规赛

2022-12-18

华北通信开拓植保无人机新领域

中国石油网消息(通讯员阳艳李越岐)8月13日，华北石油通信有限公司无人机团队在沧州市青县大司马现代农业培训中心参加了沧州市重大病虫检测防控

2022-12-17

针对Vivado设计套件的高效设计方法——UltraFast

varplayer=polyvObject( & 039; plv_608c319f9f0e7bd4998273c758a16822_6 & 039;) videoPlayer({ & 039;width & 039;: & 039;680 & 039;, & 039;height & 039;: & 039;383 & 039;, & 039;vid & 039;: & 039;608c31

2022-12-16