当前位置 博文首页 > 如何使用python数据处理解决数据冲突和样本的选取
将日常工作中遇到的数数据冲突和样本源的方法进行总结,其中主要包括实际业务数据冲突、样本选取问题、数据共线性 等思路,并且长期更新。
多业务数据源冲突是指来自多个或具有相同业务逻辑但结果不同的系统,环境,平台和工具的数据。
冲突的不同特征
内部工具和第三方工具之间的数据冲突。
为什么获得的数据与代理商或广告媒体提供的广告数据之间存在差异,有时差异会特别大?
网站分析工具获得的数据与广告媒体和代理商提供的数据之间不可避免地存在差异。
指标的不同定义,不同的收集逻辑,系统过滤规则不同,不同的更新时间,不同的监控位置等等不同步的原因都会产生这些问题。
目前来说没有一个统一的标准,根据实际需要进行处理即可。
数据抽样还是全量基于已经有的数据来说,肯定是数据越全越好,但是实际情况并不是那么理想,我们只能利用统计学的方法使用抽样的方式进行取样比较理想。
抽样方法通常分为非概率抽样和概率抽样。非概率采样不是基于均等概率原理,而是基于人类的主观经验和状态。概率抽样基于数学概率论,而抽样则基于随机性原理。
注意的几个问题:
数据采样必须反映操作的背景,不存在业务随机性及业务数据可行性问题,最重要的数据采样必须满足数据分析和建模的需求
所谓共线性(也称为多重共线性)问题是指输入自变量之间的高线性相关性。共线性问题将大大降低回归模型的稳定性和准确性。例如具有明显共线性的数据:访问和页面浏览量;页面浏览量和访问时间;订单数量和销售等。
检验共线性: 共线性通常由公差,方差因子和特征值的特征数据确定,做出判断。
通过增加样本消除由于数据量不足而出现的偶然共线性现象,也可能无法解决共线性问题,原因是很可能变量间确实存在这个问题。
岭回归分析是专用于共线性问题的有偏估计回归方法,本质上是一种改进的最小二乘估计方法。
一次引入一个自变量并进行统计检验,然后逐步引入其他变量,同时测试所有变量的回归系数。
可以基于主成分进行回归分析在不丢失重要数据特征的情况下避免共线性问题。
觉得麻烦的话直接结合了手动经验删了就是了。
完全解决共线性问题是不可能的,因为所有事物之间都有一定的联系。
在解决共线性问题的相关主题中,我们仅解决严重的共线性问题,而不是所有共线性问题。
jsjbwy