如何处理调查中的缺失值

份调查的缺失值你知道多少？在使用调查技术收集数据的过程中，很常见的是，我们针对研究目的或目标发出的部分问卷未部分或全部完成，这可能会阻碍最终分析并使结果产生偏差。我们的结果调查。在导致此事件的最常见原因中，我们可以找到：

– 问卷中模棱两可的问题

– 对回答调查缺乏兴趣

– 妥协的问题

虽然这些原因主要影响最终结果和所选样本的代表性，但有许多过滤和插补策略可以减少偏差并优化我们市场研究的最终结果。

处理缺失值的技巧

数据清理过程包括评估所收集信息的质量，提高其质量，以避免不够严格的分析。最常用的调试策略是：

–值列表：它是关于在数据矩阵中搜索响应范围之外的值。这些值可以被认为是缺失的，或者可以从其他变量中估计出正确的值（Imputation）。

例子：在变量Sex中，其值为1=Man和2=Woman，我们在数据矩阵中找到一个3。

–过滤问题：这是关于比较来自过滤类别和另一个过滤类别的响应数量。如果观察到任何无法解决的异常，则将其视为缺失值。

示例：过滤问题 A 有 11 个答案导致过滤问题 B，而过滤问题 C 导致 9 个答案。然而，我们观察到在问题 B 中给出了 14 个答案（比预期多了 2 个），因此，过滤类别与过滤类别之间不存在重合。

–逻辑一致性：检查可以认为相互矛盾的答案。

示例：回答“单身”婚姻状况的受巴拿马手机号码列表访者不应该回答“配偶的活动”问题。

–代表性水平：对每个变量中获得的响应数量进行计数。如果未回答问题的数量非常多，则可以假设回答和未回答的问题相等，或者可以对未回答的问题进行估算。

我邀请您阅读：优化在线调查中信息质量的关键。

应替换缺失值，方法是估计它们。插补分为三种类型：

–随机插补：这种类型的插补假设由于样本的随机性而缺乏信息。为了进行插补，分析变量（有效和缺失）中出现的每个值的概率，将那些概率等于或小于该概率的值分配给每个缺失值。

示例：值 A 出现的概率为 0.012 (1.2%)，而值 B 出现的概率为 0.357 (35.7%)。因此，概率等于或小于0.012的缺失值将被赋值为A，而概率大于0.012且小于0.369的缺失值（概率A：0.012和概率B之和：0.357），它们将被赋予值 B。

– “Hot Deck”插补：在这种情况下，假设缺失值不是由于随机性造成的。为了进行插补，必须寻求相关变量与待插补变量之间的相关性，因此将使用更接近相关变量的值。

例子：

图片
由于“Product Valuation”变量中存在缺失值，考虑到“Product Valuation”和“Sex”变量之间存在相关性，该值将替换为最接近的值。

–子类均值插补：这种插补过程有点类似于“Hot Deck”方法，但它的使用主要集中在连续或区间变量上。为了进行插补，搜索与待插补变量有相电话号码 TW 关性的两个变量，在连续变量的每个区间计算均值，因此对缺失值进行插补的是均值。然而，这种类型的插补往往会降低典型或标准偏差，这会影响分析的最终结果。