电脑桌面
添加蚂蚁七词文库到电脑桌面
安装后可以在桌面快捷访问

数据分析——辛普森悖论:数据会说谎?小心总体与分项分析的陷阱

来源:金蝶云社区作者:金蝶2024-09-164

数据分析——辛普森悖论:数据会说谎?小心总体与分项分析的陷阱

 今天聊聊一个很有意思的数据分析中的常见现象,也是一个分析逻辑陷阱。


数据会说谎?数据同行们应该对这个话题都有较多的感触。今天咱们一起聊聊一个比较有意思、但经常忽略的数学现象:辛普森悖论,看一看这回数据到底是怎么说谎的。



1、到底哪个结论是对的


我们来看一个案例。


我们想判断医院A和医院B哪家医院的死亡率更低,希望通过死亡率判断医院的诊治水平。


统计A和B的总体死亡率,我们发现A的死亡率是36%(假设总病人100,死亡36人),B的死亡率是40%(假设总病人100,死亡40人)。


假设我们上述的数据统计口径都是完全一致的,没有口径上的差异,那是不是可以得出结论:B医院的诊治死亡率更高?再延伸一下,那是不是代表B医院的治疗水平差,毕竟死亡率高嘛!


如果是这样的推理逻辑,其实存在了巨大的漏洞。我们将A和B医院的病人按照危重程度进行二分类,分为危重病人和轻症病人,再来看一看数据情况,如下图:


111.webp


通过上图我们发现,A医院的危重病人比重较低,100个人中只有20个,剩下的80个病人都是轻症病人;而B医院的情况恰恰相反,80个危重病人,20个轻症病人。无论是A医院还是B医院,重症病人的死亡率都很高,A医院甚至达到了100%;而轻症病人的死亡率相对较低,B医院0死亡。


纵向对比发现,无论是重症病人、还是轻症病人,B医院的死亡率都是要低于A医院的。但是由于B医院的重症病人比重远大于A医院,导致了总体的死亡率高。


因此,我们到底要说B医院的诊治死亡率是高呢,还是低呢?


如果单纯从总体数据上得出结论:B医院的总体死亡率更高,这个从统计上没问题,但是并不代表B医院的治疗水平差,因为从细分结构上看,B医院的水平都更高。


这就是典型的辛普森悖论:即总体得出的结论和拆分后分项得出的结论,完全相反。



2、为啥会出现这种现象


有没有觉得很神奇。那为啥会出现这种现象呢?我们从数学和通俗两个角度分别看一下。


(1)数据角度


我们先从数学的角度来看一看。其实可以用下面的图形化来表示:


222.webp



上图中的3个黑点代表了A医院,3个白点代表了B医院。右上侧的黑点和白点代表了A医院和B医院的总体,适应于向量的加法,是由两个子向量(即重症和轻症)相加得到。x轴是患病人数,y轴是死亡人数。因此,每个向量的斜率代表了死亡比率。


通过上图,我们可以发现:

333.webp


子部分的比例大小,汇总后的整体大小关系并无绝对性。

444.webp



再看一个散点图,也是很直观地说明了这一点:

555.webp



上面的散点图,如果不拆分到子部分,单纯看x和y,明显是负相关。但如果通过颜色第三个维度进行区分,明显发现x和y是正相关的。


(2

数据分析——辛普森悖论:数据会说谎?小心总体与分项分析的陷阱

“ 今天聊聊一个很有意思的数据分析中的常见现象,也是一个分析逻辑陷阱。”数据会说谎?数据同行们应该对这个话题都有较多的感触。今天咱...
点击下载文档文档为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

已经是第一篇
确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息
QQ群
  • 答案:my7c点击这里加入QQ群
支持邮箱
微信
  • 微信