结果与常识相反:
单个项观察观察不论男性还是女性,服用药物的康复率大于未服用药的,但是整体上所有患者的康复率未服药的却高于服药的,相当反直觉。男女样本比例失真导致结论反直觉。
1.2 相关性和因果关系
相关性不等于因果关系
可能存在中间隐形变量扭曲结果
却有
看似相关,实则无关,变量之间的相关性可以完全被第三个变量所“扭曲”。应该正确选择分组变量对数据进行分组统计。
关系较为简单的,可以快速发现。例如与冬天相比,夏天游泳的人增多且溺亡人数上升,同时吃冰激凌的人数也增多,因此,我们可以观察到统计数据——在“吃冰激凌的人数多”时“溺亡人数多”。我们可以得出结论——“吃冰激凌的人数多”和“溺亡人数多”这两者之间有相关性,而如果我们得出“吃冰激凌的人数多”将会导致“溺亡人数多”这样的因果关系,这个结论显然是荒唐的。类似地,我们可以观察火灾事故中的伤亡人数和火灾救援中出动的消防车数量之间的统计关系,在所有的火灾统计数据中,可以发现,出动“消防车数量多”的火灾“伤亡人数多”,我们可以得出结论——火灾中“消防车数量多”和“伤亡人数多”之间有相关性,但我们不会得出“消防车数量多”导致了火灾中“伤亡人数多”的结论。
要避免