投资小瑀宙 | 数据会如何骗人?——研究中如何回避辛普森悖论的影响

2022-09-15 19:30:32 - 市场资讯

投资小瑀宙 | 数据会如何骗人?——研究中如何回避辛普森悖论的影响

辛普森悖论由英国统计学家E.H.辛普森于1951年提出,大体意思是两组数据的分别比较和合并比较可能导致相反的结论。这个悖论在研究中十分重要,直接上例子更容易理解。

日常生活中,我们会遇到某些手术需要选择医院的情况,相应疾病的治愈率是选择医院的重要依据。以肾结石为例,我们来看两组数据,A医院过去一年一共进行了350台肾结石手术,其中270人治愈,治愈率为270/350=77.14%,而B医院过去一年同样进行了350台肾结石手术,其中285人治愈,治愈率为285/350=81.43%,按照这个数据来看,B医院的治愈率显著高于A医院,B医院治疗肾结石的水平更高吗?

投资小瑀宙 | 数据会如何骗人?——研究中如何回避辛普森悖论的影响

先别急得出结论,我们把数据继续分层,肾结石的治愈难度与结石尺寸大小显著相关,若以大小分组再来看这两个医院的数据,先来看小尺寸的肾结石,A医院共进行了90台手术,其中80人治愈,治愈率为80/90=88.8%,B医院共进行了270台手术,230人治愈,治愈率为230/270=85%,小尺寸肾结石的治愈率A医院高;再来看大尺寸肾结石,A医院共进行了260台手术,其中190人治愈,治愈率为190/270=73%,B医院共进行了80台手术,其中55人治愈,治愈率为55/80=68.8%,大尺寸肾结石的治愈率还是A医院高,我们通过数据分层得到的结论完全相反。

在我们的研究工作中这样的情况也会经常遇到,产生这样情况的根本原因是数据不可比,A医院很可能由于历史悠久名气较大,肾结石尺寸较大的病人更倾向于选择A医院,造成A医院接诊病例的平均难度更大,因此造成两者总体治愈率的数据不可比,数据的进一步分层结果更加真实。

因此在比较公司之间的优劣时要十分注意,不能以数据论数据,产品毛利率,良率等指标背后还是业务经营的实质,多维度验证,指标的可比性要时刻挂在心上。

投资小瑀宙 | 数据会如何骗人?——研究中如何回避辛普森悖论的影响

作者简介

田瑀,现任中泰资管基金业务部副总经理,中泰开阳价值优选混合A(007549)基金经理、中泰兴诚价值一年持有混合A(010728)、中泰星宇价值成长混合A(012001)基金经理。

复旦大学材料学学士,复旦大学物理学硕士。10年投研经验(其中7年投资管理经验)曾任安信基金特定资产管理部投资经理、中泰资管权益投资部高级投资经理。坚持价值投资理念,善于寻找具有宽阔护城河的成长股,分享企业成长的价值。

基金管理人承诺以诚实信用、勤勉尽责的原则管理和运用基金资产,但不保证基金一定盈利,也不保证最低收益。投资有风险,基金过往业绩不代表其未来表现。基金管理人管理的其他基金的业绩不构成对本基金业绩表现的保证。投资者投资基金时应认真阅读基金的基金合同、招募说明书等法律文件。基金管理人提醒投资者基金投资的“买者自负”原则,请投资者根据自身的风险承受能力选择适合自己的基金产品。

今日热搜