统计造假与滥用:数字是如何误导我们的?

卫报

text

关于“谎言、该死的谎言和统计数据”这句古话的出处,有不止一种说法,但它在1890年代就已经被视为有某种谚语的性质——可能改编自律师圈子里的老笑话:有三类说谎者,“一般的说谎者、该死的说谎者和专家证人(expert witness)。”

哪怕这一警句已陪伴了我们一百多年,人们在运用统计数据时依旧不乏舞弊行为——例如,英国政府公布的每日新冠检测人数就有两个问题,一是检测站发放出去的试剂盒可能没有真正派上用场,二是同一个人可能接受过多次检测,但这些都被算了进去。

官方一向有强烈的数据造假动机,因为我们假定——尤其在这个盲目崇拜“数据”的年代——媒体上展示的数字是客观的、没有利益相关的:它只是中立地测量世界。但荷兰经济学家、记者桑内·布劳(Sanne Blauw)却在新出的小书《数据偏见》( The Number Bias )里(它尖刻且不乏趣味性)坚持认为没有这回事。测量对象和测量方法的确定背后有着一系列社会和道德的预设——她据此提出,所谓基于大数据训练的“机器学习”系统经常存在种族主义偏见,或者有其它不胜任的情形。

《数据偏见》

布劳选择了若干案例来呈现这一主题,一开始她回顾了统计学刚诞生时的种种成就,如受过数学训练的护士弗洛伦斯·南丁格尔曾经就英国士兵在克里米亚的阵亡率编写了极为详尽的统计表,并将之呈报给官方。布劳指出,她“属于世界上第一批以图表来促进变革的人”,也许正是这些早期的辉煌成功吸引来了随后的一波毫无原则的数据造假者。

作者接下来继续批判了(在苏珊娜·霍肯费尔德·詹森的英译本里)“有关智商和肤色的愚蠢议论”——这个标题取得很恰当,并分析了抽样人群(sampling population)的问题如何可能导致荒唐的结论(譬如她提到了金赛有关美国人性行为的报告),更历数烟草业说客和全球变暖否认者有意误用相关性、图表及其它统计技术的行为,其论述简洁有力而又充满讽刺。

以这样一篇短论而言,她谈及的某些话题无疑需要进一步的深化:例如,对于科学研究中的p值操纵(即捏造数字来提高显著性)问题,乔治·宰丹(George Zaiden)新近的《成分》( Ingredients )一书就有更加全面的探讨。但布劳的书毕竟容易消化一些,如果这能让更多的人读到它,使人们不再受泛滥成灾的虚假数字的蒙骗,那这种易消化性(degestibility)也不失为一种公德了。

(翻译:林达)