文 |中国人口与发展研究中心 黄匡时
2021年5月11日,国家统计局正式发布了2020年第七次全国人口普查主要数据,包括人口总量、家庭规模、人口分布、性别构成、年龄构成、受教育程度人口、城乡构成、流动人口、民族人口、港澳台居民和外籍人员等。数据发布后引发网民高度关注。
很多网民开始细究七普数据形成的前因后果,希望通过对不同时期的人口数据进行因果推理,以期获得更多的因果发现。不过,有些因果推理存在一些误区,引发了网民对人口普查数据的疑惑和不解。这些疑惑和不解亟需及时澄清。
七普数据的推理误区:用抽样数据证伪普查数据
常见的推理误区是,用1%和1‰的人口变动抽样调查数据去证伪普查数据。
《全国人口普查条例》规定,人口普查每10年进行一次,尾数逢0的年份为普查年度。为了及时掌握每年度的人口变动,考虑到不可能年年耗资搞人口普查,国家统计局每五年开展一次1%人口变动抽样调查,其他年份则为1‰人口变动抽样调查。1‰人口抽样调查的样本量约占全国总人口的1‰左右,是以全国为总体,省级单位为次总体,采用分层、多阶段、整群概率比例抽样方法抽取样本。抽样调查不可避免的存在抽样误差和系统偏差。
正是因为如此,国家统计局决定每10年举办一次人口普查,而每次人口普查主要目的就是查清上一次人口普查以来全国人口的数量、地区分布、人口结构和素质以及住房方面的变化。通常人口普查数据的质量要好于抽样调查数据。因此,通常用人口普查数据去校正过去10年中的1%和1‰人口抽样调查可能存在的偏差,而不是用过去10年中可能存在偏差、少样本的1%和1‰人口抽样调查去证伪人口普查数据。因此,当前不少网民基本都存在这种因果倒置的推理误区。用通俗的话来说,就是用质量较次的抽样调查数据去证伪质量较好的普查数据。
用“孬数据”证伪好数据主要表现如下几个方面:第一,用2019年年末总人口140005万人(来自2019年1‰人口变动抽样调查)与2020年第七次人口普查时点人口141178万直接相减,发现两者相差1173万人,由此认为2020年新增人口1173万,而2020年全年出生人口1200万,在一个国际移民影响不大的情况下,必然存在死亡人口27万的不可思议的情景;
第二,认为2020年净增人口1173万是2019年净增人口467万的2.5倍,简直是“石破天惊”、“目瞪口呆”;
第三,用0-14岁的总人口数25338万与2006-2019年的出生人口数(事实上应该是2006-2020年)总数进行比对,得出2020年出生人口为2600万的错误结论;
第四,认为2020年65岁以上老年人口新增了1641万,2020年我国死亡人口1427万(用错误的2600万减去1173万获得),由此认为2020年必然有超过3千万的老年人口进入到65岁以上老年人口群体。
其实,统计数据并不是天然会说谎,统计数据之所以会说谎,只因统计数据的使用者对统计数据的错误使用和错误解读。
人口数据的因果推理:后真相数据的“队列因果”
人口是一个有出生就会有死亡的现象,通常会经历上学、就业、就医、结婚、生育、迁移、退休等事件,因此人口数据是一个具有明显的时间先后的因果链条,呈现出较为清晰的因果关系。正因为这一点,我们可以通过人口数据反推过去和预测未来。
队列法是人口现象常见的因果推理方法。通俗的说,队列法就是本年度的人口在下一年度年龄会增加一岁,或者说,本年度的人口是在上一年度时年龄会减少一岁。举个例子,新生婴儿10年后会成为10岁的青少年,50岁的成年人10年后会成为60岁的老年人。正是因为这点,间隔10年的人口普查数据可以作为“后真相”(post-truth)数据,能有效地校正过去10年乃至更长时间的人口数据。因此,我们可以用第七次人口普查数据的年龄别人口数据较为清晰地回看过去10年的出生人口数。
通常,0-10岁的人口基本是过去11年期间出生的。结合儿童死亡率,我们大致可以推算出过去10年每年的出生人口数。同样地,我们可以用两次普查数据的年龄别人口数,比如2020年和2010年两次人口普查的年龄别人口数,通过队列法,计算出10年间的死亡人口数。由此,结合出生人口和死亡人口,核算出每年的净增人口数和总人口数,从而矫正过去10年间通过1%和1‰人口抽样调查估算出来的人口数据。
基于队列法的人口数据的因果推理需要较为详细的年龄别人数据,在没有年龄别人口数据情况下的推理都是极不科学的。因此,只有当国家统计局公布了更为详细的年龄别人数据时,通过队列法才能更为科学地对历史数据进行评估。遗憾的是,这次国家统计局并没有公布年龄别的人口数。我们期待国家统计局早日公布年龄别的人口数。
七普数据的相关推理:万物互联后的“数据互证”
在数字化时代,人口是一个与经济社会资源环境紧密关联的系统,人口数据与经济社会资源环境大数据存在高度相关。正是因为这点,我们可以通过其他大数据来对人口普查数据进行相关推理。比如总人口数据就可以通过公安户籍数据、手机信令大数据、互联网大数据、经济社会资源环境大数据等来进行相关推理。
首先,公安户籍信息可以佐证人口普查大数据。公安部从2014年开始为期3年的户口登记管理清理整顿,全国公安机关共清理注销重复户口314.7万个,清理因死亡、入外籍等应销未销户口578.6万个,纠正户口登记项目差错1767.1万项,到2017年年底,全国户口和公民身份证号码准确性、唯一性、权威性目标基本实现。
2021年5月10日,公安部在京召开新闻发布会宣布:截至2020年底,我国14亿人实现户口性质城乡统一,1.1亿流动人口领到居住证,1.2亿农业转移人口落户城镇,户籍人口城镇化率达到45.4%。公安户籍数据一定程度上佐证了人口普查大数据关于总人口的统计。
其次,手机信令大数据可以佐证人口数据。根据工信部发布的《2020年通信业统计公报》,2020年,全国移动电话用户总数15.94亿户,普及率为113.9部/百人,剔除一人多号因素,依然可以估算出实际人口规模。现在很多城市的“健康码”或“行程码”基本覆盖了全市成年人口乃至全员人口。考虑到婴幼儿和儿童以及部分老年人并没有移动电话,可以通过年龄别使用率和抚养比等相关指标估算总人口。
此外,还可以通过互联网网民规模来估算总人口。根据2021年2月3日中国互联网络信息中心(CNNIC)发布第47次《中国互联网络发展状况统计报告》,截至2020年12月,我国网民规模达9.89亿,互联网普及率达70.4%。同样可以根据互联网的年龄别渗透率等相关指标估算总人口。
最后,经济社会大数据可以间接佐证人口数据。长期以来,我们一直使用人口数据来关联经济、社会、资源、环境,比如中国人口与发展研究中心开发的人口与发展数学模型与综合决策支持系统(简称PADIS+),实现了以人口为核心,关联经济、社会、资源、环境、能源等因素,融合了数据仓库、模型库、信息库,以及群决策、数据挖掘、智能推送等技术,搭建了人机协作、智能研讨平台及其展示环境,为科学决策提供了有效的技术支撑。随着互联网、物联网、人联网、人工智能、大数据等数字技术的发展,经济、社会、资源、环境等大数据日益丰富,为估算人口数据提供了新视角,比如通过水、电、粮食等资源使用总量和人均使用量的变动趋势,也可以估算和校核人口数据。