自年年初起,国家统计局公布新的价格指数统计口径,将CPI的构成分项进行调整。同时,依据五年一次基期轮换的原则,修改各大分项的权重。这使得原有的预测模型误差加大,有必要重新对模型进行修正。然而,受制于新口径下公布数据样本个数较少,原有的由八大类回归得到各类系数的方法无法使用。本篇报告借助一种近似方法估算出食品烟酒项环比对CPI环比的贡献系数,再据此估算非食品的系数。需要指出的一个常见误区是,该系数的意义并不等同于CPI价格指数构成中的各项权重,文中均使用贡献系数代替权重的说法。对于食品烟酒项,挑选出对应的高频指标对各细分项走势进行拟合;对于非食品项,综合使用季节均值法和高频指标跟踪法预测各项走势,并由此复合出CPI的环比及同比预测值。结果显示,本篇报告的方法预测新口径下CPI的走势有不错的效果。当然,该方法还存在诸多需要改进的地方,有待后续进一步研究。
部分背景及方法介绍
在已有的预测模型中,大多使用各大项环比来拟合CPI环比,所得回归系数也对应着该项对总CPI的影响。从公式上看,即为:
该做法的可行性主要基于以下两点:一是数据样本数量足够多,可以使用回归分析;二是同一价格基期(五年)内各大项权固定,这一点间接保证了回归系数的稳定性。然而,由于新口径下仅公布了六个月的数据,样本数量甚至小于解释变量的数量,导致上述方法并不可用。这里,我们暂时使用一种近似方法,待到后续样本数量足够的情况下可沿用原方法。该近似方法的核心是将CPI分为食品烟酒项和非食品项。对于食品烟酒项,依据统计局每月公布CPI时提到的“食品烟酒价格环比下降0.9%,影响CPI环比下降0.28个百分点”可估算该月食品环比对总环比的贡献系数约为0.31,对各月系数做平均可近似得食品项的贡献系数。对于非食品项,在CPI环比中依据上述系数刨去食品烟酒项的影响后的剩余值与非食品的环比做计算可估得非食品环比的贡献系数。公布数据多为四舍五入后的,所以估算结果均为一个范围。
新口径下,食品烟酒项对CPI环比的贡献系数相对稳定为0.,非食品烟酒项对CPI环比的贡献系数约为0.65。这里的贡献系数不等同于权重的概念,所以其和也不必为1。从而,CPI的环比可近似为:
第二部分食品烟酒项
新口径下的食品烟酒项是将老口径的食品项中茶及饮料和在外用膳项移出,并添入烟酒项,主要构成对比如下:
从统计局公布的细分项环比数据来看,食品烟酒可分为粮食、油脂、鲜菜、畜肉、蛋、鲜果、奶及奶制品、水产品、烟酒以及其他食品。它们在一篮子食品价格中的权重依赖于当期该项的消费量,受季节性因素的影响而变化,使得通过估计价格指数构成的权重来拟合食品烟酒项势必会出现稳定性不佳的情况。所以,我们仍然希望得到各分项环比对整体环比的贡献系数。对于公布频率较高的细分项(鲜菜、畜肉、水产、蛋、鲜果),取其多次平均值;对于公布频率较低的细分项(即粮食、油脂、奶制品、烟酒项),在刨去上述五项的基础上做回归分析。由于公布数据存在四舍五入问题,下表数据多为一个范围。
根据上述结果,我们分别挑选合适的高频指标来拟合各细分项,整体效果及误差影响如下:
1.鲜菜
从鲜菜诸多指标中依据逐步回归法,最终选择豆角、油菜、芹菜、白萝卜、白菜月环比作为解释变量。事实上,由于不同季节消费的主流蔬菜不同,所以鲜菜内部权重并不稳定,间接导致了我们的回归结果从以年为单位的全局上看效果不错,但细化到特殊月份可能误差较大(如年1月份,贡献系数 的豆角价格下跌,但彼时其消费量小,并且除去豆角外的大多数蔬菜价格暴涨,给当月预测值带来误差)。后续更细致的工作希望考虑到系数的季节性因素,分季节使用对应的样本去拟合会更加准确。
2.畜肉
从代表畜肉项的高频指标中挑选五花肉、白条鸡、羊肉月环比作为解释变量。指标选取方法均为逐步回归法,以下不再赘述。
3.水产品
选择草鱼、带鱼月环比作为解释变量。其中,误差主要出现在每年的春节1、2月价格波动较大的时点,内在的逻辑包含了春节期间 水产品的消费量较平时增多,而其价格波动也往往大于预测变量草鱼和带鱼当季的波动。后续在做1、2月预测时,可将所有1、2月份数据单独列为样本再拟合,可解决此问题。
4.鲜果
选择香蕉、哈密瓜、西瓜、红富士、蜜桔、苹果月环比作为解释变量。下面的回归是基于整体样本所做,在季节性高点,可单独选取同季样本做拟合。但是,鲜果的高频预测容易出现误差,一是因为水果高频数据间歇性缺失太多,二是内含了水果消费种类和习惯的不稳定性。
5.蛋类
选择五十大城市鸡蛋平均价月环比作为解释变量。
6.油脂
选择大豆、花生月环比(修匀)作为解释变量。
7.粮食
选择大米、小麦、玉米、大豆、标准粉月环比(修匀)作为解释变量。
8.奶制品
选择牛奶月环比作为解释变量。在牛奶、酸奶、中老年奶粉及进口婴儿奶粉中,模型只选择了显著性 的牛奶作为解释变量,回归误差较明显。得益于奶产品价格 波动水平及贡献系数均较小,该误差的影响可控。
9.烟酒
我国的烟类价格受到严格的管制,除去周期性的集中调价外极其稳定,其对CPI的影响几乎可以忽略。同时,原有的白酒指数等都已停止统计,酒类价格的高频指标是难以获得的。这里,我们借助一号店网购的数据,使用五种可查询的品种(哈啤、张裕干红、洋河、泸州老窖、水井坊)价格走势的平均值来近似酒类价格走势。由此带来的误差对整体CPI的影响可控。
第三部分非食品项
从整体上看,非食品及其各分项的环比均具有较明显的季节性特征,因此可以直接使用历史均值法来做预测。这种做法有一定理论支撑,操作简单且误差可控,一定程度上也规避了非食品项缺乏相关性很好的高频数据的问题。但是,对于某些较不稳定或有一定趋势的分项,这种处理方式则显得不够精细。文中,对于上述的不稳定分项,在均值方法基础上适当辅以高频指标跟踪的方法。
从分项看,非食品主要包括居住、衣着、生活用品及服务、交通和通信、教育文化娱乐、医疗健康及其他用品和服务七大项。对于每大项,我们分别计算上一基期每个月的环比方差。下表中的红色数值即为分项对应的波动较大的月份,其中的原因可以从该行业定价的市场化程度以及当年的需求等方面解释,在此不一一赘述。针对这些月份的预测,我们需要辅助使用相应的高频指标以得到其超越季节性因素之外的走势。这种方法理论上可以减小误差,但由于相关性较好的高频指标并不容易获得,所以该方法也不尽完美。下表中方差较大的标准是 数值超过0.05或相对明显大于其余月份。
1.衣着
包括服装、鞋类、衣服加工服务三项。其中,鞋类价格环比季节性很好,衣服加工服务所占权重较小,所以其波动主要源于服装价格项。与服装价格直接相关的高频指标包括柯桥服装市场、常熟男装市场、海宁皮革城等地方性服装批发市场的价格指数。柯桥纺织价格指数15年以来和服装价格走势相关性较好,可选其代表该项,并乘上服装项占衣着项的权重(约70%)与鞋类及加工项的季节均值合成得衣着项的环比。
2.交通通信
分为交通和通信两项,又可细分为交通工具、燃料、使用和维修、通讯工具、通信服务、邮政服务。其中,除去燃料和通讯工具项之外季节性较明显。分别使用柴油价格和中关村电子产品价格指数代替上述两项的走势,汽油走势与燃料项相关性很强,而电子产品价格指数(手机价格指数停止更新)与通信工具项相关性一般。对于通讯工具项,选择均值法和高频指标法均有一定误差。将所求燃料项环比超季节性因素的部分叠加其权重,复合交通通信项均值即可预测该项环比走势。
3.教育文化娱乐
旅游、教育等服务2月份的环比波动较大,这是由于春节所属月份(1月或2月)的不确定性造成的。但由于高频数据的有限性,目前缺乏与教育、旅游具有一定相关性的价格指标,只能使用均值法估算。另外,教育服务价格在九月开学季往往环比走高,其 数值为年内 ,而某些特殊年份并未体现,使用历史均值法时需针对具体情况做出调整。
第四部分总结
综合运用高频指标及历史均值法,我们可以预测CPI环比走势,再复合上过往月份的环比,可求得所预测的CPI同比值。下图是本文方法运用于年的结果。文中的模型尚有许多需要改进之处,如鲜菜项在春节期间预测误差较大、非食品的旅游消费难以跟踪等,这些都有待后续进一步研究。
用8月 旬的数据来代替全月数据,预测结果同比仅为约1.5%。
注:预测值旬度更新,最终的预测值在此基础上会有一定修正。由于八月上旬的鲜果价格跌幅较大,中下旬的高频数据存在由于天气等因素而反转的可能。
CC赞赏