数据分析在宏观研究中的作用
如何看待数据和模型(模型为大,数据次之)
模型是对现实世界的抽象,抓住主要矛盾/反馈环/逻辑,来解释和预测现实世界的运行,相当于对真相的抽丝剥茧,降维处理。
数据可以评价模型对现实世界的拟合功效,是现实世界投射到一个维度的客观反馈。
如果模型和数据可以复制或刻画现实世界的话,那现实世界一定是从一个高维的复杂系统投射到数据和模型中的。可以想象,至少叠加时间之后,一个四维(长、宽、高、时间)的客观事物就出现了,一个侧面的照片可以给我们部分反映客观世界。
数据和模型是否足够刻画现实世界?当然不能,主要的差异在人心。现实世界由客观和主观部分构成,经济中的参与者也会通过本身的买卖行为对可换世界产生影响,从而影响时间轴的走向。从这个方面讲,这个四维世界中的时间维度,可以说是主观部分的影响占主要因素。牛顿曾说过,他能够测算天体运行的轨迹,却不能计算人心疯狂的程度。
数据是模型的影子,模型是数据的容器。杂乱地拿出几条时间序列去分析相关性、趋势是很难产生统一、自恰的认识的,反而经常在第一级推论上互相矛盾,给人一种不知所措的迷茫,这时,需要把数据放进一个模型或者逻辑链条中去理解,在逻辑中加入预期的因素,有时候往往发现问题变得容易理解。
因此,尊重数据和模型,但不迷信,不直接把数据和模型作为交易的依据,通过数据和模型构建的策略有足够的容错空间,亏钱了也不要全把责任赖在数据上,是一种理性的态度。
数据存在的问题
数据是对现实世界一个侧面的刻画,用量化的手段记录真实世界(reality)的运行情况,但在宏观数据上,通常具备以下弱点:一是时效性不强,很难依据数据有效转换投资策略,往往被价格是市场走势领先;二是存在统计误差;三是统计口径差异导致比较困难;四是数据频率不够高。每一项弱点都会影响数据质量,进而影响数据分析的结果。
因此,在使用数据分析的时候,首要就是看数据的出处、定义、范围、统计频率、单位等细节,避免出现使用谬误。
数据处理的方法
常见的数据处理方法有:单位化(CPI)、同比、环比、取log(分析价格走势)、移动平均、极值、波动率、相关性、情境分析、敏感度分析等,针对不同的数据类型,使用合理的方法进行处理。(例子)
数据分析的目标(宏观多为时间序列数据)
一是数据之间的历史分位水平、走势情况(单时间序列数据)、相关性、因果关系(格兰杰因果关系)、领先滞后关系等都是需要观察检验的地方。
二是分析数据可以证明or证伪相应的关于经济走势、市场走势的原因,并针对目前情况对未来进行合理的线性外延推测。
三是通过对一到两个季度宏观环境的预测,找出在相应参数下最优的资产配置策略,挖掘不同大类资产的相关性,找出风险收益比最佳的交易。