因果树先于QCA

2019-09-25  本文已影响0人  xxxxxxxxxxxxxs

用QCA来整理因果树的结果:

因果树的结果(叶节点的样本个数>100)

因果树先于QCA

方向1 :用个体来计算:将causal tree计算出的每个节点的ATE赋给节点中的每个人

数据的样子:

id   自变量X(age fw_b edu……)  Y(处理效应)   T  treatment variable,

从R中提取ATE数据:

               tree$ frame$yval ——ATE of every node

               tree$where——每个个体处在哪个节点

                按照节点id匹配

try 1:第一次试验是用几个简单的二分类变量来做QCA,但会存在大量的矛盾组态。因为简单的几个二分类变量并不是严格按照因果树的分类标准来的。所以不会呈现出因果树的分类

try 2:如果完全按照causal tree计算出的最细的分类来生成变量,在stata中运行时由于变量太多,愚蠢的stata会报错,说变量BCDEFG不存在之类的。

try 2改进:放在R里面试一下看看?或者放在windows下试一试

试过,QCA运行后的解依然比较复杂:

-----------------------------------------------

                  inclS  PRI    covS  covU  (M1)  (M2)  (M3)  (M4)  (M5)  (M6) 

--------------------------------------------------------------------------------------

1  c*d*e*F*G      1.000  1.000  0.638  0.565  0.638  0.565  0.638  0.638  0.565  0.565

2  b*c*d*e*f*g*I  1.000  1.000  0.147  0.018  0.018  0.018  0.018  0.018  0.147  0.147

3  B*c*d*E*f*g*I  1.000  1.000  0.111  0.017  0.111  0.111  0.017  0.111  0.017  0.111

--------------------------------------------------------------------------------------

4  b*c*d*e*f*g*H  1.000  1.000  0.148  0.000  0.019  0.019                           

5  b*c*d*e*f*H*I  1.000  1.000  0.148  0.000  0.019        0.019  0.019             

6  b*c*d*e*G*H*I  1.000  1.000  0.092  0.000        0.019                0.019  0.019

7  B*c*d*E*f*g*H  1.000  1.000  0.116  0.000                0.022        0.022       

8  B*c*d*f*g*H*i  1.000  1.000  0.041  0.000  0.041  0.041        0.022        0.022

9  c*d*e*f*g*H*i  1.000  1.000  0.038  0.000                0.038  0.019  0.038  0.019

--------------------------------------------------------------------------------------

  M1            1.000  1.000  0.975

  M2            1.000  1.000  0.975

  M3            1.000  1.000  0.975

  M4            1.000  1.000  0.975

  M5            1.000  1.000  0.975

  M6            1.000  1.000  0.975

方向2: 以node作为案例而不是以个体作为案例,

结果:由于因果树是不对称的,即对某一个变量划分的两个群体,不是按照相同的变量B继续划分。 所以将因果树的节点整理成QCA的数据格式后,发现存在很严重的稀疏问题

改进1 将数据补成对称的格式。但这样显得冗余。 原本因果树已经对不必要的条件进行了化约——因为因果树的分类条件是,当分类之后组间的差异足够大才进行分类,其实已经做了QCA最小化的这一步。我们可以把以上数据写成QCA需要的逻辑表达式。发现其实没有多少化简的空间。

方向3:将原来的连续变量变成定序或者类别变量。这样或许能够减少因果树的分枝,也能在QCA中有个统一的标准。

当处理为类别变量之后,不太适用于回归的逻辑。在做普通的回归和PSM时,得到的结果和使用连续变量做的结果不同。但是因果树的平均处理效应和之前相同,依然是-0.094.

但这种方法得出的因果图对数据recode之后再做QCA,并未实现我们的目的——得到一个简单的解。

> tree

n=5776 (481 observations deleted due to missingness)

node), split, n, deviance, yval

      * denotes terminal node

       4) age_f< 21.5 1041  620289.90 -0.45712430 *

      10) edu>=10.5 214  127537.80 -0.23552590 *

      11) edu< 10.5 163  97137.17  0.38290760 *

          48) gender>=0.5 719  428427.10 -0.43345570 *

          49) gender< 0.5 624  371867.30 -0.18208560 *

                100) fw_b< 1995.5 416  247885.30 -0.42343620 *

            101) fw_b>=1995.5 237  141243.60 -0.12272170 *

            102) age_f>=25.5 168  100122.30 -0.19681530 *

            103) age_f< 25.5 190  113226.60  0.30459110 *

      13) age_f>=35.5 203  120980.50  0.10814440 *

           28) age_f>=42.5 139  82833.20 -0.30201470 *

          58) age_f< 19.5 147  87604.92 -0.16367870 *

            118) edu>=13 447  266392.50  0.03538975 *

            119) edu< 13 352  209764.50  0.27346110 *

          60) fw_b< 2010.5 196  116807.30 -0.07681612 *

          61) fw_b>=2010.5 395  235400.30  0.14465570 *

        31) age_f>=33.5 125  74491.10  0.31009760 *

上一篇 下一篇

猜你喜欢

热点阅读