学习笔记之Python实现纵横向拉开档次法-研究方法概述

2020-12-28 本文已影响0人 0to1

不同省份科技转化能力测度是基于面板数据的动态综合测度问题，对于此类问题，目前学术界往往是通过将动态问题简化成静态问题来处理，但这种处理方式往往会造成评价结果失真。因此，本文引入逐层纵横向拉开档次法，其不仅能够体现时序立体数据特征，还能够通过对底层数据进行自下而上的逐层加工，使得测度结果更加全面科学。本人学习了《三大支撑带人工智能产业自主创新能力测度分析》论文，然后根据研究方法，逐步实现Python代码，先上原理如下，引用了论文中的内容：

逐层纵横向拉开档次法

假设有 $n$ 个被评价对象 $O_1,O_2,O_3,...,O_n$ ，每个评价对象有 $m$ 个评价指标，按时间顺序收集并构建原始数据集{ $x_{ij}(t_k)$ }，其中 $k=1,2,3,...,n$ ； $i=1,2,3,...,n$ ； $j=1,2,3,...,m$ ；{ $x_{ij}(t_k)$ }表示第 $i$ 个评价对象在第 $k$ 年时第 $j$ 个评价指标的观测值。

假设构建的评价指标体系有 $n$ 个大系统（即准则层），记为 $s_i(i=1,2,3,...,n)$ ,每个大系统都有 $p$ 层，且每层中均有 $n_p$ 个相同级别的子系统。
首先，确定子系统指标权重。根据第 $p—1$ 层的第 $q$ 个子系统在时刻 $k$ 的指标观测数据集，则第 $p—1$ 层的第 $q$ 个子系统的综合评价值为:

$y_i^{(p—1,q)}(t_k) = \sum_{j=1}^{n_p} \omega_jx_{ij}^{(p—1,q)}(t_k)$

纵横向拉开档次法确定指标权重遵循的原则是在时序立体数据表上最大化各评价对象之间的差异，因此，采用最大化 $y_i^{(p—1,q)}(t_k)$ 的离差平方和的方式来进行刻画:

$\sigma^2 = \sum_{k=1}^N \sum_{i=1}^n[y_i(t_k)—\overline{y}]^2$

由于原始数据已经经过标准化处理，满足 $y=0$ ，于是有:

$\sigma^2 = \sum_{k=1}^N \sum_{i=1}^n[y_i(t_k)—\overline{y}]^2=\sum_{k=1}^N \sum_{i=1}^n[y_i(t_k)]^2=\sum_{k=1}^N[\omega^TH_k\omega]=\omega^T\sum_{k=1}^N [H_k\omega]=\omega^TH\omega$

式中， $\omega=(\omega_1,\omega_2,\omega_3,...,\omega_m)^T$ ， $H=\sum_{k=1}^NH_k$ 是 $m$ 阶对称矩阵； $H_k=A_k^TA_k (k=1,2,3,...,N)$ 。
为满足指标权重的基本要求，限定 $\omega^T\omega=1$ ，则权重求解问题转化成求解下列非线性规划问题:

$\max\omega^TH\omega\\ \mbox{s.t.}\begin{cases} ||\omega||=1 \\\omega>0 \end{cases}$

当取 $\omega$ 为矩阵 $H$ 的最大特征值 $\lambda_{max}(H)$ 所对应的特征向量时, $\sigma^2$ 取最大值。

其次，确定母系统指标权重。根据上述求解的第 $p—1$ 层第 $q$ 个子系统的指标权重及式（1）,计算出第 $p—1$ 层第 $q$ 个子系统的评价值 $y_i^{(p—1,q)}(t_k)$ ，其相当于第 $p—2$ 层对应的母系统的值。则第 $p—2$ 层系统的第 $l$ 个子系统的综合评价值为:

$y_i^{(p—2,l)}(t_k) = \sum_{q=1}^{n_p} \omega_qy_{j}^{(p—1,q)}(t_k)$

确定 $\omega_q$ 的方法与上述一致。

最后，向前迭代，确定各母系统指标权重。重复以上步骤，直至第一层，得到第一层系统的综合评价值为:

$y_i^{(1,1)}(t_k) = \sum_{q=1}^{n_p} \omega_qy_{j}^{(2,q)}(t_k)$

非线性规划法

为了测算出某一段时间内测度值，需要对每个时刻的测度结果进行合成，而科学地设置时间权重向量 $\omega=(\omega_1,\omega_2,...,\omega_n)^T$ 是解决此问题的关键。基于信息熵指数的非线性规划法作为求解时间权重的方法之一，可以在区别不同时期重要程度的同时兼顾测度指标的重要性，从而避免过度追求拉开时序差异而导致的测度失灵。因此本文借用信息熵原理构造熵指数 $I$ ,并引入时间度 $\lambda$ 来刻画时间权向量之间的差异程度，其定义为:

$I = —\sum_{k=1}^{N} \omega_kln\omega_k$

$\lambda = \sum_{k=1}^{N} \frac{p—k}{p—1}\omega_k$

其中， $\omega_k$ 为时间权重向量， $N$ 为考查期年数，由式（7）可以看出，时间权重向量之间的差异越小，则 $I$ 越大；反之，差异越大， $I$ 越小。

时间度 $\lambda$ 反映的是对考查期时序的重视程度， $\lambda\in[0,1]$ ， $\lambda$ 越接近于0，表示测度过程越重视近期数据， $\lambda$ 越接近于1,表示测度过程越重视远期数据。

基于时间权重确立的原则，使得{ $\omega_k$ }差异最小，时间权重的确定就转化为了求解下述非线性规划问题:

$\max(—\sum_{k=1}^N\omega_k·ln\omega_k)\\ \mbox{s.t.}\begin{cases} \lambda=\sum_{k=1}^N\frac{N—k}{N—1}·\omega_k \\\sum_{k=1}^N\omega_k=1\quad\omega_k\in[0,1] \end{cases}$

TOWA-GA混合算子

根据上述非线性规划可以刻画出时序对测度结果的影响程度，为了更好地发挥时间权重在数据集结过程中的作用，本文引入TOWA-GA算子作为时序加权的测度模型。TOWA-GA算子是将时序加权平均（TOWA）算子和时序几何平均（TOWGA）算子组合使用的混合算子。以下给出两种时序集结算子的定义:

时序加权平均算子:令 $N=[1,2,...,n]$ ,定义 $<u_i,a_i>(i\in N)$ 为TOWA对， $u_i$ 为时间诱导分量， $a_i$ 为数据分量。则时序加权平均算子为:

$F = (<u_1,a_1>,...,<u_n,a_n>)=\sum_{j=1}^n\omega_jb_j$

其中， $\omega_j$ 表示第 $j$ 年的时间权重， $b_j$ 代表第 $j$ 年的评价值，则称函数 $F$ 是 $n$ 维时序加权平均算子，其值代表对时间加权后的评价值。

时序几何平均算子:令 $N=[1,2,...,n]$ ,定义 $<u_i,a_i>(i\in N)$ 为TOWGA对， $u_i$ 为时间诱导分量， $a_i$ 为数据分量。则时序几何平均算子为:

$G = (<u_1,a_1>,...,<u_n,a_n>)=\prod_{j=1}^nb_j^{\omega_j}$

其中， $\omega_j$ 表示第 $j$ 年的时间权重， $b_j$ 代表第 $j$ 年的评价值，则称函数 $G$ 是 $n$ 维时序几何平均算子，其值代表对时间加权后的评价值。

TOWA-GA混合算子:

$Y(<u_i,a_i>,...,<u_N,a_N>)=a_1F+a_2G$

则测度对象 $i$ 在考察期内的综合评价值为:

$Y_i=a_1F_i+a_2G_i$

$a_1=\frac{\sigma_1}{\sigma_1+\sigma_2}\quad\quad a_2=\frac{\sigma_2}{\sigma_1+\sigma_2}$

$\sigma=\sum(x_i—\overline{x})^2$

式中， $F_i$ 表示测度对象 $i$ 在考察期内的时序加权平均算子, $G_i$ 表示测度对象 $i$ 在考察期内的时序几何平均算子, $\sigma_1$ 与 $\sigma_2$ 分别代表时序加权平均算子与时序几何平均算子的离差平方和。

Dagum基尼系数及分解法

常见测度区域差异的方法主要有变异系数、综合熵指数（GE）、埃克森指数、Theil指数与Dagum基尼数等。其中，Theil指数和Dagum基尼系数与其他地方相比，可以将区域差异进行分解，Theil指数可以将区域差异分解为区域间差异与区域内差异，而Dagum基尼系数可以在此基础上进一步设别出超变密度对于总体地区差异的贡献，超变密度来源于不同的分组地区之间的交叉重叠现象。该方法对于不同分组间交叉重叠的考察势必会更加有利于完整测度区域差异对整体差异的贡献程度。因此，本文采用Dagum基尼系数分解法对不同区域科技转化能力差异分析。

$DagumG=\frac{\sum_{j=1}^k\sum_{h=1}^k\sum_{i=1}^{n_j}\sum_{r=1}^{n_h}|y_{ji}—y_{hr}|}{2n^2\overline{Y}}$

式中，DagumG表示整体基尼系数， $\overline{Y}$ 是不同区域所有测度对象科技产出能力测度值的平均值， $n$ 是测度对象的个数， $k$ 是区域划分组数, $y_{ji}(y_{hr})$ 是 $j(h)$ 地区内任意测度对象的科技转化能力测度值， $n_j(n_h)$ 为 $j(h)$ 区域内测度对象数量。

Dagum基尼系数可以分解成三部分:区域内差异贡献度 $G_\omega$ 、区域间差异贡献度 $G_{nb}$ 、超变密度贡献度 $G_\iota$ ，且 $G=G_\omega+G_{nb}+G_\iota$ 。计算公式如下:

$\begin{cases} G_{jj}=\frac{\frac{1}{2\overline{Y_j}}\sum_{i=1}^{n_j}\sum_{r=1}^{n_j}|y_{ji}—y_{jr}|}{n_j^2} \\G_\omega=\sum_{j=1}^kG_{jj}p_js_j \end{cases}$

$\begin{cases} G_{jh}=\frac{\sum_{i=1}^{n_j}\sum_{r=1}^{n_h}|y_{ji}—y_{hr}|}{n_jn_h(\overline{Y_j}+\overline{Y_h})} \\G_{nb}=\sum_{j—2}^k\sum_{h—1}^{j—1}G_{jh}(p_js_h+p_hs_j)D_{jh} \end{cases}$

$G_\iota=\sum_{j—2}^k\sum_{h—1}^{j—1}G_{jh}(p_js_h+p_hs_j)(1—D_{jh})$

式中， $G_{jj}$ 表示 $j$ 地区的基尼系数, $G_omega$ 表示 $j$ 地区内的差异贡献度； $G_{jh}$ 表示 $j$ 地区和 $h$ 地区间的基尼系数， $G_{nb}$ 表示 $j$ 地区和 $h$ 地区间超变净值差距的贡献度； $G_\iota$ 表示 $j$ 地区和 $h$ 地区间超变密度的贡献度。 $p_j=n_j/n$ ； $s_j=n_j\overline{Y_j}/n\overline{Y}$ ； $j=1,2,...,k$ ； $D_{jh}$ 为 $j$ 地区和 $h$ 地区之间科技转化能力的相对影响程度，其定义如下:

$D_{jh}=\frac{d_{jh}-p_{jh}}{d_{jh}+p_{jh}}$

对于连续的密度分布函数 $F_j(y)$ 和 $F_h(y)$ ， $d_{jh}$ 与 $p_{jh}$ 的计算公式如式（21）。

$\begin{cases} d_{jh}=\int_0^\infty dF_j(y)\int_0^y(y-x)dF_h(x) \\p_{jh}=\int_0^\infty dF_h(y)\int_0^{y}(y—x)dF_j(x) \end{cases}$

式中， $d_{jh}$ 为 $j$ 地区和 $h$ 地区之间科技转化能力测度值的差值，表示 $j$ 地区和 $h$ 地区中所有 $y_{jh}—y_{hr}>0$ 的样本值总和的加权平均； $p_{jh}$ 为超变一阶矩，表示 $j$ 地区和 $h$ 地区中所有 $y_{hr}—y_{ji}>0$ 的样本值总和的加权平均。

核密度估计方法

核密度估计方法是基于研究对象测度值分布特征的一种空间分析方法，作为研究空间非均衡的有效工具，其不仅对模型的依赖性较弱，稳健性强，还能够直观地反映出科技转化能力在空间的分散和集聚程度。该方法的测度结果主要反映了变量分布位置、形态以及延展性，其分别反映了科技转化能力的高低、区域差异大小与极化程度以及科技转化能力最高的测度对象与其他测度对象之间的差异，其公式如下所示:

$f(x)=\frac{1}{Nh}\sum_{{i}-1}^NK(\frac{{X_i}-\overline{x}}{h})$

$K(x)=\frac{1}{\sqrt{2\pi}}exp(\frac{-{x}^2}{2})$

其中， $f(x)$ 代表核密度值； $N$ 是评价区域观测值的个数； $X_i$ 为独立分布的观测值； $\overline{x}$ 为观测均值； $h$ 为自定义带宽； $K(x)$ 为核函数。带宽 $h$ 的设置与核函数 $K(x)$ 的选取是影响核密度估计结果的两个重要因素。带宽 $h$ 的大小影响核密度估计的精度， $h$ 越小，精确度越高，因此，在实际操作中应当尽可能小地设置带宽以减小估计误差。核函数通常包含三角核函数、四角核函数、Epanechnikov核函数及高斯核函数等，本文采用广泛使用的高斯核函数来进行空间核密度估计。

newplot.png

====持续更新====