泛函分析

2021-01-24  本文已影响0人  山岳之心

泛函分析

2.1 函数的定义

在理解泛函之前,我们首先需要重新审视函数这个基本概念。

函数可以说是在基本的分析问题中最常见的基本概念了。绝大多数人不会严格去思考函数的意义,而习惯于被动地使用它们。但理解函数本身对于理解泛函是有很大的帮助的。所以我们先从数学上严格定义函数。

我们知道,函数有自变量和因变量。函数的自变量可以用基本的向量
\vec{x}=\left\{ x_{1},x_{2},x_{3},\cdots,x_{N}\right\}
来表示。而函数f(\vec{x})则是向量空间
\mathcal{F}_{\vec{x}}=\vec{e}_{x_{1}}\otimes\vec{e}_{x_{2}}\otimes\vec{e}_{x_{3}}\otimes\cdots\otimes\vec{e}_{x_{N}}上的映射。这里的两个数学符号需要解释一下。\vec{e}_{x_{1}} 数学上叫做基矢,它的意义是x_{1}这个方向上的单位向量,它的长度为1,方向指向x_{1}方向。\otimes则是“直积”的意思,引入它的目的是为了扩展向量的涵义。向量本质上是一维的量,通过直积,就可以构建二维的,三维的乃至任意维度的有方向的量。实际上,可以将它看作构建坐标轴的代数表述。因为几何上构造坐标轴非常简单,就是画出来。但代数上则比较抽象。举个例子,如果存在多个方向,比如三维空间\mathbb{R}^{3},就存在\left\{ x,y,z\right\} 三个方向
\left\{ \vec{e}_{x},\vec{e}_{y},\vec{e}_{z}\right\},那么
\mathcal{F}_{\mathbb{R}^{3}}=\vec{e}_{x}\otimes\vec{e}_{y}\otimes\vec{e}_{z}就代表了三维坐标轴。因此(\ref{eq:vectorspace}) 就表示N维空间中的坐标轴。函数的作用是将\mathcal{F}_{\vec{x}} 映射到指定的空间\mathcal{V}_{\vec{y}}, 即
f\quad:\mathcal{F}_{\vec{x}}\longmapsto\mathcal{V}_{\vec{y}}
这种数学定义看起来比较难懂,但实际上很多概念都是从这个简单的函数定义延伸出来的。

既然是表述方向,那么向量空间\mathcal{F}_{\vec{x}} 的各个方向的分量就必须是“正交归一的”。正交归一性包含两重含义,其一是“正交性”,它表示对于任意两个不同的方向矢量\vec{e}_{x_{i}},\vec{e}_{x_{j}}, 它们都是互相垂直的。数学上的表示是内积为零
\vec{e}_{i}\cdot\vec{e}_{j}=0,\quad\forall i,j\in\left(1,2,3,\cdots,N\right),\quad i\neq j
在这里我们将\vec{e}_{i}\equiv\vec{e}_{x_{i}} , 是一种约定俗称的缩写记号。

内积为零这个正交性要求是非常重要的。因为如果两个不同方向的方向矢量内积不为零,就会导致在一个方向上的变化会影响另一个方向,物理上这种问题叫做量子纠缠态。这种纠缠问题在分析上就会造成非常严重的困难,原本的简单线性问题就会极其复杂,而且本质上无法完全求解。很多人学到无监督学习的时候会使用PCA方法来降维,但是不明白为什么要降维。实质上根本原因就是要让基矢尽可能正交化。另外,对于监督学习来说,如果选取的特征(features)不佳,就会选到高度相关的多个特征,这同样对于算法来说是一个灾难性的选择。虽然说矩阵计算可以做到将这些相关性较高的特征主值求逆,但最终学习结果仍然是泛化能力很差。

内积为零几何上代表的是互相垂直,但是内积的代数表述到底是什么呢?其实很简单,对于方向矢量来说,总可以表示成一个行矩阵或者列矩阵。我们习惯上使用列矩阵。比如在第5个方向上的方向矢量,用矩阵表述就是
\vec{e}_{5}=\left(\begin{array}{c} 0\\ 0\\ 0\\ 0\\ 1\\ \vdots\\ 0\\ 0 \end{array}\right)\equiv E_{5}
其中E_{5}表示我们在使用矩阵表示。那么\vec{e}_{5}\cdot\vec{e}_{3}如何用矩阵表达呢?很简单
\vec{e}_{5}\cdot\vec{e}_{3}=E_{5}^{\,\,T}E_{3}=\left(\begin{array}{cccccccc} 0 & 0 & 0 & 0 & 1 & \cdots & 0 & 0\end{array}\right)\left(\begin{array}{c} 0\\ 0\\ 1\\ 0\\ 0\\ \vdots\\ 0\\ 0 \end{array}\right)=0这里的E_{5}的上指标T 表示矩阵的转置(transpose),它将一个(n,m)矩阵逆时针旋转90度,转成一个(m,n)矩阵。在上面的例子中,它将E_{5}这个(N,1)列矩阵转成了一个(N,1)行矩阵。

至于“归一性”,实质上就是说方向矢量的长度是1。这个定义也可以用内积或者矩阵乘法来表示。即,\vec{e}_{i}\cdot\vec{e}_{i}=E_{i}^{\,\,T}E_{i}=1,\forall i\in(1,2,3,\cdots,N)这个归一性在线性回归分析中就体现为要对所有的特征做标度变换操作。比如通过房屋的大小,房间的数量等特征来预测房屋的价格。房屋的大小一般接近100平方米,而房间数一般只有2到5个。那么如果不进行归一化操作,采取同样的递归速率就会导致在“大小”这个特征上的回归速率比在“房间数”这个特征上的回归速率慢20到50倍,这显然是极大的浪费算力。

回到函数的定义上来,函数实质上是定义了从定义域到值域(两者都是向量空间)的映射。如果函数是映射到具体的数的,那么这样的函数就是标量函数。如果函数是映射到向量的,那么就是一个矢量函数。如果函数是映射到值域上的张量的,那么就是张量函数。如果我们的函数是标量函数。那么在坐标轴空间画出来,就是一根曲线或者一个曲面或者一个复杂的几何体。但无论这个几何体多复杂,它上面每一个点都可以用
\left\{ x_{1},x_{2},\cdots,x_{N}\right\} 标记它的位置。用y=f(\vec{x}) 标记它的值。如果对于定义域有取值范围,比如0到1之间,那么得到的值域也就同样是受到约束的。如果手动限制一个函数,可以采用如下的常见定义:
f(\vec{x})=\cdots,\quad\left(x_{1},x_{2},\cdots,x_{N}\right)\in g_{constraint}(\vec{x})=0g_{constraint}(\vec{x})
是约束函数,它限定了定义域的区间。

这样引入约束的办法很机械,而且对于计算机来说,事先定义出约束是很困难的。所以有没有一种“自动化”引入约束的办法?实际上当然存在这样的办法,我们将上面的式子改写成
f_{\lambda}(\vec{x})\equiv min_{\lambda}\left(f(\vec{x})+\lambda(g_{constraint}(\vec{x}))\right)
这样,要使得上式取极值,就必须有
\frac{df_{\lambda}(\vec{x})}{d\lambda}=0这恰好就给出了约束方程
g_{constraint}(\vec{x})=0.这种引入约束的方法在泛函的分析中尤为重要,它一般被称作拉格朗日乘子法。

对于矢量函数或者张量函数,定义域中每一个位置除了定义出了值域中的一个数值之外,还定义出了在这个数值上的方向。这样定义出来的“东西”几何上已经不是曲线,曲面或者某个怪异几何体了。它有个非常数学化的称呼:纤维丛。关于纤维丛的概念,已经超出了本文的讨论范围,暂时不表。

上一篇 下一篇

猜你喜欢

热点阅读