[PRML翻译] 数学符号

我已经确保尽可能少的在本书中引入数学概念,将他们保持在最低限度。然而,最低限度不等于没有,熟练掌握微积分、线性代数以及概率论对理解现代模式识别与机器学习技术至关重要。虽说如此,本书的重点在于阐述底层概念,而非确保数学上的严谨。

书中我尽量使用一套统一的符号体系,虽然这可能会违反相关研究文献中的一些惯例。向量使用小写粗体罗马字符,例如 $ \mathbf{x} $,所有的向量都是列向量。上标 $ \mathrm{T} $ 代表矩阵或向量的转置,因此 $ \mathbf{x}^\mathrm{T} $ 为行向量。大写粗体罗马字符,例如 $ \mathbf{M} $,代表矩阵。$ (w_1, \dots, w_M) $ 代表拥有 $ M $ 个元素的行向量,对应的列向量写成 $ \mathbf{w} = (w_1, \dots, w_M)^\mathrm{T} $

$ [a, b] $ 表示从 $ a $$ b $ 的闭区间,即:区间包含 $ a $$ b $ 本身;相应的开区间由 $ (a, b) $ 表示,代表区间不包含 $ a $$ b $。类似的,$ [a, b) $ 表示一个区间包含 $ a $ 但不包含 $ b $。虽然大多数时候不必在乎区间是否包含端点。

$ M \times M $ 的单位矩阵写成 $ \mathbf{I}_M $,在维度不会引起误解的情况下也简写成 $ \mathbf{I} $。单位矩阵中的元素 $ I_{ij} $$ i = j $ 时为 $ 1 $,其余为 $ 0 $

泛函写作 $ f[y] $,其中 $ y(x) $ 为某函数。泛函的概念在附录 D 中详细讨论。

符号 $ g(x) = O(f(x)) $ 表示 $ |f(x) / g(x)| $$ x \rightarrow \infty $ 时有界。例如对 $ g(x) = 3x^2 + 2 $$ g(x) = O(x^2) $

函数 $ f(x, y) $ 对随机变量 $ x $ 的期望写作 $ \mathbb{E}_x[f(x, y)] $。在被求取期望的随机变量不引起误解的情况下,有时也省略下标,例如 $ \mathbb{E}[x] $。如果 $ x $ 条件分布于另一随机变量 $ z $,则对应的条件期望写作 $ \mathbb{E}_x[f(x)|z] $。类似的,方差记作 $ \mathrm{var}[f(x)] $,对向量变量,协方差写作 $ \mathrm{cov}[\mathbf{x}, \mathbf{y}] $。我们也会将 $ \mathrm{cov}[\mathbf{x}, \mathbf{x}] $ 简写为 $ \mathrm{cov}[\mathbf{x}] $。期望与协方差的概念将在 1.2.2 节介绍。

如果有 $ N $$ D $ 维向量 $ \mathbf{x} = (x_1, \dots, x_D)^\mathrm{T} $, 记作 $ \mathbf{x}_1, \dots, \mathbf{x}_N $。我们可以将其整合为一个数据矩阵 $ \mathbf{X} $,其中第 $ n $ 行对应行向量 $ \mathbf{x}_n^\mathrm{T} $。因此,矩阵 $ \mathbf{X} $ 的第 $ n $$ i $ 列的元素对应第 $ n $ 个观测 $ \mathbf{x}_n $ 中的第 $ i $ 个元素。对 $ 1 $ 维变量来说,对应的数据矩阵记为 $ \boldsymbol{\mathsf{x}} $,其实际是一个列向量,第 $ n $ 个元素是 $ x_n $。注意,$ \boldsymbol{\mathsf{x}} $$ N $ 维)使用了不同的字体以区分 $ \mathbf{x} $$ D $ 维)。