The Exponential Family

给定参数 η\eta, 指数族定义为

p(xη)=h(x)g(η)exp{ηTu(x)}p(\mathbf{x}|\eta) = h(\mathbf{x})g(\eta)\exp\left\{\eta^{\mathrm{T}}\mathbf{u}(\mathbf{x}) \right\}

这里 x\mathbf{x} 可以是标量或向量, 也可以是离散或连续的, g(η)g(\eta) 是分布归一化系数

以伯努利分布举例

p(xμ)=μx(1μ)1x=exp{xlnμ+(1x)ln(1μ)}=(1μ)exp{ln(μ1μ)}\begin{aligned} p(x|\mu) &= \mu^x(1-\mu)^{1-x} \\ &= \exp\left\{x\ln\mu+(1-x)\ln(1-\mu) \right\}\\ &= (1-\mu)\exp\left\{\ln\left(\frac{\mu}{1-\mu} \right) \right\} \end{aligned}

这里 η=lnμ1μ\eta = \ln \frac{\mu}{1-\mu}, 所以 g(η)=11+exp(η)g(\eta) = \frac{1}{1+\exp(-\eta)}, h(x)=1h(x) = 1, u(x)=xu(x)=x

再以二项分布举例

p(xμ)=k=1Mμkxk=exp{k=1Mxklnμk}p(\mathbf{x}|\mu) = \prod_{k=1}^M \mu_k ^{x_k} = \exp \left\{\sum_{k=1}^M x_k \ln \mu_k \right\}

这里 u(x)=x\mathbf{u}(\mathbf{x}) = \mathbf{x}, h(x)=1h(\mathbf{x}) = 1, g(η)=1g(\eta) = 1.

在上面二项分布的例子里, 可以用 μ1\mu_1μM1\mu_{M-1} 来表示 μM\mu_M

限制条件更严格的情况下, 我们假设u(x)=x\mathbf{u}(\mathbf{x})=\mathbf{x}, 这种假设可以通过归一化来实现 1sf(1sx)\frac{1}{s}f\left(\frac{1}{s}\mathbf{x} \right), 这里 f(x)f(\mathbf{x}) 是归一化函数, ss 是尺度参数. 基于此, 得到首先的指数族类条件密度形式

p(xλk,s)=1sh(1sx)g(λk)exp{1sλkTx} p(\mathbf{x}|\lambda_k, s) = \frac{1}{s}h\left(\frac{1}{s}\mathbf{x} \right)g(\lambda_k)\exp\left\{\frac{1}{s}\lambda_k^{\mathrm{T}}\mathbf{x} \right\}

Sufficient statistics

用最大似然法来估计广义指数族分布, 最后得到

lng(ηML)=1Nn=1Nu(xn) -\\ln g(\eta_{\mathrm{ML}}) = \frac{1}{N}\sum_{n=1}^N\mathbf{u}(\mathbf{x}_n)

最大似然估计的解依赖于 nuxn\sum_n\mathbf{u}\mathbf{x}_n, 这也称为分布的充分统计量. 所以我们无需存储整个数据集, 仅需存储充分统计量的值就能估计分布

Nonparametric Methods

本章讨论的分布大多有特定函数形式, 其局限性是所选择的密度模型可能无法很好地描述生成数据的分布, 从而导致预测性能不佳 所以我们也考虑一些非参数化的密度估计方法,

Histograms

直方图, 最主要维度扩展性差

Kernel densities

假设有 NN 个观测值, 有 KK 个点落在半径为 R\mathbb{R} 的圆上, VVRR 的体积, 且分布符合二项分布, 每个点落在该区域的概率为 PP. 固定 KK 确定 VV, 这是 KK 近邻; 固定 VV 并根据数据确定 KK, 这是核方法.

Nearest-neighbours

Single-layer Networks: Regression

Linear Regression