The Exponential Family
给定参数 η, 指数族定义为
p(x∣η)=h(x)g(η)exp{ηTu(x)}
这里 x 可以是标量或向量, 也可以是离散或连续的, g(η) 是分布归一化系数
以伯努利分布举例
p(x∣μ)=μx(1−μ)1−x=exp{xlnμ+(1−x)ln(1−μ)}=(1−μ)exp{ln(1−μμ)}
这里 η=ln1−μμ, 所以 g(η)=1+exp(−η)1, h(x)=1, u(x)=x
再以二项分布举例
p(x∣μ)=k=1∏Mμkxk=exp{k=1∑Mxklnμk}
这里 u(x)=x, h(x)=1, g(η)=1.
在上面二项分布的例子里, 可以用 μ1 到 μM−1 来表示 μM
限制条件更严格的情况下, 我们假设u(x)=x, 这种假设可以通过归一化来实现 s1f(s1x), 这里 f(x) 是归一化函数, s 是尺度参数. 基于此, 得到首先的指数族类条件密度形式
p(x∣λk,s)=s1h(s1x)g(λk)exp{s1λkTx}
Sufficient statistics
用最大似然法来估计广义指数族分布, 最后得到
−lng(ηML)=N1n=1∑Nu(xn)
最大似然估计的解依赖于 ∑nuxn, 这也称为分布的充分统计量. 所以我们无需存储整个数据集, 仅需存储充分统计量的值就能估计分布
Nonparametric Methods
本章讨论的分布大多有特定函数形式, 其局限性是所选择的密度模型可能无法很好地描述生成数据的分布, 从而导致预测性能不佳 所以我们也考虑一些非参数化的密度估计方法,
Histograms
直方图, 最主要维度扩展性差
Kernel densities
假设有 N 个观测值, 有 K 个点落在半径为 R 的圆上, V 是 R 的体积, 且分布符合二项分布, 每个点落在该区域的概率为 P. 固定 K 确定 V, 这是 K 近邻; 固定 V 并根据数据确定 K, 这是核方法.
Nearest-neighbours
Single-layer Networks: Regression
Linear Regression