朴素贝叶斯是基于贝叶斯定理和特征条件独立的分类方法，对于给定的训练集，基于特征条件独立假设，学习输入/输出的联合概率分布，然后基于此分布，对给定的$x$，利用贝叶斯定理求出后验概率最大的输出$y$。

朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理和特征条件独立的分类方法，对于给定的训练集，基于特征条件独立假设，学习输入/输出的联合概率分布，然后基于此分布，对给定的x，利用贝叶斯定理求出后验概率最大的输出y。贝叶斯方法实现简单，学习与预测效率高，是一种常用的方法。

朴素贝叶斯法的学习与分类

基本方法

设训练集T，通过学习联合概率分布$P(x,y)$，具体地，学习以下先验概率分布及条件概率分布。

先验概率分布：
$P(Y=c_{k})$
条件概率分布：
$P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}|Y=c_{k})$

又因为朴素贝叶斯假设特征之间条件独立，故上式又可以写成：

$P(X=x|Y=c_{k})=\prod_{j=1}^n P(X=x^{(j)}|Y=c_{k})$

朴素贝叶斯假设条件独立，这使得方法变得简单，但是会损失一定的分类准确率。对于给定的输入x，计算后验概率分布$P(Y=c_{k}|X=x)$，将后验概率最大的类作为x的类输出。

$\begin{eqnarray} P(Y=c_{k}|X=x) &=& \frac{P(X=x|Y=c_{k})P(Y=c_[k])}{P(X=x)} \\ &=& \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum_{k} P(X=x|Y=c_{k})P(Y=c_{k})} \\ &=& \frac{P(Y=c_{k})\prod_{j} P(X^{(j)}=x^{(j)}|Y=c_{k})P(Y=c_{k})}{\sum_{k} P(Y=c_{k}) \prod_{j} P(X^{(j)}=x^{(j)}|Y=c_{k})} \end{eqnarray}$

最后，关于y的取值，取后验概率最大的作为预测的类：

$y=\arg\max_{c_{k}} P(Y=c_{k}|X=x)$

同时地，后验概率最大等价于期望风险最小。

朴素贝叶斯法的参数估计

极大似然估计

通过提供的训练数据，先验概率$P(Y=c_{k})$的极大似然估计是

$P(Y=c_{k})=\frac{\sum_{i=1}^N I(y_{i}=c_{k})}{N} ,k=1,2,...,K$

假设第j个特征$x_{j}$可能的取值是

${a_{j1}, ...,a_{jS_{j}}}$

那么它的条件概率的极大似然估计是：

$P(X^{(j)}=a_{il}|Y=c_{k})=\frac{\sum_{i=1}^N I(x_{i}^{(j)}=a_{il},y_{i}=c_{k})}{\sum_{i=1}^N I(y_{i}=c_{k})}$

其中，j表示第j个特征，l表示第j个特征的第l个取值，k表示y的第k个值。

学习与分类算法

我们看一下具体的算法：

具体例子可以参考《统计学习方法》的第52页例4.2。

朴素贝叶斯方法