朴素贝叶斯方法

  朴素贝叶斯是基于贝叶斯定理和特征条件独立的分类方法,对于给定的训练集,基于特征条件独立假设,学习输入/输出的联合概率分布,然后基于此分布,对给定的$x$,利用贝叶斯定理求出后验概率最大的输出$y$。

朴素贝叶斯

  朴素贝叶斯是基于贝叶斯定理和特征条件独立的分类方法,对于给定的训练集,基于特征条件独立假设,学习输入/输出的联合概率分布,然后基于此分布,对给定的x,利用贝叶斯定理求出后验概率最大的输出y。贝叶斯方法实现简单,学习与预测效率高,是一种常用的方法。

朴素贝叶斯法的学习与分类

基本方法

  设训练集T,通过学习联合概率分布$P(x,y)$,具体地,学习以下先验概率分布及条件概率分布。

先验概率分布:

条件概率分布:

  又因为朴素贝叶斯假设特征之间条件独立,故上式又可以写成:

朴素贝叶斯假设条件独立,这使得方法变得简单,但是会损失一定的分类准确率。对于给定的输入x,计算后验概率分布$P(Y=c_{k}|X=x)$,将后验概率最大的类作为x的类输出。

  最后,关于y的取值,取后验概率最大的作为预测的类:

同时地,后验概率最大等价于期望风险最小。

朴素贝叶斯法的参数估计

极大似然估计

  通过提供的训练数据,先验概率$P(Y=c_{k})$的极大似然估计是

假设第j个特征$x_{j}$可能的取值是

那么它的条件概率的极大似然估计是:

其中,j表示第j个特征,l表示第j个特征的第l个取值,k表示y的第k个值。

学习与分类算法

  我们看一下具体的算法:

  具体例子可以参考《统计学习方法》的第52页例4.2。

enjoy it!

0%