朴素贝叶斯是基于贝叶斯定理和特征条件独立的分类方法,对于给定的训练集,基于特征条件独立假设,学习输入/输出的联合概率分布,然后基于此分布,对给定的$x$,利用贝叶斯定理求出后验概率最大的输出$y$。
朴素贝叶斯
朴素贝叶斯是基于贝叶斯定理和特征条件独立的分类方法,对于给定的训练集,基于特征条件独立假设,学习输入/输出的联合概率分布,然后基于此分布,对给定的x,利用贝叶斯定理求出后验概率最大的输出y。贝叶斯方法实现简单,学习与预测效率高,是一种常用的方法。
朴素贝叶斯法的学习与分类
基本方法
设训练集T,通过学习联合概率分布$P(x,y)$,具体地,学习以下先验概率分布及条件概率分布。
先验概率分布:
条件概率分布:
又因为朴素贝叶斯假设特征之间条件独立,故上式又可以写成:
朴素贝叶斯假设条件独立,这使得方法变得简单,但是会损失一定的分类准确率。对于给定的输入x,计算后验概率分布$P(Y=c_{k}|X=x)$,将后验概率最大的类作为x的类输出。
最后,关于y的取值,取后验概率最大的作为预测的类:
同时地,后验概率最大等价于期望风险最小。
朴素贝叶斯法的参数估计
极大似然估计
通过提供的训练数据,先验概率$P(Y=c_{k})$的极大似然估计是
假设第j个特征$x_{j}$可能的取值是
那么它的条件概率的极大似然估计是:
其中,j表示第j个特征,l表示第j个特征的第l个取值,k表示y的第k个值。
学习与分类算法
我们看一下具体的算法:
具体例子可以参考《统计学习方法》的第52页例4.2。