这里主要回顾统计学习方法的部分基本概念,主要内容总结自李航老师的《统计学习方法》,供自己和大家回顾。
统计学习方法概论
统计学习方法是关于计算机基于数据构建概率统计模型并运用有模型对数据进行预测与分析的一门学科,
也被称为统计机器学习(statistical machine learning)
基本概念
- 输入空间、特征空间与输出空间
- 联合概率分布
监督学习假设输入与输出的随机变量$X$和$Y$遵循联合概率分布$P(X,Y)$。训练数据与测试数据被看做是依联合概率分布$P(X,Y)$独立同分布产生的。 - 假设空间
假设空间是输入空间到输出空间的映射的集合,如神经网络中权重参数的集合,或概率分布的参数;
三要素
统计学习方法的三要素如下
其中:
模型
模型指的是学习过程中,所要学习的条件概率分布或者决策函数,模型的假设空间包含苏有可能的条件概率分布或决策函数;
策略
策略指的是在模型的假设空间,按照什么样的准则学习或选择最优的模型,比如在学习的过程中选择了MSE作为损失函数;
- 损失函数与风险函数
损失函数记为$L(Y,f(X))$,损失函数在联合分布$P(X,Y)$下,期望为成为风险函数或期望损失,而学习的目标就是选择期望风险最小的模型。对训练集的平均损失称为经验风险,当样本量N趋于无穷时,经验风险趋于期望风险,所以自然的想法是利用经验风险估计期望风险。 - 经验风险最小化和结构风险最小化
当样本量足够大的时候,经验风险最小化可以保证有很好的学习效果;但是,当样本容量很小时,经验风险最小化会出现“过拟合”现象,这个时候就需要结构风险最小化,相当于是正则化,结构风险定义为:
算法
算法是指学习模型的具体计算方法,就是用什么样的计算方法求解最优模型,如梯度下降算法。
正则化与交叉验证
- 正则化
正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大 - 交叉验证
- 简单交叉验证:如训练验证73分
- KFold交叉验证
泛化能力
指的是对位置数据的预测能力,是学习方法重要的属性。
生成模型和判别模型
生成方法
- 由数据学习联合概率分布$P(X,Y)$
- 然后求出条件概率分布:$P(Y|X)=\frac{P(X,Y)}{P(X)}$
常见的生成模型如朴素贝叶斯、隐马尔科夫等
判别模型
由数据直接学习决策函数f(x)或P(Y|X)。常见的判别模型如knn,感知机,决策树,提升法等
分类问题
输出的变量Y取有限个离散值为分类问题。
评价指标
- $precision=\frac{TP}{TP+FP}$
- $recall=\frac{TP}{TP+FN}$
- $accuracy=\frac{TP+TN}{ALL}$
- $F_{1}=\frac{2TP}{2TP+FP+FN}$
标注问题
输入序列,输出序列
回归问题
输出连续值,常用的损失函数是平方损失函数