第二章 机器学习概述
基本概念
1、特征 or 属性:x,特征向量
2、标签 y
3、数据集、训练集、测试集
4、函数 f
三要素
机器学习算法类型
评价指标
1、准确率,错误率 准确率+错误率 = 1
2、精确率和召回率(对每个类进行性能估计)
模型在测试集的结果分为以下四类:
- 真正例:TP,实际为c,预测为c
- 假负例:FN,实际为c,预测为其他
- 假正例:FP,实际为其他,预测为c
- 真负例:TN,实际为其他,预测为其他
精确率:所有预测为类别c(P)中正确的比例:TPc/(TPc+FPc)
召回率:所有真实类别为c中正确的比例:TPc/(TPc + FNc)
3、F值:综合指标,召回率和精确率的调和平均
4、宏平均:每一类性能指标的算术平均、微平均:每一个样本的性能指标的算数平均
5、交叉验证:原始数据集均分为K组不重复子集,每次选择k-1作为训练集,剩下一组作为验证集。从而进行K次训练,得到K组模型,将k个模型在各自验证集上的错误率的平均作为分类器的评价。