第二章 机器学习概述

基本概念

1、特征 or 属性:x,特征向量

2、标签 y

3、数据集、训练集、测试集

4、函数 f

三要素

01

机器学习算法类型

02

评价指标

1、准确率,错误率 准确率+错误率 = 1

2、精确率和召回率(对每个类进行性能估计)

模型在测试集的结果分为以下四类:

  • 真正例:TP,实际为c,预测为c
  • 假负例:FN,实际为c,预测为其他
  • 假正例:FP,实际为其他,预测为c
  • 真负例:TN,实际为其他,预测为其他

精确率:所有预测为类别c(P)中正确的比例:TPc/(TPc+FPc)

召回率:所有真实类别为c中正确的比例:TPc/(TPc + FNc)

3、F值:综合指标,召回率和精确率的调和平均

03

4、宏平均:每一类性能指标的算术平均、微平均:每一个样本的性能指标的算数平均

5、交叉验证:原始数据集均分为K组不重复子集,每次选择k-1作为训练集,剩下一组作为验证集。从而进行K次训练,得到K组模型,将k个模型在各自验证集上的错误率的平均作为分类器的评价。

评论