机器学习笔记-08

June

发布于：Sep 9, 2020

Semi-supervised Learning 半监督学习

对应视频BV13x411v7US P23

1、初始化模型参数后，计算每一个没有标记数据的后验概率，看看是输入哪一类别。

2、利用已经得到的数据，再次更新模型的参数（协方差、均值等）

3、反复第一步第二步，理论上模型最后会收敛。

1、我们通过标记数据的得到的模型，用来计算未标记的数据，这时候得到的对应的y是一些分布（distribution），这个分布越偏向某一类是越好的分布。判断分布的好坏可以利用信息熵来计算。信息熵为0是好的，信息熵很大的是不好的。

2、根据这个假设可以重新设置loss函数。

全新的loss函数由两部分组成：第一部分对应的是labelled data，计算模型中的y值和实际的y值的距离；第二部分对应的是unlabeled data，计算信息熵让其最小化。

假设：对于相似的X，Y值假设是一样的
详细：1、x是不平均的，在某些地方集中，在某些地方分散。
2、当x1,x2在高密度的地方是接近的，y1与y2假设是一样的。

x1,x2更偏向于有相同的y。

通过图的连通性，反映两个点之间的相似性。

定量表示smoothness

s的值越小，表示越光滑

根据该假设又可以重新定义Loss函数

机器学习笔记-09

Unsupervised Learning 无监督学习对应视频BV13x411v7US P24 化繁为简输入比较复杂的input，得到比较简单的output 拥有的训练data，只有in...

机器学习笔记-07

Recurrent Neural Network(RNN)对应视频：p20-p21 基本架构Elman Network 橙、绿、黄构成一个前馈神经网络，蓝色保存了中间层的输出内容。三个前...