机器学习10：集成学习

飞熊 • 2023年4月6日下午12:53 • 后端笔记 • 阅读 218

作者：非妃是公主
专栏：《机器学习》
个性签：顺境不惰，逆境不馁，以心制境，万事可成。——曾国藩

专栏地址

《机器学习》专栏地址

专栏系列文章

机器学习01：绪论

机器学习02：模型评估

机器学习03：线性回归与多分类学习

机器学习04：支持向量机

机器学习05：神经网络学习

机器学习06：决策树学习

机器学习07：贝叶斯学习

机器学习08：最近邻学习

机器学习09：无监督学习

机器学习10：集成学习

机器学习11：代价敏感学习

机器学习12：演化学习

文章目录

专栏地址

专栏系列文章

集成学习基础知识

集成学习常用方法

训练样本扰动

输入属性扰动

输出标记扰动

算法参数扰动

混合扰动

集成学习结合策略

偏差与方差

集成学习基础知识

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。
有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning) 等。
集成学习先产生一组“个体学习器” (individual learner) ，再用某种策略将它们结合起来。
集成学习分同质集成和异质集成。同质集成中的个体学习器由相同的学习算法生成，个体学习器称为基学习器；异质集成中的个体学习器由不同的学习算法生成，个体学习器称为组件学习器。
集成学习要显著优于单一个体学习器必须满足两个必要条件：
1）个体学习器之间应该是相互独立的；
2）个体学习器应当好于随机猜测学习器。
满足第2个条件往往比较容易，因为在现实任务中，出于种种考虑，比如希望使用较少的个体学习器，或者是希望重用关于常见学习器的一些经验等，人们往往会使用比较强的个体学习器。
满足第1个条件往往比较困难，个体学习器是为解决同一个问题训练出来的，显然不可能互相独立！事实上，个体学习器的“准确性”和“多样性”本身就存在冲突。一般的，准确性很高之后，要增加多样性就需要牺牲准确性。
因此，如何产生“好而不同”的个体学习器是集成学习研究的核心！