机器学习10:集成学习

追求适度,才能走向成功;人在顶峰,迈步就是下坡;身在低谷,抬足既是登高;弦,绷得太紧会断;人,思虑过度会疯;水至清无鱼,人至真无友,山至高无树;适度,不是中庸,而是一种明智的生活态度。

导读:本篇文章讲解 机器学习10:集成学习,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com,来源:原文

作者:非妃是公主
专栏:《机器学习》
个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩
在这里插入图片描述

专栏地址

《机器学习》专栏地址

专栏系列文章

机器学习01:绪论

机器学习02:模型评估

机器学习03:线性回归与多分类学习

机器学习04:支持向量机

机器学习05:神经网络学习

机器学习06:决策树学习

机器学习07:贝叶斯学习

机器学习08:最近邻学习

机器学习09:无监督学习

机器学习10:集成学习

机器学习11:代价敏感学习

机器学习12:演化学习

集成学习基础知识

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。
有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning) 等。
集成学习先产生一组“个体学习器” (individual learner) ,再用某种策略将它们结合起来。
集成学习分同质集成和异质集成。同质集成中的个体学习器由相同的学习算法生成,个体学习器称为基学习器;异质集成中的个体学习器由不同的学习算法生成,个体学习器称为组件学习器。
集成学习要显著优于单一个体学习器必须满足两个必要条件:
1)个体学习器之间应该是相互独立的;
2)个体学习器应当好于随机猜测学习器。
满足第2个条件往往比较容易,因为在现实任务中,出于种种考虑,比如希望使用较少的个体学习器,或者是希望重用关于常见学习器的一些经验等,人们往往会使用比较强的个体学习器。
满足第1个条件往往比较困难,个体学习器是为解决同一个问题训练出来的,显然不可能互相独立!事实上,个体学习器的“准确性”和“多样性”本身就存在冲突。一般的,准确性很高之后,要增加多样性就需要牺牲准确性。
因此,如何产生“好而不同”的个体学习器是集成学习研究的核心!

集成学习常用方法

那么,如何在保持个体学习器足够“好”的前提下增强多样性呢?一般的思路是在学习过程中引入随机性,常用方法主要包括:

训练样本扰动

在这里插入图片描述

输入属性扰动

在这里插入图片描述

输出标记扰动

在这里插入图片描述

算法参数扰动

在这里插入图片描述

混合扰动

在这里插入图片描述

集成学习结合策略

在这里插入图片描述
在这里插入图片描述

偏差与方差

在这里插入图片描述
偏差:学习算法的误差率
方差:在改变数据集后,学习算法误差率的方差
在这里插入图片描述
随着模型复杂度的提高,我们可以发现以下特点:
在模型复杂度较低的情况下,偏差是很大的;
而在模型复杂度较高的情况下,方差是很大的;
我们想通过集成学习来实现方差+偏差的最小,即途中虚线的位置。

个人理解:误差较大、方差较小,模型复杂度低,其实就是出现了过拟合;
误差较小、方差较大,模型复杂度高,其实就是出现了欠拟合。
我们要找的就是过拟合和欠拟合之间的某个平衡点。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/130531.html

(0)
飞熊的头像飞熊bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!