聊聊机器学习KNN理论实现的思考

小半 • 2024年3月18日下午7:47 • 后端笔记 • 阅读 311

KNN详述

以KNN理论模型为例：

给定一个新样本点时，只需要在训练集中找到距离最近的 k 个样本点，按照一定的决策规则得到新样本点的预测结果。

整个预测过程由三个基本要点组成，分别是：距离、k 值、决策规则。

距离

距离的定义中常见的有欧式距离（Euclidean distance），也被称为 2-范数距离；向量点积；cos余弦值等。

K值

一般 k 值会取一个相对较小的值，并通过交叉验证的方式得到一个最优的 k 值。

决策规则

决策规则一般是采用“少数服从多数”的思想。对于分类问题，这 k 个最近的样本中分类最多的类型即为该新样本点的类型；对于回归问题，将这 k 个最近的样本对应的标签值进行平均即为该新样本点的预测值。

算法内容

保存训练集
查询最近的 k 个样本点
返回这 k 个样本点的标签平均值或返回这 k 个样本点分类最多的类型

可以看到算法中最核心的方法就是查询最近的 k 个样本点，其中一个最简单的方法就是线型扫描，即遍历整个训练集进行搜索，但当训练集中的样本数过大时，该方式需要对每一个训练样本计算距离，往往过于耗时，这时可以考虑使用一个数据结构来组织并存储一开始的训练集，在搜索阶段减少对距离的计算次数，以达到快速检索的目的。

数据结构&算法

通过某种数据结构&算法解决数据查询的问题；即组织原始数据集，加速后续的查询。

K-D Tree

K-D树（K-Dimensional Tree），全称为K维空间中的划分数据结构，是一种在k维空间中存储k维数据点的数据结构，常用于多维空间的查询，比如在多维空间中快速查找最近邻点。

适用场景：在样本不大、维度不多的情况下，可以精确快速地查询出最近邻。

Annoy 算法

Annoy（Approximate Nearest Neighbors Oh Yeah）算法是一种用于高效查找最近邻居的高性能算法，通常用于信息检索、推荐系统、机器学习等领域。它的核心思想是通过构建一种森林（Forest）的数据结构，使得在查询一个点的时候，可以快速地找到它的近似邻居。

适用场景：适合于大规模、数百维特征数据集的近似查询。

总结

综上所述，对于KNN理论的实现，首先是理论的铺垫，然后是数据结构&算法组织起数据集，提供存储与查询检索等功能；对于所有的算法理论实现都是如此。

程序 = 数据结构 + 算法

聊聊机器学习KNN理论实现的思考

参考

机器学习算法系列（二十一）-k近邻算法（k-Nearest Neighbor / kNN Algorithm）^[1]

机器学习算法系列（二十二）-近似k近邻算法-Annoy（Approximate Nearest Neighbor / ANN）^[2]

参考资料

[1]

机器学习算法系列（二十一）-k近邻算法（k-Nearest Neighbor / kNN Algorithm）: https://blog.csdn.net/sai_simon/article/details/124209904

[2]

机器学习算法系列（二十二）-近似k近邻算法-Annoy（Approximate Nearest Neighbor / ANN）: https://blog.csdn.net/sai_simon/article/details/124960727

原文始发于微信公众号（阿郎小哥的随笔驿站）：聊聊机器学习KNN理论实现的思考

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/244135.html

IDEA 数据结构系统随笔

赞 (0)

0 0

玩机教程

这几个优化设置瞬间提升电脑运行速度！

000292

小半
2024年3月9日
微信精选

设计模式 | 迭代器模式的学习与思考

000330

小半
2023年8月22日
微信精选

Windows 10 也能安装Kafka？这篇教程让你轻松掌握！

000417

小半
2023年10月15日
Java

java中关于协议GB26875-城市消防远程监控通讯协议解析

000832

Java朝阳
2024年4月18日
操作系统

如何查找Linux中最常用的命令？用history命令结合awk、sort、uniq命令就可以实现！

000235

小半
2024年3月16日
技术漫谈

订单超时处理方案：不同场景下的技术策略

000690

小半
2024年3月12日
技术漫谈

如何在 Linux 上清除 RAM 内存缓存、缓冲区和交换空间？

000373

小半
2024年3月14日
Windows

干货分享II 关于笔记本电脑CPU升级的专业知识概述

000376

电脑万事屋
2024年4月12日
Windows

Windows 11自带截图工具的录屏功能使用方法

000832

电脑万事屋
2024年4月8日
Python

Flask签名验证

000382

小半
2022年10月2日
技术漫谈

精简版 Windows 差点儿让我错过一款好用的微软免费软件

000149

李, 若俞
2024年4月14日
面试题

【404期】浅谈 synchronized 锁机制原理与 Lock 锁机制

010533

小半
2022年8月22日

发表回复

登录后才能评论

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！