数据预处理之将类别数据数字化的方法 —— LabelEncoder

小半 • 2023年2月15日上午10:08 • 软件工程 • 阅读 230

导读：本篇文章讲解数据预处理之将类别数据数字化的方法 —— LabelEncoder，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

LabelEncoder是什么

在数据处理过程中，我们有时需要对不连续的数字或者文本进行数字化处理。
在使用 Python 进行数据处理时，用 encoder 来转化 dummy variable（虚拟数据）非常简便，encoder 可以将数据集中的文本转化成0或1的数值。
LabelEncoder 是 scikit-learn 包中的两个功能，可以实现上述的转化过程。

数据集中的类别数据

在使用回归模型和机器学习模型时，所有的考察数据都是数值更容易得到好的结果。因为回归和机器学习都是基于数学函数方法的，所以当我们要分析的数据集中出现了类别数据(categorical data)，此时的数据是不理想的，因为我们不能用数学的方法处理它们。例如，在处理男和女两个性别数据时，我们用0和1将其代替，再进行分析。由于这种情况的出现，我们需要可以将文字数字化的现成方法。

LabelEncoder 将一列文本数据转化成数值。

例如，[red, blue, red, yellow] = [0,2,0,1]

参考资料：

数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder – 知乎 (zhihu.com)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/103031.html

赞 (0)

0 0

软件工程

数据库设计 | 怎样做一个数据库？

000207

小半
2023年2月15日
软件工程

Java | 移动的字符串（图形界面化的一个小练手）

000156

小半
2023年2月15日
软件工程

深度网络的过拟合问题讨论

000127

小半
2023年2月15日
软件工程

如何查看IP地址是否被占用

000731

小半
2023年2月15日
软件工程

Python split()方法

000193

小半
2023年2月15日
软件工程

新华社北京11月19日电题：什么是元宇宙？为何要关注它？——解码元宇宙

000119

小半
2023年2月15日
软件工程

曼彻斯特编码的理解

000386

小半
2023年2月15日
软件工程

将字典转换为Numpy数组

000106

小半
2023年2月15日
软件工程

python numpy 自定义数据类型

000218

小半
2023年2月15日
软件工程

精确度/召回率/F1值/Micro-F1和Macro-F1的理解

000354

小半
2023年2月15日
软件工程

什么是对称正定矩阵？

000219

小半
2023年2月15日
软考板块

软考高项学习：4-1项目整体管理概述

000234

软考助手
2024年3月21日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！