LabelEncoder是什么
- 在数据处理过程中,我们有时需要对不连续的数字或者文本进行数字化处理。
- 在使用 Python 进行数据处理时,用 encoder 来转化 dummy variable(虚拟数据)非常简便,encoder 可以将数据集中的文本转化成0或1的数值。
- LabelEncoder 是 scikit-learn 包中的两个功能,可以实现上述的转化过程。
数据集中的类别数据
在使用回归模型和机器学习模型时,所有的考察数据都是数值更容易得到好的结果。因为回归和机器学习都是基于数学函数方法的,所以当我们要分析的数据集中出现了类别数据(categorical data),此时的数据是不理想的,因为我们不能用数学的方法处理它们。例如,在处理男和女两个性别数据时,我们用0和1将其代替,再进行分析。由于这种情况的出现,我们需要可以将文字数字化的现成方法。
- LabelEncoder 将一列文本数据转化成数值。
- 例如,[red, blue, red, yellow] = [0,2,0,1]
参考资料:
数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder – 知乎 (zhihu.com)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/103031.html