mlxtend，一个超酷的python库

大家好，我是木木。

今天给大家分享一个超酷的 python 库，mlxtend。

mlxtend（machine learning extensions）是一个为机器学习和数据科学提供额外功能的 Python 库。它包括了一系列实用的工具和算法，用于数据集处理、特征选择、模型评估、以及构建集成学习模型等。

mlxtend 设计用来与其他机器学习库如 scikit-learn 无缝工作，从而为数据科学家和机器学习工程师提供一个更加强大和灵活的工具集。

特点精简

集成学习工具

mlxtend 提供了方便的集成学习工具，如堆叠回归、堆叠分类器等，帮助用户轻松构建和评估复杂的模型。

特征选择与处理

包含多种特征选择方法，如序列特征选择算法，以及用于数据处理和转换的实用工具，帮助提高模型的准确性和效率。

绘图和可视化

mlxtend 集成了一系列绘图工具，支持绘制决策边界、绘制学习曲线和评估图等，使模型的评估和调优过程更加直观。

最佳实践

安装方法

安装 mlxtend 也很简单，可以通过 pip 直接安装：

pip install mlxtend

功能演示

使用堆叠分类器

堆叠分类器可以结合多个分类模型的预测结果，通过一个元分类器来提高整体的分类准确率。

import numpy as np
import matplotlib.pyplot as plt
from mlxtend.evaluate import feature_importance_permutation
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.svm import SVR

# 定义回归方法
X, y = make_regression(n_samples=1000,
                       n_features=5,
                       n_informative=2,
                       n_targets=1,
                       random_state=123,
                       shuffle=False)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=123)    
    
# 训练模型
svm = SVR(kernel='rbf')
svm.fit(X_train, y_train)

imp_vals, _ = feature_importance_permutation(
    predict_method=svm.predict, 
    X=X_test,
    y=y_test,
    metric='r2',
    num_rounds=1,
    seed=1)

# 查看数据
print('数据结果:', imp_vals)

>> array([ 0.43309137,  0.22058866,  0.00148447,  0.01613953, -0.00529505])

绘制学习曲线

mlxtend 也支持绘制学习曲线，帮助分析模型的偏差和方差。

plt.figure()
plt.bar(range(X.shape[1]), imp_vals)
plt.xticks(range(X.shape[1]))
plt.xlim([-1, X.shape[1]])
plt.ylim([0, 0.5])
plt.show()

请确保在运行可视化代码前已经安装了 matplotlib 库。

图源网络

高级功能示例

可以通过mlxtend一次性定义多个分类器，同时观察多个分类器不同的效果做对比

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import itertools
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import EnsembleVoteClassifier
from mlxtend.data import iris_data
from mlxtend.plotting import plot_decision_regions

# 初始化分类器
clf1 = LogisticRegression(random_state=0)
clf2 = RandomForestClassifier(random_state=0)
clf3 = SVC(random_state=0, probability=True)
eclf = EnsembleVoteClassifier(clfs=[clf1, clf2, clf3], weights=[2, 1, 1], voting='soft')

# 加载数据
X, y = iris_data()
X = X[:,[0, 2]]

# 图表布局
gs = gridspec.GridSpec(2, 2)
fig = plt.figure(figsize=(10, 8))

for clf, lab, grd in zip([clf1, clf2, clf3, eclf],
                         ['Logistic Regression', 'Random Forest', 'RBF kernel SVM', 'Ensemble'],
                         itertools.product([0, 1], repeat=2)):
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf, legend=2)
    plt.title(lab)
plt.show()