Scikit-learn Machine Learning Tutorial | Python Data Science

Einführung

Dies ist ein schrittweise Tutorial, um die Verwendung von Scikit-learn, einer beliebten Machine-Learning-Bibliothek in Python, zu demonstrieren. Wir werden den Iris-Datensatz verwenden, der Informationen über die physischen Attribute verschiedener Arten von Iris-Blumen enthält. Ziel dieses Tutorials ist es, zu zeigen, wie man Scikit-learn verwendet, um grundlegende Machine-Learning-Tasks wie das Laden von Daten, die Vorverarbeitung von Daten, die Feature-Selektion und die Visualisierung durchzuführen.

Tipps für die VM

Nachdem der Start der VM abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Bibliotheken importieren

Wir beginnen mit dem Import der erforderlichen Bibliotheken. In diesem Tutorial werden wir Scikit-learn, NumPy und Matplotlib verwenden.

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA

Den Iris-Datensatz laden

Wir werden den Iris-Datensatz mit der in Scikit-learn integrierten Funktion load_iris laden.

iris = datasets.load_iris()
X = iris.data[:, :2]  ## wir nehmen nur die ersten zwei Features.
y = iris.target

Die Daten visualisieren

Wir werden den Iris-Datensatz mit einem Scatter-Plot visualisieren. Wir werden die Kelchblumendicke gegen die Kelchblumenbreite aufzeichnen und die Punkte nach ihrer Klasse färben.

x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

plt.figure(2, figsize=(8, 6))
plt.clf()

## Plot the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1, edgecolor="k")
plt.xlabel("Kelchblumendicke")
plt.ylabel("Kelchblumenbreite")

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

Hauptkomponentenanalyse (PCA) durchführen

Wir werden die Hauptkomponentenanalyse (PCA) durchführen, um die Dimension der Datensammlung zu reduzieren. Wir werden die Daten auf die ersten drei Hauptkomponenten projizieren und die Ergebnisse in 3D darstellen.

fig = plt.figure(1, figsize=(8, 6))
ax = fig.add_subplot(111, projection="3d", elev=-150, azim=110)

X_reduced = PCA(n_components=3).fit_transform(iris.data)
ax.scatter(
    X_reduced[:, 0],
    X_reduced[:, 1],
    X_reduced[:, 2],
    c=y,
    cmap=plt.cm.Set1,
    edgecolor="k",
    s=40,
)

ax.set_title("Erste drei PCA-Richtungen")
ax.set_xlabel("1. Eigenvektor")
ax.xaxis.set_ticklabels([])
ax.set_ylabel("2. Eigenvektor")
ax.yaxis.set_ticklabels([])
ax.set_zlabel("3. Eigenvektor")
ax.zaxis.set_ticklabels([])

Zusammenfassung

In diesem Tutorial haben wir gelernt, wie man den Iris-Datensatz mit Scikit-learn lädt, die Daten mit Matplotlib visualisiert und die Hauptkomponentenanalyse (PCA) mit Scikit-learn durchführt. Wir haben auch gelernt, wie man die Daten auf die ersten drei Hauptkomponenten projiziert und die Ergebnisse in 3D visualisiert.

Iris-Blumenklassifikation mit Scikit-learn