matplotlib.pyplot.scatter(iris.data[:, 0], iris.data[:, 1]) を使用してデータを可視化する
この最終ステップでは、2 つの特徴量の関係を見るための簡単なデータ可視化を行います。可視化はデータ探索の重要な部分です。ここでは、Python で人気のプロットツールである matplotlib ライブラリを使用して散布図を作成します。
最初の特徴量(がく片の長さ)と 2 番目の特徴量(がく片の幅)をプロットします。データからこれらの列を選択するには、NumPy のスライシングを使用します。
iris.data[:, 0] は、すべての行(:)と最初の列(0)を選択します。
iris.data[:, 1] は、すべての行(:)と 2 番目の列(1)を選択します。
この環境では画面にプロットを表示するのは理想的ではないため、代わりに iris_plot.png という名前の画像ファイルに保存します。
main.py ファイルを以下のコードで更新してください。
from sklearn import datasets
import matplotlib.pyplot as plt
## Iris データセットを読み込む
iris = datasets.load_iris()
## 最初の 2 つの特徴量をプロットします:がく片の長さ vs がく片の幅
X = iris.data[:, :2]
y = iris.target
plt.scatter(X[:, 0], X[:, 1])
plt.xlabel('Sepal Length (cm)')
plt.ylabel('Sepal Width (cm)')
plt.title('Sepal Length vs Sepal Width')
## プロットをファイルに保存する
plt.savefig('iris_plot.png')
print("Plot saved to iris_plot.png")
ターミナルからスクリプトを実行します。
python3 main.py
確認メッセージが表示されます。
Plot saved to iris_plot.png
このコマンドはプロットを直接表示しませんが、~/project ディレクトリに iris_plot.png という名前の新しいファイルが作成されます。左側のファイルエクスプローラーでこのファイルをダブルクリックすると、散布図を表示できます。