はじめに
この実験では、Python 用の強力なデータ分析および操作ライブラリである Pandas を使用して、データの読み取り、書き込み、操作方法について説明します。この演習では、タイタニック号の難破事故のデータセットを使用します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使用して練習します。
場合によっては、Jupyter Notebook の読み込みが完了するまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。
学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
必要なライブラリのインポート
まず、タスクに必要なライブラリをインポートする必要があります。この実験では、pandas のみが必要です。
## Importing pandas library
import pandas as pd
CSV ファイルからのデータ読み込み
次のステップは、CSV ファイルからデータを読み込むことです。これを行うには、pandas の read_csv 関数を使用します。
## Reading data from CSV file
titanic = pd.read_csv("data/titanic.csv")
データの確認
データを読み込んだ後は、その内容を確認するのが良いアイデアです。DataFrame の最初の数行を表示します。
## Displaying the first few rows of the DataFrame
titanic.head()
データ型の確認
DataFrame の dtypes 属性を使用して、各列のデータ型を確認できます。
## Checking the data types of each column
titanic.dtypes
データを Excel に書き込む
to_excel メソッドを使用して、データを Excel ファイルに書き込むこともできます。DataFrame を Excel ファイルに保存しましょう。
## Saving DataFrame to an Excel file
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)
Excel ファイルからのデータ読み込み
Excel ファイルからデータを読み込むことは、CSV ファイルからデータを読み込むのと同じくらい簡単です。pandas の read_excel 関数を使用します。
## Reading data from an Excel file
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")
DataFrame 情報の確認
info メソッドは、DataFrame の技術的な概要を提供します。これは、データ型、非 null 値の数、メモリ使用量を確認するのに役立ちます。
## Checking DataFrame information
titanic.info()
まとめ
この実験では、pandas を使ってデータを読み書きする方法と、DataFrame の情報を確認する方法を学びました。pandas は、データの処理と操作に幅広い機能を提供しており、データ分析に強力なツールとなっています。