はじめに
この実験では、非数値の入力データ(辞書や文書など)を実数のベクトルとして表現するテキストベクトル化を検討します。独自の Python 関数を使って前処理(トークン化)された文書をベクトル化するために、FeatureHasher
と DictVectorizer
の 2 つの方法を比較します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題に直面した場合は、Labby にお尋ねください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。