Introdução
Neste laboratório, exploraremos a vetorização de texto, que é o processo de representar dados de entrada não numéricos (como dicionários ou documentos de texto) como vetores de números reais. Compararemos dois métodos, FeatureHasher e DictVectorizer, utilizando ambos para vetorizar documentos de texto pré-processados (tokenizados) com a ajuda de uma função Python personalizada.
Dicas da Máquina Virtual
Após o arranque da máquina virtual, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.
Às vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se tiver problemas durante o aprendizado, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.