Introducción
En este laboratorio, exploraremos la vectorización de texto, que es el proceso de representar datos de entrada no numéricos (como diccionarios o documentos de texto) como vectores de números reales. Compararemos dos métodos, FeatureHasher
y DictVectorizer
, mediante el uso de ambos métodos para vectorizar documentos de texto que se han preprocesado (tokenizados) con la ayuda de una función personalizada de Python.
Consejos sobre la VM
Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.
A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.
Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y le resolveremos el problema inmediatamente.