Introducción
Esta práctica explora el impacto de la etiquetación aleatoria uniformemente distribuida en el comportamiento de algunas métricas de evaluación de clustering. Los algoritmos de clustering son fundamentalmente métodos de aprendizaje no supervisado y las métricas de evaluación que aprovechan información de verdad básica "supervisada" para cuantificar la calidad de los clusters resultantes. Sin embargo, las métricas de evaluación de clustering no ajustadas pueden ser engañosas ya que producen valores grandes para etiquetaciones de gran detalle, que pueden ser completamente aleatorias. Por lo tanto, solo las medidas ajustadas se pueden utilizar con seguridad como un índice de consenso para evaluar la estabilidad media de los algoritmos de clustering para un valor dado de k en varias submuestras superpuestas del conjunto de datos.
Consejos sobre la VM
Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.
A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.
Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.