Introduction
Ce laboratoire explore l'impact d'un étiquetage aléatoire uniformément distribué sur le comportement de certaines métriques d'évaluation de regroupement. Les algorithmes de regroupement sont fondamentalement des méthodes d'apprentissage non supervisé et les métriques d'évaluation qui utilisent des informations de vérité terrain « supervisées » pour quantifier la qualité des regroupements résultants. Cependant, les métriques d'évaluation de regroupement non ajustées peuvent être trompeuses car elles produisent de grandes valeurs pour des étiquetages fins, qui peuvent être totalement aléatoires. Par conséquent, seule la mesure ajustée peut être utilisée en toute sécurité comme indice de consensus pour évaluer la stabilité moyenne des algorithmes de regroupement pour une valeur donnée de k sur diverses sous-échantillons superposés du jeu de données.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session et nous résoudrons rapidement le problème pour vous.