Introdução
Em aprendizado de máquina (machine learning), frequentemente dividimos nossos dados em um conjunto de treinamento (training set) e um conjunto de teste (testing set) para avaliar o desempenho de um modelo. No entanto, essa avaliação pode depender fortemente de quais pontos de dados acabam no conjunto de treinamento em comparação com o conjunto de teste. Um método mais robusto é a validação cruzada (cross-validation - CV).
Por que validação cruzada?
- Reduz o risco de overfitting: Testa o modelo em múltiplas divisões de dados
- Melhor estimativa de generalização: Desempenho mais confiável em dados não vistos
- Maximiza o uso de dados: Cada amostra é usada tanto para treinamento quanto para teste
A validação cruzada envolve dividir o conjunto de dados em múltiplos "folds" (dobras) e, em seguida, treinar e avaliar o modelo várias vezes, usando um fold diferente para teste a cada vez. Isso nos dá uma estimativa mais confiável do desempenho do modelo em dados não vistos.
Neste laboratório, você aprenderá a usar as funções poderosas e convenientes do scikit-learn para realizar validação cruzada em um classificador usando o famoso conjunto de dados Iris. Você aprenderá a usar cross_val_score para obter pontuações de desempenho e, em seguida, calcular sua média e desvio padrão para entender melhor a estabilidade do modelo e a precisão geral.



