Introdução
Neste laboratório, exploraremos como a complexidade do modelo influencia tanto a precisão da previsão quanto o desempenho computacional. Usaremos dois conjuntos de dados - o Conjunto de Dados de Diabetes para regressão e o Conjunto de Dados 20newsgroups para classificação. Modelaremos a influência da complexidade em três estimadores diferentes:
- SGDClassifier (para dados de classificação), que implementa o aprendizado de descida de gradiente estocástico
- NuSVR (para dados de regressão), que implementa a regressão de vetores de suporte Nu
- GradientBoostingRegressor constrói um modelo aditivo de forma progressiva em estágios
Variar-emos a complexidade do modelo através da escolha de parâmetros de modelo relevantes em cada um dos modelos selecionados. Em seguida, mediremos a influência no desempenho computacional (latência) e no poder preditivo (MSE ou Hamming Loss).
Dicas da Máquina Virtual
Após o início da VM, clique no canto superior esquerdo para mudar para a aba Notebook para acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para você.
Carregar os dados
Carregamos os dois conjuntos de dados - o conjunto de dados de diabetes para regressão e o conjunto de dados 20newsgroups para classificação.
Escolher parâmetros
Escolhemos os parâmetros para cada um dos nossos estimadores criando um dicionário com todos os valores necessários. Definimos o parâmetro variável, a etiqueta de complexidade, o computador de complexidade, os dados e outros valores de configuração para cada estimador.
Avaliação da influência dos parâmetros
Calculamos a influência dos parâmetros no estimador dado. Em cada rodada, definimos o estimador com o novo valor do parâmetro variável e coletamos os tempos de previsão, o desempenho de previsão e as complexidades para ver como essas mudanças afetam o estimador. Calculamos a complexidade usando o computador de complexidade passado como parâmetro.
Plotar os resultados
Plotamos a influência da complexidade do modelo na precisão e na latência. Usamos o erro de previsão no eixo y e a complexidade do modelo no eixo x. Plotamos o erro de previsão e a latência de previsão no mesmo gráfico.
Resumo
Neste laboratório, exploramos como a complexidade do modelo influencia tanto a precisão da previsão quanto o desempenho computacional. Variamos a complexidade do modelo através da escolha de parâmetros relevantes do modelo em cada um dos modelos selecionados. Em seguida, medimos a influência no desempenho computacional (latência) e no poder preditivo (MSE ou Hamming Loss). Concluímos que um modelo mais complexo requer um tempo de treinamento maior e não garante a redução do erro de previsão.