Introdução
O gradiente descendente (gradient descent) é um método iterativo que pode ser usado para encontrar o valor mínimo de uma função de perda (loss function). Ao usar o algoritmo de gradiente descendente, podemos resolver iterativamente a função de perda e obter a função de perda minimizada e os valores dos parâmetros do modelo.
A estratégia de atualização no gradiente descendente é atualizar o peso atual w_{t+1} multiplicando o gradiente atual \frac{\partial f}{\partial w_t} pela taxa de aprendizado (learning rate) \alpha, de acordo com a seguinte fórmula:
w_{t+1}=w_t - \alpha \frac{\partial f}{\partial w_t}
No início do algoritmo de gradiente descendente, precisamos inicializar um ponto de partida w_0 e atualizar os parâmetros de acordo. O seguinte processo demonstra a busca pelo valor mínimo da função f(w)=w^2. O ponto de partida w_0=-10 e a taxa de aprendizado \alpha=1.
Neste desafio, exploraremos o conceito de gradiente descendente e suas deficiências. O gradiente descendente é um método iterativo usado para encontrar o valor mínimo de uma função de perda. No entanto, às vezes pode ficar preso em pontos ótimos locais e não conseguir encontrar o ponto ótimo global. O objetivo deste laboratório é otimizar o método de gradiente descendente para que ele possa pular os pontos ótimos locais e encontrar o ponto ótimo global de forma eficiente.





