Introduction
La descente de gradient est une méthode itérative qui peut être utilisée pour trouver la valeur minimale d'une fonction de perte. En utilisant l'algorithme de descente de gradient, on peut résoudre itérativement la fonction de perte et obtenir la fonction de perte minimisée et les valeurs des paramètres du modèle.
La stratégie de mise à jour dans la descente de gradient consiste à mettre à jour le poids actuel w_{t + 1} en multipliant le gradient actuel \frac{\partial f}{\partial w_t} par le taux d'apprentissage \alpha, selon la formule suivante :
w_{t+1}=w_t - \alpha \frac{\partial f}{\partial w_t}
Au début de l'algorithme de descente de gradient, il est nécessaire d'initialiser un point de départ w_0 et de mettre à jour les paramètres en conséquence. Le processus suivant montre comment trouver la valeur minimale de la fonction f(w)=w^2. Le point de départ w_0 = -10 et le taux d'apprentissage \alpha = 1.
Dans ce défi, on va explorer le concept de descente de gradient et ses inconvénients. La descente de gradient est une méthode itérative utilisée pour trouver la valeur minimale d'une fonction de perte. Cependant, elle peut parfois être prise dans des points locaux optimaux et ne pas trouver le point global optimal. L'objectif de ce laboratoire est d'optimiser la méthode de descente de gradient de manière à ce qu'elle puisse sauter les points locaux optimaux et trouver efficacement le point global optimal.