La fonction LogSumExp (LSE) (également appelée RealSoftMax ou softplus multivariable ) est un maximum lissé – une approximation lisse de la fonction maximum , principalement uti...
Le domaine de la fonction LogSumExp est , l' espace des coordonnées réelles , et son codomaine est , la droite réelle . C'est une approximation du maximum avec les bornes suivantes : La première inégalité est stricte sauf si . La seconde inégalité est stricte sauf si tous les arguments sont égaux. (Démonstration : Soit . Alors . L'application du logarithme à l'inégalité donne le résultat.)
De plus, on peut normaliser la fonction pour resserrer les bornes. Considérons la fonction . Alors (Démonstration : remplacer chaque par pour un certain dans les inégalités ci-dessus, pour obtenir et, puisque finalement, diviser par donne le résultat.)0" 0 0" 0
De même, si nous multiplions par un nombre négatif, nous obtenons bien sûr une comparaison avec la fonction :
La fonction LogSumExp est convexe et strictement croissante sur tout son domaine. Elle n'est pas strictement convexe, car elle est affine (linéaire plus une constante) sur les droites diagonales et parallèles :
En dehors de cette direction, elle est strictement convexe (le hessien est de rang donc par exemple, la restriction à un hyperplan transverse à la diagonale donne une fonction strictement convexe. Voir ci-dessous.
Astuce log-sum-exp pour les calculs dans le domaine logarithmique
La fonction LSE est souvent rencontrée lorsque les calculs arithmétiques habituels sont effectués sur une échelle logarithmique , comme dans la log-probabilité .
De même que les opérations de multiplication en échelle linéaire deviennent de simples additions en échelle logarithmique, une opération d'addition en échelle linéaire devient l'estimateur des moindres carrés en échelle logarithmique :
L'un des objectifs communs de l'utilisation des calculs dans le domaine logarithmique est d'accroître la précision et d'éviter les problèmes de sous-dépassement et de dépassement lorsque des nombres très petits ou très grands sont représentés directement (c'est-à-dire dans un domaine linéaire) à l'aide de nombres à virgule flottante de précision limitée.
Malheureusement, l'utilisation directe de la méthode des moindres carrés dans ce cas peut à nouveau entraîner des problèmes de dépassement de capacité. Par conséquent, il convient d'utiliser la méthode équivalente suivante (en particulier lorsque la précision de l'approximation « max » ci-dessus est insuffisante).
où
De nombreuses bibliothèques mathématiques telles que IT++ fournissent une routine par défaut pour l'estimateur LSE et utilisent cette formule en interne.
Une fonction de type log-somme-exp strictement convexe
La fonction LSE est convexe mais pas strictement convexe. On peut définir une fonction de type log-somme-exp strictement convexe en ajoutant un argument supplémentaire initialisé à zéro :
Cette fonction est un générateur de Bregman propre (strictement convexe et différentiable ). On la rencontre en apprentissage automatique, par exemple, comme cumulant de la famille multinomiale/binomiale.