Apprentissage de dictionnaires clairsemés

d'apprentissage de représentations visant à trouver une représentation éparse des données d'entrée sous la forme d'une combinaison linéaire d'éléments de base, ainsi que de ces éléments de base eux-mêmes. Ces éléments sont appelés atomes et constituent un dictionnaire . Les atomes du dictionnaire ne sont pas nécessairement orthogonaux et peuvent former un ensemble couvrant surcomplet. Cette configuration permet également à la dimensionnalité des signaux représentés d'être supérieure à celle de chacun des signaux observés. Ces deux propriétés conduisent à la présence d'atomes apparemment redondants, autorisant de multiples représentations d'un même signal, tout en améliorant la parcimonie et la flexibilité de la représentation.

L'une des applications les plus importantes de l'apprentissage de dictionnaires parcimonieux réside dans le domaine de l'acquisition compressée, ou reconstruction de signaux . En acquisition compressée, un signal de grande dimension peut être reconstruit à partir de quelques mesures linéaires seulement, à condition qu'il soit parcimonieux ou quasi-parcimonieux. Comme tous les signaux ne satisfont pas cette condition, il est crucial de trouver une représentation parcimonieuse du signal, telle que la transformée en ondelettes ou le gradient directionnel d'une matrice rasterisée. Une fois qu'une matrice ou un vecteur de grande dimension est transformé dans un espace parcimonieux, différents algorithmes de reconstruction, comme la poursuite de base , CoSaMP ou des algorithmes non itératifs rapides peuvent être utilisés pour reconstruire le signal.

Un des principes fondamentaux de l'apprentissage de dictionnaires est que le dictionnaire doit être inféré à partir des données d'entrée. L'émergence des méthodes d'apprentissage de dictionnaires parcimonieux a été motivée par le fait qu'en traitement du signal , on souhaite généralement représenter les données d'entrée avec un minimum de composantes. Avant cette approche, la pratique courante consistait à utiliser des dictionnaires prédéfinis, tels que les transformées de Fourier ou en ondelettes . Cependant, dans certains cas, un dictionnaire entraîné spécifiquement pour les données d'entrée peut améliorer significativement la parcimonie, ce qui trouve des applications dans la décomposition, la compression et l'analyse de données , et a été utilisé dans les domaines du débruitage et de la classification d'images, ainsi que du traitement audio et vidéo . La parcimonie et les dictionnaires surcomplets offrent d'immenses applications en compression d'images, en fusion d'images et en remplissage d'images .

problème d'optimisation suivant :

0 λ > 0

Algorithmes

Comme le problème d'optimisation décrit ci-dessus peut être résolu comme un problème convexe par rapport au codage par dictionnaire ou au codage clairsemé, l'autre des deux étant fixé, la plupart des algorithmes sont basés sur l'idée de mettre à jour itérativement l'un puis l'autre.

Le problème de la recherche d'un codage parcimonieux optimal à partir d'un dictionnaire donné est appelé approximation parcimonieuse (ou simplement problème de codage parcimonieux). Plusieurs algorithmes ont été développés pour le résoudre (comme la recherche par correspondance et LASSO ) et sont intégrés aux algorithmes décrits ci-dessous.

Méthode des directions optimales (MOD)

La méthode des directions optimales (ou MOD) a été l'une des premières méthodes introduites pour aborder le problème de l'apprentissage de dictionnaires épars. Son idée principale est de résoudre le problème de minimisation sous la contrainte d'un nombre limité de composantes non nulles du vecteur de représentation :

Ici, désigne la norme de Frobenius . MOD alterne entre l'obtention du codage parcimonieux par une méthode telle que la poursuite par correspondance et la mise à jour du dictionnaire par le calcul de la solution analytique du problème donné par où est la pseudo-inverse de Moore-Penrose . Après cette mise à jour, est renormalisée pour respecter les contraintes et le nouveau codage parcimonieux est obtenu. Le processus est répété jusqu'à convergence (ou jusqu'à ce que le résidu soit suffisamment petit).

L'algorithme MOD s'est avéré très efficace pour les données d'entrée de faible dimension, ne nécessitant que quelques itérations pour converger. Cependant, en raison de la complexité élevée de l'opération d'inversion de matrice, le calcul de la pseudo-inverse est souvent impossible pour les données de grande dimension. Cette limitation a motivé le développement d'autres méthodes d'apprentissage de dictionnaires.

K-SVD

K-SVD est un algorithme qui effectue une décomposition en valeurs singulières (SVD) pour mettre à jour les atomes du dictionnaire un par un et constitue une généralisation de l'algorithme des k-moyennes . Il impose que chaque élément des données d'entrée soit encodé par une combinaison linéaire d'au plus n éléments, de manière identique à l'approche MOD.

L'essence de cet algorithme est de d'abord fixer le dictionnaire, de trouver le meilleur résultat possible sous la contrainte ci-dessus (en utilisant Orthogonal Matching Pursuit) puis de mettre à jour itérativement les atomes du dictionnaire de la manière suivante : Les étapes suivantes de l'algorithme comprennent l'approximation de rang 1 de la matrice résiduelle , sa mise à jour et l'application de la contrainte de parcimonie après cette mise à jour. Cet algorithme est considéré comme standard pour l'apprentissage de dictionnaires et est utilisé dans de nombreuses applications. Cependant, il présente des faiblesses communes avec MOD : il n'est efficace que pour les signaux de dimensionnalité relativement faible et peut se retrouver bloqué dans des minima locaux.

Descente de gradient stochastique

Méthode duale de Lagrange

Un algorithme basé sur la résolution d'un problème lagrangien dual offre une méthode efficace pour calculer le dictionnaire sans les complications induites par la fonction de parcimonie. Considérons le lagrangien suivant :

$, où est une contrainte sur la norme des atomes et sont les variables dites duales formant la matrice diagonale .$

Nous pouvons alors fournir une expression analytique pour le dual de Lagrange après minimisation sur :

$.$

Après avoir appliqué l'une des méthodes d'optimisation à la valeur du dual (telle que la méthode de Newton ou le gradient conjugué ), nous obtenons la valeur de :

La résolution de ce problème est moins difficile sur le plan du calcul car le nombre de variables duales est beaucoup plus souvent inférieur au nombre de variables du problème primal.

LASSO

, où représente l'erreur autorisée dans la reconstruction LASSO.

0 λ > 0

Méthodes d'entraînement paramétriques

Les méthodes d'apprentissage paramétriques visent à combiner les avantages des dictionnaires construits analytiquement et des dictionnaires appris. Ceci permet de construire des dictionnaires généralisés plus performants, potentiellement applicables à des signaux de taille arbitraire. Parmi les approches notables, on peut citer :

Dictionnaires invariants par translation. Ces dictionnaires sont composés des translations des atomes provenant du dictionnaire construit pour un signal de taille finie. Ceci permet au dictionnaire résultant de représenter un signal de taille arbitraire.
Dictionnaires multi-échelles. Cette méthode se concentre sur la construction d'un dictionnaire composé de dictionnaires d'échelles différentes pour améliorer la parcimonie.
Dictionnaires creux. Cette méthode vise non seulement à fournir une représentation creuse, mais aussi à construire un dictionnaire creux, imposé par l'expression où est un dictionnaire analytique prédéfini possédant des propriétés intéressantes telles qu'un calcul rapide, et est une matrice creuse. Cette formulation permet de combiner directement la rapidité d'implémentation des dictionnaires analytiques avec la flexibilité des approches creuses.

Apprentissage en ligne de dictionnaires ( approche LASSO )

De nombreuses approches courantes d'apprentissage de dictionnaires épars reposent sur la disponibilité de l'ensemble des données d'entrée (ou au moins d'un jeu de données d'entraînement suffisamment important). Or, dans la pratique, ce n'est pas toujours le cas, car la taille des données d'entrée peut être trop importante pour être chargée en mémoire. Cette hypothèse n'est pas non plus vérifiée lorsque les données d'entrée arrivent sous forme de flux . C'est le cas, par exemple, de l' apprentissage en ligne, qui consiste à mettre à jour le modèle de manière itérative à mesure que de nouvelles données sont disponibles.

Un dictionnaire peut être appris en ligne de la manière suivante :

Pour
Dessinez un nouvel échantillon
Trouver un codage clairsemé à l'aide de LARS :
Mise à jour du dictionnaire à l'aide de l'approche par coordonnées de blocs :

Cette méthode nous permet de mettre à jour progressivement le dictionnaire à mesure que de nouvelles données deviennent disponibles pour l'apprentissage de représentations éparses et contribue à réduire considérablement la quantité de mémoire nécessaire pour stocker l'ensemble de données (qui est souvent de taille énorme).

Applications

L'apprentissage de dictionnaires, c'est-à-dire la décomposition linéaire d'un signal d'entrée à l'aide de quelques éléments de base appris directement à partir des données, a permis d'obtenir des résultats de pointe dans diverses tâches de traitement d'images et de vidéos. Cette technique peut être appliquée aux problèmes de classification : si l'on a construit des dictionnaires spécifiques pour chaque classe, le signal d'entrée peut être classé en trouvant le dictionnaire correspondant à la représentation la plus parcimonieuse. Elle présente également des propriétés utiles pour le débruitage du signal, car il est généralement possible d'apprendre un dictionnaire pour représenter la partie significative du signal d'entrée de manière parcimonieuse, tandis que le bruit dans le signal d'entrée aura une représentation beaucoup moins parcimonieuse. Bag-of-Words , il a été constaté empiriquement que le codage épars surpassait d'autres approches de codage sur les tâches de reconnaissance de catégories d'objets.

L'apprentissage de dictionnaires est utilisé pour analyser en détail les signaux médicaux. Ces signaux médicaux comprennent ceux de l'électroencéphalographie (EEG), de l'électrocardiographie (ECG), de l'imagerie par résonance magnétique (IRM), de l'IRM fonctionnelle (IRMf), des moniteurs de glucose en continu et de la tomodensitométrie ultrasonore (USCT), où différentes hypothèses sont utilisées pour analyser chaque signal.

L'apprentissage de dictionnaires a également été appliqué à la détection passive de signaux inconnus dans des environnements complexes. Il permet notamment la détection aveugle de signaux dans les canaux à distorsion temporelle (TSD), sans connaissance préalable du signal source. Cette approche a démontré son efficacité en conditions simulées et expérimentales, offrant des performances robustes même en présence d'un faible rapport signal/bruit.