Article de reference

Longueur minimale du message

La longueur minimale du message ( MML ) est une méthode bayésienne de comparaison et de sélection de modèles statistiques, basée sur la théorie de l'information. Elle offre une ...

La longueur minimale du message ( MML ) est une méthode bayésienne de comparaison et de sélection de modèles statistiques, basée sur la théorie de l'information. Elle offre une reformulation formelle du rasoir d'Occam , selon la théorie de l'information : même lorsque les modèles présentent une adéquation égale aux données observées, celui qui génère l'explication la plus concise des données est le plus susceptible d'être correct (cette explication consistant en l'énoncé du modèle, suivi de l' encodage sans perte des données à l'aide de ce modèle). La MML a été inventée par Chris Wallace et présentée pour la première fois dans l'article fondateur « An information measure for classification ». La MML n'est pas seulement conçue comme un concept théorique, mais aussi comme une technique applicable en pratique. Elle se distingue du concept apparenté de complexité de Kolmogorov en ce qu'elle ne requiert pas l'utilisation d'un langage Turing-complet pour modéliser les données.

La théorie mathématique de la communication de Shannon (1948) stipule que dans un code optimal, la longueur du message (en binaire) d'un événement , , où a une probabilité , est donnée par .

Paramètres à valeurs continues

L'allongement d'un modèle peut s'expliquer par une plus grande précision dans la définition de ses paramètres, ce qui implique la transmission d'un plus grand nombre de chiffres. La puissance du MML repose en grande partie sur sa capacité à gérer la précision de la définition des paramètres d'un modèle, grâce à diverses approximations qui rendent cela possible en pratique. Ceci permet de comparer utilement, par exemple, un modèle comportant de nombreux paramètres définis de manière imprécise avec un modèle comportant moins de paramètres définis avec plus de précision.

Principales caractéristiques de MML

  • MML permet de comparer des modèles de structures différentes. Par exemple, sa première application a consisté à trouver des modèles de mélange avec un nombre optimal de classes. L'ajout de classes supplémentaires à un modèle de mélange permet toujours d'ajuster les données avec une plus grande précision, mais selon MML, ce gain doit être mis en balance avec le nombre de bits supplémentaires nécessaires pour encoder les paramètres définissant ces classes.
  • MML est une méthode de comparaison de modèles bayésiens . Elle attribue un score à chaque modèle.
  • MML est invariant d'échelle et statistiquement invariant. Contrairement à de nombreuses méthodes de sélection bayésiennes, MML ne craint pas les changements d'unité de mesure, que ce soit la longueur ou le volume, ou les coordonnées cartésiennes ou polaires.
  • La méthode MML est statistiquement cohérente. Pour des problèmes comme le problème de une cohérence statistique .
  • La méthode MML tient compte de la précision des mesures. Elle utilise l' information de Fisher (dans l'approximation de Wallace-Freeman de 1987, ou d'autres hypervolumes dans les réseaux bayésiens , les réseaux neuronaux (à une seule couche seulement jusqu'à présent), la compression d'images, la segmentation d'images et de fonctions, etc.