Longueur minimale du message

La longueur minimale du message ( MML ) est une méthode bayésienne de comparaison et de sélection de modèles statistiques, basée sur la théorie de l'information. Elle offre une reformulation formelle du rasoir d'Occam , selon la théorie de l'information : même lorsque les modèles présentent une adéquation égale aux données observées, celui qui génère l'explication la plus concise des données est le plus susceptible d'être correct (cette explication consistant en l'énoncé du modèle, suivi de l' encodage sans perte des données à l'aide de ce modèle). La MML a été inventée par Chris Wallace et présentée pour la première fois dans l'article fondateur « An information measure for classification ». La MML n'est pas seulement conçue comme un concept théorique, mais aussi comme une technique applicable en pratique. Elle se distingue du concept apparenté de complexité de Kolmogorov en ce qu'elle ne requiert pas l'utilisation d'un langage Turing-complet pour modéliser les données.

La théorie mathématique de la communication de Shannon (1948) stipule que dans un code optimal, la longueur du message (en binaire) d'un événement , , où a une probabilité , est donnée par .

Le théorème de Bayes stipule que la probabilité d'une hypothèse (variable) étant donné des preuves fixées est proportionnelle à , qui, par définition de la probabilité conditionnelle, est égale à . Nous recherchons le modèle (hypothèse) ayant la plus grande probabilité a posteriori . Supposons que nous encodions un message représentant (décrivant) conjointement le modèle et les données. Puisque , le modèle le plus probable aura le message le plus court. Ce message se divise en deux parties : . La première partie encode le modèle lui-même. La seconde partie contient des informations (par exemple, les valeurs des paramètres, les conditions initiales, etc.) qui, traitées par le modèle, produisent les données observées. L'algorithme MML établit un compromis naturel et précis entre la complexité du modèle et sa qualité d'ajustement. Un modèle plus complexe est plus long à décrire (première partie plus longue), mais il s'ajuste probablement mieux aux données (seconde partie plus courte). Par conséquent, l'algorithme MML ne choisira un modèle complexe que si celui-ci se justifie par lui-même.

Paramètres à valeurs continues

L'allongement d'un modèle peut s'expliquer par une plus grande précision dans la définition de ses paramètres, ce qui implique la transmission d'un plus grand nombre de chiffres. La puissance du MML repose en grande partie sur sa capacité à gérer la précision de la définition des paramètres d'un modèle, grâce à diverses approximations qui rendent cela possible en pratique. Ceci permet de comparer utilement, par exemple, un modèle comportant de nombreux paramètres définis de manière imprécise avec un modèle comportant moins de paramètres définis avec plus de précision.

Principales caractéristiques de MML

MML permet de comparer des modèles de structures différentes. Par exemple, sa première application a consisté à trouver des modèles de mélange avec un nombre optimal de classes. L'ajout de classes supplémentaires à un modèle de mélange permet toujours d'ajuster les données avec une plus grande précision, mais selon MML, ce gain doit être mis en balance avec le nombre de bits supplémentaires nécessaires pour encoder les paramètres définissant ces classes.
MML est une méthode de comparaison de modèles bayésiens . Elle attribue un score à chaque modèle.
MML est invariant d'échelle et statistiquement invariant. Contrairement à de nombreuses méthodes de sélection bayésiennes, MML ne craint pas les changements d'unité de mesure, que ce soit la longueur ou le volume, ou les coordonnées cartésiennes ou polaires.
La méthode MML est statistiquement cohérente. Pour des problèmes comme le problème de une cohérence statistique .
La méthode MML tient compte de la précision des mesures. Elle utilise l' information de Fisher (dans l'approximation de Wallace-Freeman de 1987, ou d'autres hypervolumes dans les réseaux bayésiens , les réseaux neuronaux (à une seule couche seulement jusqu'à présent), la compression d'images, la segmentation d'images et de fonctions, etc.