Modèle statistique

modèle mathématique qui intègre un ensemble d' hypothèses statistiques concernant la génération de données d'échantillon (et de données similaires issues d'une population plus large ). Un modèle statistique représente, souvent sous une forme considérablement idéalisée, le processus de génération des données . Lorsqu'il est question spécifiquement de probabilités , on parle de modèle probabiliste . Tous les tests d'hypothèses statistiques et tous les estimateurs statistiques sont dérivés de modèles statistiques. Plus généralement, les modèles statistiques constituent l'un des fondements de l'inférence statistique . Un modèle statistique est généralement spécifié comme une relation mathématique entre une ou plusieurs variables aléatoires et d'autres variables non aléatoires. Ainsi, un modèle statistique est « une représentation formelle d'une théorie » ( Herman Adèr citant Kenneth Bollen ).

hypothèse statistique (ou un ensemble d'hypothèses statistiques) possédant une propriété particulière : celle de permettre le calcul de la probabilité de n'importe quel événement . Prenons l'exemple d'une paire de dés ordinaires à six faces . Nous allons étudier deux hypothèses statistiques différentes concernant ces dés.

La première hypothèse statistique est la suivante : pour chaque dé, la probabilité d'obtenir chaque face (1, 2, 3, 4, 5 et 6) est de ⁠1/6⁠ . À partir de cette hypothèse, nous pouvons calculer la probabilité que les deux dés affichent un 5 : truqués ). À partir de cette hypothèse, nous pouvons calculer la probabilité d'obtenir deux 5 avec les désespace d'échantillonnage , et est un ensemble de distributions de probabilité sur . L'ensemble représente tous les modèles considérés comme possibles. Cet ensemble est généralement paramétré : . L'ensemble définit les paramètres du modèle. Si une paramétrisation est telle que des valeurs de paramètres distinctes donnent lieu à des distributions distinctes, c'est-à-dire (autrement dit, si l'application est injective ), elle est dite identifiable .

Dans certains cas, le modèle peut être plus complexe.

En statistique bayésienne , le modèle est étendu en ajoutant une distribution de probabilité sur l'espace des paramètres .
Un modèle statistique peut parfois distinguer deux ensembles de distributions de probabilité. Le premier ensemble correspond aux modèles considérés pour l'inférence. Le second ensemble, beaucoup plus vaste, correspond aux modèles susceptibles d'avoir généré les données . De tels modèles statistiques sont essentiels pour vérifier la robustesse d'une procédure donnée , c'est-à-dire qu'elle ne produit pas d'erreurs catastrophiques lorsque ses hypothèses sur les données sont erronées.

Un exemple

Considérons une population d'enfants dont les âges sont uniformément répartis . La taille d'un enfant est liée de manière stochastique à son âge : par exemple, sachant qu'un enfant a 7 ans, la probabilité qu'il mesure 1,5 mètre est plus élevée. On peut formaliser cette relation par un modèle de régression linéaire : taille _i = b _0 + b _1 âge _i + ε _i , où b _0 est l'ordonnée à l'origine, b _1 un paramètre par lequel l'âge est multiplié pour obtenir une prédiction de la taille, ε _i le terme d'erreur et i l'identifiant de l'enfant. Cela signifie que la taille est prédite par l'âge, avec une certaine marge d'erreur.

Un modèle admissible doit être cohérent avec toutes les données. Ainsi, une droite (taille _i = b₀ ₊b₁ âge _i ) ne peut être admissible pour modéliser les données, sauf si elle s'ajuste parfaitement à tous les points de données, c'est-à-dire si tous les points de données se situent parfaitement sur cette droite. Le terme d'erreur, εᵢ , _doit_être inclus dans l'équation pour que le modèle soit cohérent avec toutes les données. Pour effectuer une inférence statistique , il faut d'abord supposer des distributions de probabilité pour les _εᵢ . Par exemple, on peut supposer que les distributions des εᵢ sont _gaussiennes indépendantes et identiquement _distribuées₍ i.i.d.), de moyenne nulle. Dans ce cas, le modèle aurait trois paramètres : b₀ , b₁ et la variance de la distribution gaussienne. On peut spécifier formellement le modèle sous la forme suivante. L'espace d'échantillonnage, _Ω , de notre modèle comprend l'ensemble de toutes les paires possibles (âge, taille). Chaque valeur possible de Ω ₌ ( b₀ , b₁ , σ² ) détermine une distribution sur ^Ω . On note cette distribution par . Si est l'ensemble de toutes les valeurs possibles de , alors . (La paramétrisation est identifiable, et cela se vérifie aisément.)

Dans cet exemple, le modèle est déterminé par (1) sa spécification et (2) par certaines hypothèses pertinentes . Deux hypothèses sont posées : la taille peut être approximée par une fonction linéaire de l’âge ; les erreurs d’approximation suivent une loi normale indépendante et identiquement distribuée. Ces hypothèses sont suffisantes pour spécifier le modèle , comme requis.

Remarques générales

Un modèle statistique est une catégorie particulière de modèles mathématiques . Ce qui le distingue des autres modèles mathématiques, c'est son caractère non déterministe . Ainsi, dans un modèle statistique défini par des équations mathématiques, certaines variables n'ont pas de valeurs spécifiques, mais suivent des distributions de probabilité ; autrement dit, certaines variables sont stochastiques . Dans l'exemple précédent concernant la taille des enfants, ε est une variable stochastique ; sans cette variable, le modèle serait déterministe. Les modèles statistiques sont souvent utilisés même lorsque le processus générateur de données modélisé est déterministe. Par exemple, le lancer de pièce est, en principe, un processus déterministe ; pourtant, il est couramment modélisé comme stochastique (par un processus de Bernoulli ). Choisir un modèle statistique approprié pour représenter un processus générateur de données donné est parfois extrêmement difficile et peut nécessiter une connaissance approfondie du processus et des analyses statistiques pertinentes. Dans le même ordre d'idées, le statisticien Sir David Cox a déclaré : « La manière dont le problème du sujet est traduit en modèle statistique est souvent la partie la plus critique d'une analyse ».

Il existe trois objectifs pour un modèle statistique, selon Konishi et Kitagawa :

Prédictions
Extraction d'informations
Description des structures stochastiques

Ces trois objectifs sont essentiellement les mêmes que les trois objectifs indiqués par Friendly et Meyer : prédiction, estimation, description.

Dimension d'un modèle

Supposons que nous ayons un modèle statistique ( ) avec . En notation , nous écrivons où $nombres réels ; d'autres ensembles peuvent être utilisés, en principe). Ici, paramétrique s'il a une dimension finie. Par exemple, si nous supposons que les données proviennent d'une distribution gaussienne univariée , alors nous supposons que$

0 \ ight\\}"

0 ight\ P = {F_{μ, σ} (x) \equiv \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}}) : μ \in R, σ > 0}

0 ight\ .

Dans cet exemple, la dimension $non paramétrique si son ensemble de paramètres est de dimension infinie. Un modèle statistique est semi-paramétrique s’il comporte à la fois des paramètres de dimension finie et de dimension infinie. Formellement, si$

Les modèles paramétriques sont de loin les modèles statistiques les plus utilisés. Concernant les modèles semi-paramétriques et non paramétriques, Sir David Cox a déclaré : « Ceux-ci impliquent généralement moins d’hypothèses sur la structure et la forme de la distribution, mais contiennent habituellement des hypothèses fortes sur les indépendances. »

Modèles imbriqués

l'inférence statistique . ^R² , le facteur de Bayes , le critère d'information d'Akaike et le test du rapport de vraisemblance , ainsi que sa généralisation, la vraisemblance relative .

Une autre façon de comparer deux modèles statistiques est à travers la notion de déficience introduite par Lucien Le Cam .