Statistique d'ordre

Fonctions de densité de probabilité des statistiques d'ordre pour un échantillon de taille n = 5 issu d'une distribution exponentielle de paramètre d'échelle unitaire

En statistique , la k -ième statistique d'ordre d'un échantillon statistique est égale à sa k -ième plus petite valeur. Étant donné un échantillon de taille , la k -ième statistique d'ordre est notée , avec . Avec les statistiques de rang , les statistiques d'ordre figurent parmi les outils les plus fondamentaux des statistiques non paramétriques et de l'inférence .

Les cas particuliers importants des statistiques d'ordre sont la valeur minimale et maximale d'un échantillon, et (avec quelques réserves discutées ci-dessous) la médiane de l'échantillon et d'autres quantiles de l'échantillon .

Lorsqu'on utilise la théorie des probabilités pour analyser les statistiques d'ordre d' échantillons aléatoires issus d'une distribution continue , la fonction de répartition cumulative est utilisée pour ramener l'analyse au cas des statistiques d'ordre de la distribution uniforme .

La première statistique d'ordre (ou la plus petite statistique d'ordre ) est toujours la valeur minimale de l'échantillon, c'est-à-dire :

où, suivant une convention courante, nous utilisons des lettres majuscules pour désigner les variables aléatoires et des lettres minuscules (comme ci-dessus) pour désigner leurs valeurs observées réelles.

De même, pour un échantillon de taille $maximum , c'est-à-dire,$

L' étendue de l'échantillon correspond à la différence entre la valeur maximale et la valeur minimale. Elle dépend des statistiques d'ordre.

Une statistique importante similaire dans l'analyse exploratoire des données , qui est simplement liée aux statistiques d'ordre, est l' écart interquartile de l'échantillon .

La médiane de l'échantillon peut être ou non une statistique d'ordre, car il n'existe qu'une seule valeur centrale lorsque le nombre $impair . Plus précisément, si pair ,$

Analyse probabiliste

Étant donné des variables aléatoires quelconques , les variables aléatoires sont définies en les triant par ordre croissant.

Le cas où les variables aléatoires sont indépendantes et identiquement distribuées est traité ci-dessous. En général, ce cas peut survenir en échantillonnant plusieurs populations. Nous considérons ensuite le cas où elles sont indépendantes , mais pas nécessairement identiquement distribuées, et où leur distribution de probabilité conjointe est donnée par le théorème de Bapat-Beg .

Désormais, nous supposerons que les variables aléatoires considérées sont continues et, lorsque cela s'avère utile, que leurs fonctions de densité de probabilité (FDP) sont définies, c'est-à-dire qu'elles sont absolument continues . Les particularités de l'analyse des distributions qui attribuent une masse aux points (en particulier les distributions discrètes ) sont abordées en conclusion.

Fonction de répartition cumulative des statistiques d'ordre

Pour un échantillon aléatoire comme ci-dessus, de fonction de répartition , les statistiques d'ordre de cet échantillon ont les fonctions de répartition suivantes (où r spécifie la statistique d'ordre) : La démonstration de cette formule repose sur la combinatoire : pour que la i-ème statistique d'ordre soit , le nombre d'échantillons de cet ordre doit être compris entre et . Si est la plus grande statistique d'ordre , il doit y avoir échantillons (chacun avec une probabilité indépendante de ) et échantillons (chacun avec une probabilité indépendante de ). Enfin, il existe différentes manières de choisir les échantillons de cet ordre. $x > x$

La fonction de densité de probabilité correspondante peut être déduite de ce résultat et s'avère être

De plus, il existe deux cas particuliers dont les fonctions de répartition cumulatives sont faciles à calculer.

Ce qui peut être déduit d'un examen attentif des probabilités.

Distributions de probabilité des statistiques d'ordre

Statistiques d'ordre échantillonnées à partir d'une distribution uniforme

Dans cette section, nous montrons que les statistiques d'ordre de la loi uniforme sur l' intervalle [0, 1] ont des distributions marginales appartenant à la famille des lois bêta . Nous proposons également une méthode simple pour calculer la distribution conjointe d'un nombre quelconque de statistiques d'ordre, et enfin, nous transposons ces résultats à des lois continues quelconques à l'aide de la fonction de répartition .

Dans toute cette section, nous supposons que les échantillons aléatoires sont tirés d'une distribution continue de fonction de répartition . En notant , on obtient l'échantillon aléatoire correspondant issu de la distribution uniforme standard . Notons que les statistiques d'ordre satisfont également .

La fonction de densité de probabilité de la statistique d'ordre est égale à

Autrement dit, la statistique d'ordre k de la distribution uniforme est une variable aléatoire suivant une loi bêta .

La démonstration de ces affirmations est la suivante. Pour que soit compris entre u et u + du , il est nécessaire qu'exactement k − 1 éléments de l'échantillon soient inférieurs à u , et qu'au moins un élément soit compris entre u et u + du . La probabilité qu'il y ait plus d'un élément dans ce dernier intervalle est déjà de l'ordre de , il nous faut donc calculer la probabilité qu'exactement k − 1, 1 et n − k observations se trouvent respectivement dans les intervalles , et . Ceci est égal à (voir la distribution multinomiale pour plus de détails).

et le résultat s'ensuit.

La moyenne de cette distribution est k / ( n + 1).

La distribution conjointe des statistiques d'ordre de la distribution uniforme

De même, pour i < j , on peut montrer que la fonction de densité de probabilité conjointe des deux statistiques d'ordre U ₍_i₎ < U ₍_j_{) est}

qui est (à des termes d'ordre supérieur à ) la probabilité que les éléments d'échantillon i − 1, 1, j − 1 − i , 1 et n − j tombent respectivement dans les intervalles , , , .

On procède de manière tout à fait analogue pour obtenir les distributions conjointes d'ordre supérieur. De façon peut-être surprenante, la densité conjointe des statistiques d'ordre n s'avère constante :

Une façon de comprendre cela est de considérer que l'échantillon non ordonné possède une densité constante égale à 1, et qu'il existe n ! permutations différentes de l'échantillon correspondant à la même séquence de statistiques d'ordre. Ceci est lié au fait que 1/ n ! est le volume de la région . C'est également lié à une autre particularité des statistiques d'ordre des variables aléatoires uniformes : il découle de l' inégalité BRS que le nombre maximal espéré de variables aléatoires uniformes U(0,1] que l'on peut choisir dans un échantillon de taille n, avec une somme ne dépassant pas , est majoré par , qui est donc invariant sur l'ensemble de toutes les variables aléatoires de produit constant .

À partir des formules précédentes, on peut déduire la distribution de l'étendue des statistiques d'ordre, c'est-à-dire la distribution de , soit la différence entre le maximum et le minimum. Plus généralement, pour , suit également une loi bêta : À partir de ces formules, on peut déduire la covariance entre deux statistiques d'ordre : La formule découle du constat que et de la comparaison avec , où , qui est la distribution réelle de la différence. $j\geq 1 n \geq k > j \geq 1$

Statistiques d'ordre échantillonnées à partir d'une distribution exponentielle

Pour un échantillon aléatoire de taille n issu d'une distribution exponentielle de paramètre λ , les statistiques d'ordre X ₍_i₎ pour i = 1, 2, 3, ..., n suivent chacune une distribution

où les Z _j sont des variables aléatoires exponentielles standard iid (c'est-à-dire avec un paramètre de taux de 1). Ce résultat a été publié pour la première fois par Alfréd Rényi .

Statistiques d'ordre échantillonnées à partir d'une distribution d'Erlang

La transformée de Laplace des statistiques d'ordre peut être échantillonnée à partir d'une distribution d'Erlang via une méthode de comptage de chemins absolument continue , elle possède une densité telle que , et nous pouvons utiliser les substitutions

dériver les fonctions de densité de probabilité suivantes pour les statistiques d'ordre d'un échantillon de taille n tiré de la distribution de X :

$où$

Application : intervalles de confiance pour les quantiles

Une question intéressante est de savoir dans quelle mesure les statistiques d'ordre sont performantes en tant qu'estimateurs des quantiles de la distribution sous-jacente.

Un exemple avec un petit échantillon

Le cas le plus simple à examiner est celui de la précision avec laquelle la médiane de l'échantillon estime la médiane de la population.

Prenons l'exemple d'un échantillon aléatoire de taille 6. Dans ce cas, la médiane de l'échantillon est généralement définie comme le milieu de l'intervalle délimité par les statistiques d'ordre 3 et 4. Cependant, comme nous l'avons vu précédemment, la probabilité que cet intervalle contienne effectivement la médiane de la population est de 1/2.

Bien que la médiane de l'échantillon soit probablement parmi les meilleures estimations ponctuelles de la médiane de la population, indépendantes de la distribution, cet exemple illustre qu'elle n'est pas particulièrement performante en valeur absolue. Dans ce cas précis, un meilleur intervalle de confiance pour la médiane est celui délimité par les statistiques d'ordre 2 et 5, qui contient la médiane de la population avec une probabilité de 1/2.

Avec un échantillon aussi petit, si l'on souhaite un niveau de confiance d'au moins 95 %, on est amené à affirmer que la médiane se situe entre le minimum et le maximum des 6 observations avec une probabilité de 31/32, soit environ 97 %. Un échantillon de taille 6 est en effet le plus petit échantillon pour lequel l'intervalle formé par le minimum et le maximum constitue un intervalle de confiance d'au moins 95 % pour la médiane de la population.

Tailles d'échantillon importantes

Pour la distribution uniforme, lorsque n tend vers l'infini, le p ^-ième quantile de l'échantillon suit asymptotiquement une loi normale , puisqu'il est approximé par

Pour une distribution générale F avec une densité continue non nulle en F ⁻¹ ( p ), une normalité asymptotique similaire s'applique :

où f est la fonction de densité et F ⁻¹ la fonction quantile associée à F. Frederick Mosteller fut l'un des premiers à mentionner et à démontrer ce résultat dans son article fondateur de 1946 Des recherches ultérieures ont conduit, dans les années 1960, à la représentation de Bahadur, qui fournit des informations sur les bornes d'erreur. La convergence vers une distribution normale est également valable dans un sens plus fort, comme la convergence en entropie relative ou la divergence de Kullback-Leibler .

Une observation intéressante peut être faite lorsque la distribution est symétrique et que la médiane de la population est égale à sa moyenne. Dans ce cas, la moyenne de l'échantillon , d'après le théorème central limite , suit également une loi normale asymptotique, mais de variance σ² ^/n . Cette analyse asymptotique suggère que la moyenne est plus performante que la médiane pour les faibles valeurs de kurtosis , et inversement. Par exemple, la médiane fournit de meilleurs intervalles de confiance pour la distribution de Laplace , tandis que la moyenne est plus performante pour les variables aléatoires suivant une loi normale.

Preuve

Il est possible de démontrer que

où

avec Z _i étant des variables aléatoires exponentielles indépendantes et identiquement distribuées avec un taux de 1. Puisque X / n et Y / n sont asymptotiquement normalement distribués par le CLT, nos résultats découlent de l'application de la méthode delta .

Information mutuelle des statistiques de commande

L' information mutuelle et la f-divergence entre les statistiques d'ordre ont également été étudiées. Par exemple, si la distribution parente est continue, alors pour tout . Autrement dit, l'information mutuelle est indépendante de la distribution parente. Pour les variables aléatoires discrètes, l'égalité n'est pas nécessairement vérifiée et nous avons seulement .

L'information mutuelle entre les statistiques d'ordre uniformes est donnée par où où est le -ième nombre harmonique.

Application : Estimation de densité non paramétrique

Les moments de la distribution de la statistique du premier ordre peuvent être utilisés pour développer un estimateur de densité non paramétrique. Supposons que nous souhaitions estimer la densité au point . Considérons les variables aléatoires , qui sont indépendantes et identiquement distribuées (i.i.d.) de fonction de répartition . En particulier, .

La valeur attendue de la statistique du premier ordre, étant donné un échantillon d' observations totales, donne :

où est la fonction quantile associée à la distribution , et . Cette équation, combinée à une technique de jackknife , constitue la base de l'algorithme d'estimation de densité suivant :

 Entrée : Un échantillon d’ observations. Points d’évaluation de la densité. Paramètre de réglage (généralement 1/3). $Résultat : densité estimée aux points d'évaluation.$

 1 : Ensemble 2 : Ensemble 3 : Créez une matrice qui contient des sous-ensembles avec des observations chacun. $4 : Créez un vecteur pour contenir les évaluations de densité. 5 : pour faire 6 : pour faire 7 : Trouver la distance la plus proche au point actuel dans le sous-ensemble 8 : fin pour 9 : Calculer la moyenne des distances du sous-ensemble à 10 : Calculer l'estimation de densité à 11 : fin pour 12 : retour$

Contrairement aux paramètres de réglage basés sur la largeur de bande/la longueur pour les approches par histogramme et par noyau , le paramètre de réglage de l'estimateur de densité basé sur la statistique d'ordre est la taille des sous-ensembles d'échantillon. Cet estimateur est plus robuste que les approches par histogramme et par noyau ; par exemple, des densités comme la distribution de Cauchy (qui ne possède pas de moments finis) peuvent être inférées sans nécessiter de modifications spécifiques telles que des largeurs de bande basées sur l'écart interquartile . En effet, le premier moment de la statistique d'ordre existe toujours si l'espérance de la distribution sous-jacente existe, mais la réciproque n'est pas nécessairement vraie.

Traitement des variables discrètes

Supposons que les variables aléatoires iid suivent une loi discrète de fonction de répartition et de fonction de masse de probabilité . Pour calculer les probabilités des statistiques d'ordre, trois valeurs sont nécessaires : $x)=1-F(x).\end{aligned$

La fonction de répartition cumulative de la statistique d'ordre peut être calculée en remarquant que

De même, est donné par

Notez que la fonction de masse de probabilité de est simplement la différence de ces valeurs, c'est-à-dire

Statistiques de calcul d'ordre

algorithme de tri peut être utilisé et le temps d'exécution est alors de O( n log n ).

Applications

Les statistiques d'ordre trouvent des applications dans des domaines tels que la théorie de la fiabilité, les mathématiques financières, l'analyse de survie, l'épidémiologie, le sport, le contrôle de la qualité et l'évaluation des risques actuariels. Une abondante littérature est consacrée aux études sur les applications des statistiques d'ordre dans ces domaines.

Par exemple, une application récente en matière de risque actuariel peut être trouvée dans où certains principes de prime pondérée en termes de sinistres de référence et de k-ième sinistre de référence sont fournis.