Article de reference

Intervalle interquartile

Diagramme en boîte (avec intervalle interquartile) et fonction de densité de probabilité (pdf) d'une population normale N(0,σ² ) . En statistique descriptive , l' écart interqua...

Diagramme en boîte (avec intervalle interquartile) et fonction de densité de probabilité (pdf) d'une population normale N(0,σ² ) .

En statistique descriptive , l' écart interquartile ( EIQ ) est une mesure de dispersion statistique , c'est-à-dire la dispersion des données. L'EIQ peut également être appelé écart médian , quartile central , quatrième écart ou écart H. Il est défini comme la différence entre les 75e et 25e percentiles des données. Pour calculer l'EIQ, l'ensemble de données est divisé en quartiles , ou quatre parties égales ordonnées, par interpolation linéaire. [1] Ces quartiles sont notés Q1 premier quartile ), Q2 (la médiane ) et Q3 également appelé troisième quartile). Le premier quartile correspond au 25e percentile et le troisième quartile au 75e percentile donc EIQ = Q3Q1 . 1 ]

L'écart interquartile (IQR) est un exemple d' estimateur tronqué , défini comme l' étendue tronquée à 25 % , qui améliore la précision des statistiques d'un ensemble de données en éliminant les points aberrants et de faible contribution. Il est également utilisé comme mesure d'échelle robuste. Il peut être clairement visualisé par la boîte sur un diagramme en boîte .

Utiliser

Contrairement à l'étendue totale , l'étendue interquartile a un point de rupture de 25 % et est donc souvent préférée à l'étendue totale.

L'IQR est utilisé pour construire des diagrammes en boîte , des représentations graphiques simples d'une distribution de probabilité .

L'écart interquartile (IQR) est utilisé dans les entreprises comme indicateur de leurs taux de revenus .

Pour une distribution symétrique (où la médiane est égale au point médian , la moyenne des premier et troisième quartiles), la moitié de l'IQR est égale à l' écart absolu médian (MAD).

La médiane est la mesure de tendance centrale correspondante .

L'écart interquartile (IQR) peut être utilisé pour identifier les valeurs aberrantes (voir ci -dessous ). L'IQR peut également indiquer l' asymétrie de l'ensemble de données.

L'écart interquartile ou l'intervalle semi-interquartile est défini comme la moitié de l'IQR.

Algorithme

L'IQR d'un ensemble de valeurs est calculé comme la différence entre les quartiles supérieur et inférieur, Q3 et Q1 . Chaque quartile est une médiane calculée comme suit.

Étant donné un nombre pair de valeurs 2n ou impair 2n+1

premier quartile Q1 = médiane des n plus petites valeurs
troisième quartile Q 3 = médiane des n plus grandes valeurs

Le deuxième quartile Q2 est identique à la médiane ordinaire.

Exemples

Données présentées dans un tableau

Le tableau suivant comporte 13 lignes et respecte les règles relatives aux nombres impairs d'entrées.

je x[i] Médian Quartile
1 7 Q2 = 87 (médiane de l'ensemble du tableau )Q1 = 31 (médiane de la moitié inférieure, de la ligne 1 à 6)
2 7
3 31
4 31
5 47
6 75
7 87
8 115 Q3 = 119 ( médiane de la moitié supérieure, de la ligne 8 à 13)
9 116
10 119
11 119
12 155
13 177

Pour les données de ce tableau, l'écart interquartile est IQR = Q 3 − Q 1 = 119 - 31 = 88.

Données présentées sous forme de diagramme en boîte à texte brut

 +−−−−−+−+ * |−−−−−−−−−−−| | |−−−−−−−−−−−| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Ligne numérique 0 1 2 3 4 5 6 7 8 9 10 11 12 

Pour l'ensemble de données de ce diagramme en boîte :

  • premier quartile Q1 = 7
  • Médiane (deuxième quartile) Q2 = 8,5
  • Troisième quartile supérieur Q3 = 9
  • Écart interquartile, IQR = Q3 - Q1 = 2
  • Limite inférieure de la moustache à 1,5 * IQR = Q 1 - 1,5 * IQR = 7 - 3 = 4. (S'il n'y a pas de point de données à 4, alors le point le plus bas est supérieur à 4.)
  • Moustache supérieure à 1,5 * IQR = Q 3 + 1,5 * IQR = 9 + 3 = 12. (S'il n'y a pas de point de données à 12, alors le point le plus élevé est inférieur à 12.)
  • Règle pour les deux derniers points : S'il n'y a pas de points de données aux quartiles réels, utilisez des points de données légèrement « à l'intérieur » (plus proches de la médiane) des quartiles réels.

Cela signifie que les moustaches de l’écart interquartile (1,5*IQR) peuvent avoir des longueurs inégales. La médiane, le minimum, le maximum, ainsi que le premier et le troisième quartile constituent le résumé à cinq chiffres .

Distributions

L'écart interquartile d'une distribution continue se calcule en intégrant la fonction de densité de probabilité (ce qui donne la fonction de répartition ; toute autre méthode de calcul de la fonction de répartition est également valable). Le premier quartile, Q₁ , est la valeur telle que l'intégrale de la fonction de densité de probabilité de -∞ à Q₁ est égale à 0,25, tandis que le troisième quartile, Q₃ , est la valeur telle que l'intégrale de -∞ à Q₃ est égale à 0,75. En termes de fonction de répartition, les quartiles se définissent comme suit :

où CDF −1 est la fonction quantile .

L'écart interquartile et la médiane de quelques distributions courantes sont indiqués ci-dessous.

Distribution Médian IQR
Normaleμ 2 Φ −1 (0,75)σ ≈ 1,349σ ≈ (27/20)σ
Laplaceμ 2b ln (2) ≈ 1,386b
Cauchyμ

Test de normalité de la distribution par l'écart interquartile

L'écart interquartile (IQR), la moyenne et l'écart type d'une population P peuvent être utilisés dans un test simple pour déterminer si P suit une loi normale (ou gaussienne ) . Si P suit une loi normale, alors le score standard du premier quartile, z₁ , est de −0,67 et celui du troisième quartile, z₃ , est de +0,67. Étant donné que la moyenne = l'écart type = σ pour P , si P suit une loi normale, le premier quartile

et le troisième quartile

Si les valeurs réelles des premier et troisième quartiles diffèrent sensiblement des valeurs calculées, la variable P ne suit pas une loi normale. Cependant, une distribution normale peut être facilement perturbée afin de maintenir ses écarts-types Q1 et Q2 à 0,67 et -0,67, sans pour autant suivre une loi normale (le test mentionné ci-dessus produirait alors un faux positif). Un test de normalité plus approprié, tel qu'un diagramme quantile-quantile (Q-Q plot), serait alors indiqué.

Valeurs aberrantes

Diagramme en boîte à moustaches présentant quatre valeurs aberrantes modérées et une valeur aberrante extrême. Dans ce graphique, les valeurs aberrantes modérées sont définies comme supérieures à Q3 + 1,5 IQR et les valeurs aberrantes extrêmes comme supérieures à Q3 + 3 IQR.

L'écart interquartile est souvent utilisé pour identifier les valeurs aberrantes dans les données. Ces valeurs aberrantes sont définies comme les observations inférieures à Q1 − 1,5 IQR ou supérieures à Q3 + 1,5 IQR. Sur un diagramme en boîte, les valeurs minimale et maximale comprises dans cet intervalle sont représentées par les moustaches (souvent surmontées d'une barre), et les valeurs aberrantes par des points individuels.