Histogramme

Un histogramme est une représentation visuelle de la distribution de données quantitatives. Pour construire un histogramme, la première étape consiste à « classer » (ou « regrouper ») l’ensemble des valeurs, c’est-à-dire à diviser l’ensemble des valeurs en une série d’intervalles, puis à compter le nombre de valeurs appartenant à chaque intervalle. Les classes sont généralement définies comme des intervalles consécutifs et non chevauchants d’une variable. Les classes (intervalles) sont adjacentes et sont généralement (mais pas nécessairement) de taille égale.

Les histogrammes donnent une idée approximative de la densité de la distribution sous-jacente des données et sont souvent utilisés pour l'estimation de densité : l'estimation de la fonction de densité de probabilité de la variable sous-jacente. L'aire totale d'un histogramme utilisé pour la densité de probabilité est toujours normalisée à 1. Si la longueur des intervalles sur l' axe des abscisses est égale à 1, alors un histogramme est identique à un graphique de fréquences relatives .

Les histogrammes sont parfois confondus avec les diagrammes à barres . Dans un histogramme, chaque classe correspond à une plage de valeurs différente, illustrant ainsi la distribution des valeurs. En revanche, dans un diagramme à barres, chaque barre représente une catégorie d'observations différente (par exemple, chaque barre peut représenter une population différente), permettant ainsi de comparer différentes catégories. Certains auteurs recommandent d'espacer les barres des diagrammes à barres afin de les distinguer des histogrammes.

Étymologie

Le terme « histogramme » a été introduit pour la première fois par Karl Pearson , fondateur des statistiques mathématiques , lors de cours donnés en 1892 à l'University College de Londres . On affirme parfois, à tort, que ce terme combine la racine grecque γραμμα ( gramma ; « figure » ou « dessin ») avec la racine ἱστορία (historia ; « enquête » ou « histoire »). On propose également la racine ἱστίον ( histion ), signifiant « réseau » ou « tissu » (comme dans histologie , l'étude des tissus biologiques). Ces deux étymologies sont erronées. En réalité, Pearson, qui maîtrisait parfaitement le grec ancien , a fait dériver le terme d'une autre racine grecque, homophone certes, ἱστός (« quelque chose dressé » ou « mât »), en référence aux barres verticales du graphique. Le nouveau terme de Pearson était intégré dans une série d'autres néologismes analogues , tels que stigmogramme et radiogramme .

Pearson lui-même notait en 1895 que, bien que le terme histogramme fût nouveau, le type de graphique qu'il désignait était « une forme courante de représentation graphique ». En fait, la technique consistant à utiliser un graphique à barres pour représenter des mesures statistiques a été conçue par l' économiste écossais William Playfair dans son Atlas commercial et politique (1786).

Exemples

Voici les données de l'histogramme de droite, utilisant 500 éléments :

Bin/Interval	Nombre/Fréquence
−3,5 à −2,51	9
−2,5 à −1,51	32
−1,5 à −0,51	109
−0,5 à 0,49	180
0,5 à 1,49	132
1,5 à 2,49	34
2,5 à 3,49	4

Les termes utilisés pour décrire les tendances d'un histogramme sont : « symétrique », « asymétrique à gauche » ou « asymétrique à droite », « unimodal », « bimodal » ou « multimodal ».

Symétrique, unimodal
Décalé vers la droite
Décalé vers la gauche
Bimodal
Multimodal
Symétrique

Il est judicieux de représenter graphiquement les données avec différentes largeurs de classes pour mieux les comprendre. Voici un exemple concernant les pourboires donnés dans un restaurant.

Conseils utilisant une largeur de classe de 1 $, asymétrique à droite, unimodale
Les conseils utilisant une largeur de classe de 10 centimes, toujours asymétriques à droite, multimodaux avec des modes à 1 $ et 50 centimes, indiquent un arrondi, ainsi que quelques valeurs aberrantes.

Le Bureau du recensement des États-Unis a dénombré 124 millions de personnes travaillant hors de leur domicile. À partir de leurs données sur le temps de trajet domicile-travail, le tableau ci-dessous montre que le nombre absolu de personnes ayant déclaré un temps de trajet « d’au moins 30 minutes mais de moins de 35 minutes » est supérieur aux chiffres des catégories supérieures et inférieures. Ceci est probablement dû à l’arrondi du temps de trajet déclaré. Le problème de la déclaration de valeurs arrondies , parfois arbitrairement, est un phénomène courant lors de la collecte de données auprès du grand public.

Données par nombres absolus
Intervalle	Largeur	Quantité	Quantité/largeur
0	5	4180	836
5	5	13687	2737
10	5	18618	3723
15	5	19634	3926
20	5	17981	3596
25	5	7190	1438
30	5	16369	3273
35	5	3212	642
40	5	4122	824
45	15	9200	613
60	30	6461	215
90	60	3435	57

Cet histogramme représente le nombre de cas par unité d'intervalle , la hauteur de chaque bloc correspondant à la surface de chaque bloc. L'aire sous la courbe représente le nombre total de cas (124 millions). Ce type d'histogramme affiche des valeurs absolues, Q étant exprimé en milliers.

Données par proportion
Intervalle	Largeur	Quantité (Q)	Q/total/largeur
0	5	4180	0,0067
5	5	13687	0,0221
10	5	18618	0,0300
15	5	19634	0,0316
20	5	17981	0,0290
25	5	7190	0,0116
30	5	16369	0,0264
35	5	3212	0,0052
40	5	4122	0,0066
45	15	9200	0,0049
60	30	6461	0,0017
90	60	3435	0,0005

Cet histogramme diffère du premier uniquement par son échelle verticale . L'aire de chaque bloc représente la fraction du total que représente chaque catégorie, et l'aire totale de toutes les barres est égale à 1 (la fraction signifiant « tout »). La courbe affichée est une simple estimation de densité . Cette version montre les proportions et est également connue sous le nom d'histogramme à aire unitaire.

Autrement dit, un histogramme représente une distribution de fréquences au moyen de rectangles dont la largeur représente les intervalles de classe et dont l'aire est proportionnelle aux fréquences correspondantes : la hauteur de chaque rectangle correspond à la densité de fréquence moyenne de l'intervalle. Les intervalles sont juxtaposés afin de montrer que les données représentées par l'histogramme, bien qu'exclusives, sont également contiguës. (Par exemple, dans un histogramme, il est possible d'avoir deux intervalles consécutifs de 10,5–20,5 et de 20,5–33,5, mais pas deux intervalles consécutifs de 10,5–20,5 et de 22,5–32,5. Les intervalles vides sont représentés comme tels et ne sont pas ignorés.)

Définitions mathématiques

Les données utilisées pour construire un histogramme sont générées par une fonction m _i qui compte le nombre d'observations appartenant à chacune des catégories disjointes (appelées classes ). Ainsi, si l'on note n le nombre total d'observations et k le nombre total de classes, les données de l'histogramme m _i satisfont aux conditions suivantes :

{\displaystyle n=\sum _{i=1}^{k}{m_{i}}. <semantics><mrow><mstyle><mi>n</mi><mo>=</mo><munderover><mo>∑</mo><mrow><mi>je</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi></mrow></munderover><mrow><msub><mi>m</mi><mrow><mi>je</mi></mrow></msub></mrow><mo>.</mo></mstyle></mrow><annotation>{\displaystyle n=\sum _{i=1}^{k}{m_{i}}.}</annotation></semantics></math></span><img src=

Un histogramme peut être vu comme une estimation simplifiée de la densité par noyau , utilisant un noyau pour lisser les fréquences dans les classes. On obtient ainsi une fonction de densité de probabilité plus lisse , reflétant généralement plus fidèlement la distribution de la variable sous-jacente. L'estimation de la densité peut être représentée graphiquement, alternativement à l'histogramme, et est généralement dessinée sous forme de courbe plutôt que de rectangles. Les histogrammes restent néanmoins privilégiés dans les applications nécessitant la modélisation de leurs propriétés statistiques. La variation corrélée d'une estimation de densité par noyau est très difficile à décrire mathématiquement, contrairement à un histogramme où chaque classe varie indépendamment.

Une alternative à l'estimation de densité par noyau est l'histogramme décalé moyen, qui est rapide à calculer et donne une estimation de courbe lisse de la densité sans utiliser de noyaux.

Histogramme cumulatif

Histogramme cumulatif : représentation graphique qui comptabilise le nombre cumulé d’observations dans toutes les classes jusqu’à la classe spécifiée. Autrement dit, l’histogramme cumulatif M _i d’un histogramme m  _j peut être défini comme suit :

{\displaystyle M_{i}=\sum _{j=1}^{i}{m_{j}}. <semantics><mrow><mstyle><msub><mi>M</mi><mrow><mi>je</mi></mrow></msub><mo>=</mo><munderover><mo>∑</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>je</mi></mrow></munderover><mrow><msub><mi>m</mi><mrow><mi>j</mi></mrow></msub></mrow><mo>.</mo></mstyle></mrow><annotation>{\displaystyle M_{i}=\sum _{j=1}^{i}{m_{j}}.}</annotation></semantics></math></span><img src=

Nombre de bacs et largeur

Il n'existe pas de nombre « idéal » de classes, et différentes tailles de classes peuvent révéler différentes caractéristiques des données. Le regroupement de données est au moins aussi ancien que les travaux de Graunt au XVIIe siècle, mais aucune directive systématique n'a été donnée avant les travaux de Sturges en 1926.

L'utilisation de classes plus larges là où la densité des données sous-jacentes est faible réduit le bruit dû à l'aléatoire de l'échantillonnage ; l'utilisation de classes plus étroites là où la densité est élevée (le signal masquant alors le bruit) améliore la précision de l'estimation de la densité. Il peut donc être avantageux de faire varier la largeur des classes dans un histogramme. Néanmoins, les classes de largeur égale restent les plus courantes.

Certains théoriciens ont tenté de déterminer un nombre optimal de classes, mais ces méthodes reposent généralement sur des hypothèses fortes concernant la forme de la distribution. Selon la distribution réelle des données et les objectifs de l'analyse, différentes largeurs de classes peuvent convenir ; il est donc généralement nécessaire de procéder à des essais pour déterminer une largeur appropriée. Il existe cependant diverses lignes directrices et règles empiriques utiles.

Le nombre de classes k peut être attribué directement ou calculé à partir d'une largeur de classe suggérée h comme suit :

{\displaystyle k=\left\lceil {\frac {\max x-\min x}{h}} ight ceil . <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mrow><mo>⌈</mo><mrow><mfrac><mrow><mo>max</mo><mi>x</mi><mo>−</mo><mo>min</mo><mi>x</mi></mrow><mi>h</mi></mfrac></mrow><mo>⌉</mo></mrow><mo>.</mo></mstyle></mrow><annotation>{\displaystyle k=\left\lceil {\frac {\max x-\min x}{h}} ight ceil .}</annotation></semantics></math></span><img src=

Les accolades indiquent la fonction de plafond .

Choix de la racine carrée

{\displaystyle k=\lceil {\sqrt {n}} ceil \, <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mo>⌈</mo><mrow><msqrt><mi>n</mi></msqrt></mrow><mo>⌉</mo><mspace></mspace></mstyle></mrow><annotation>{ displaystyle k = lceil { sqrt {n}} rceil \,}</annotation></semantics></math></span><img src=

qui prend la racine carrée du nombre de points de données dans l'échantillon et arrondit à l' entier supérieur . Cette règle est suggérée par plusieurs manuels de statistiques élémentaires et largement implémentée dans de nombreux logiciels.

La formule de Sturges

La règle de Sturges est dérivée d'une distribution binomiale et suppose implicitement une distribution approximativement normale.

{\displaystyle k=\lceil \log _{2}n ceil +1,\, <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mo>⌈</mo><msub><mi>enregistrer</mi><mrow><mn>2</mn></mrow></msub><mo>⁡</mo><mi>n</mi><mo>⌉</mo><mo>+</mo><mn>1</mn><mo>,</mo><mspace></mspace></mstyle></mrow><annotation>{\displaystyle k=\lceil \log _{2}n ceil +1,\,}</annotation></semantics></math></span><img src=

La formule de Sturges base implicitement la taille des classes sur l'étendue des données et peut donner de mauvais résultats si n < 30 , car le nombre de classes sera faible (moins de sept) et il est peu probable qu'elle permette de bien mettre en évidence les tendances dans les données. À l'inverse, cette formule peut surestimer la largeur des classes pour les très grands ensembles de données, ce qui entraîne des histogrammes trop lissés. Elle peut également donner de mauvais résultats si les données ne suivent pas une distribution normale.

Comparée à la règle de Scott et à la règle de Terrell-Scott, deux autres formules largement acceptées pour les classes d'histogramme, la sortie de la formule de Sturges est la plus proche lorsque n ≈ 100 .

Règle du riz

{\displaystyle k=\lceil 2{\sqrt[{3}]{n}} ceil <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mo>⌈</mo><mn>2</mn><mrow><mroot><mi>n</mi><mrow><mn>3</mn></mrow></mroot></mrow><mo>⌉</mo></mstyle></mrow><annotation>{\displaystyle k=\lceil 2{\sqrt[{3}]{n}} ceil }</annotation></semantics></math></span><img src=

La règle de Rice est présentée comme une alternative simple à la règle de Sturges.

La formule de Doane

La formule de Doane est une modification de la formule de Sturges qui tente d'améliorer ses performances avec des données non normales.

{\displaystyle k=1+\log _{2}(n)+\log _{2}\left(1+{\frac {|g_{1}|}{\sigma _{g_{1}}}} ight) <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mn>1</mn><mo>+</mo><msub><mi>enregistrer</mi><mrow><mn>2</mn></mrow></msub><mo>⁡</mo><mo>(</mo><mi>n</mi><mo>)</mo><mo>+</mo><msub><mi>enregistrer</mi><mrow><mn>2</mn></mrow></msub><mo>⁡</mo><mrow><mo>(</mo><mrow><mn>1</mn><mo>+</mo><mrow><mfrac><mrow><mrow><mo>|</mo></mrow><msub><mi>g</mi><mrow><mn>1</mn></mrow></msub><mrow><mo>|</mo></mrow></mrow><msub><mi>σ</mi><mrow><msub><mi>g</mi><mrow><mn>1</mn></mrow></msub></mrow></msub></mfrac></mrow></mrow><mo>)</mo></mrow></mstyle></mrow><annotation>{\displaystyle k=1+\log _{2}(n)+\log _{2}\left(1+{\frac {|g_{1}|}{\sigma _{g_{1}}}} ight)}</annotation></semantics></math></span><img src=

où représente l' asymétrie du troisième moment estimée de la distribution et ${\displaystyle g_{1 <semantics><mrow><mstyle><msub><mi>g</mi><mrow><mn>1</mn></mrow></msub></mstyle></mrow><annotation>{\displaystyle g_{1}}</annotation></semantics></math><img src=$

{\displaystyle \sigma _{g_{1}}={\sqrt {\frac {6(n-2)}{(n+1)(n+3) <semantics><mrow><mstyle><msub><mi>σ</mi><mrow><msub><mi>g</mi><mrow><mn>1</mn></mrow></msub></mrow></msub><mo>=</mo><mrow><msqrt><mfrac><mrow><mn>6</mn><mo>(</mo><mi>n</mi><mo>−</mo><mn>2</mn><mo>)</mo></mrow><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mn>1</mn><mo>)</mo><mo>(</mo><mi>n</mi><mo>+</mo><mn>3</mn><mo>)</mo></mrow></mfrac></msqrt></mrow></mstyle></mrow><annotation>{\displaystyle \sigma _{g_{1}}={\sqrt {\frac {6(n-2)}{(n+1)(n+3)}}}}</annotation></semantics></math></span><img src=

La règle de référence normale de Scott

La largeur des bins est donnée par ${\displaystyle h <semantics><mrow><mstyle><mi>h</mi></mstyle></mrow><annotation>{\displaystyle h}</annotation></semantics></math><img src=$

{\displaystyle h={\frac {3.49{\hat {\sigma }}}{\sqrt[{3}]{n}}}, <semantics><mrow><mstyle><mi>h</mi><mo>=</mo><mrow><mfrac><mrow><mn>3,49</mn><mrow><mrow><mover><mi>σ</mi><mo>^</mo></mover></mrow></mrow></mrow><mroot><mi>n</mi><mrow><mn>3</mn></mrow></mroot></mfrac></mrow><mo>,</mo></mstyle></mrow><annotation>{\displaystyle h={\frac {3.49{\hat {\sigma }}}{\sqrt[{3}]{n}}},}</annotation></semantics></math></span><img src=

où σ représente l' écart type de l'échantillon . La règle de référence normale de Scott est optimale pour les échantillons aléatoires de données normalement distribuées, en ce sens qu'elle minimise l'erreur quadratique moyenne intégrée de l'estimation de la densité. Il s'agit de la règle par défaut utilisée dans Microsoft Excel. ${\displaystyle {\hat {\sigma <semantics><mrow><mstyle><mrow><mrow><mover><mi>σ</mi><mo>^</mo></mover></mrow></mrow></mstyle></mrow><annotation>{ displaystyle { hat { sigma}}}</annotation></semantics></math><img src=$

Règle Terrell-Scott

{\displaystyle k={\sqrt[{3}]{2n <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mrow><mroot><mrow><mn>2</mn><mi>n</mi></mrow><mrow><mn>3</mn></mrow></mroot></mrow></mstyle></mrow><annotation>{\displaystyle k={\sqrt[{3}]{2n}}}</annotation></semantics></math></span><img src=

La règle de Terrell-Scott n'est pas une règle de référence classique. Elle donne le nombre minimal de classes requis pour un histogramme asymptotiquement optimal, l'optimalité étant mesurée par l'erreur quadratique moyenne intégrée. La borne est obtenue en déterminant la densité la plus « lisse » possible, qui s'avère être . Toute autre densité nécessitera davantage de classes ; c'est pourquoi cette estimation est également appelée règle « sur-lissée ». La similarité des formules et le fait que Terrell et Scott travaillaient à l'Université Rice lors de sa proposition suggèrent que cette dernière est également à l'origine de la règle de Rice. ${\displaystyle {\frac {3}{4}}(1-x^{2}) <semantics><mrow><mstyle><mrow><mfrac><mn>3</mn><mn>4</mn></mfrac></mrow><mo>(</mo><mn>1</mn><mo>−</mo><msup><mi>x</mi><mrow><mn>2</mn></mrow></msup><mo>)</mo></mstyle></mrow><annotation>{\displaystyle {\frac {3}{4}}(1-x^{2})}</annotation></semantics></math><img src=$

Règle Freedman-Diaconis

La règle de Freedman–Diaconis donne la largeur des intervalles comme suit : ${\displaystyle h <semantics><mrow><mstyle><mi>h</mi></mstyle></mrow><annotation>{\displaystyle h}</annotation></semantics></math><img src=$

{\displaystyle h=2{\frac {\operatorname {IQR} (x)}{\sqrt[{3}]{n}}}, <semantics><mrow><mstyle><mi>h</mi><mo>=</mo><mn>2</mn><mrow><mfrac><mrow><mi>IQR</mi><mo>⁡</mo><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mroot><mi>n</mi><mrow><mn>3</mn></mrow></mroot></mfrac></mrow><mo>,</mo></mstyle></mrow><annotation>{\displaystyle h=2{\frac {\operatorname {IQR} (x)}{\sqrt[{3}]{n}}},}</annotation></semantics></math></span><img src=

Cette méthode est basée sur l' écart interquartile , noté IQR. Elle remplace 3,5σ (règle de Scott) par 2 IQR, moins sensible aux valeurs aberrantes que l'écart type.

Minimisation de l'erreur quadratique estimée par validation croisée

Cette approche de minimisation de l'erreur quadratique moyenne intégrée de la règle de Scott peut être généralisée au-delà des distributions normales, en utilisant la validation croisée leave-one-out :

{\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\hat {J}}(h)={\underset {h}{\operatorname {arg\,min} }}\left({\frac {2}{(n-1)h}}-{\frac {n+1}{n^{2}(n-1)h}}\sum _{k}N_{k}^{2} ight) <semantics><mrow><mstyle><mrow><munder><mrow><mi>un</mi><mi>r</mi><mi>g</mi><mspace></mspace><mi>m</mi><mi>je</mi><mi>n</mi></mrow><mi>h</mi></munder></mrow><mrow><mrow><mover><mi>J</mi><mo>^</mo></mover></mrow></mrow><mo>(</mo><mi>h</mi><mo>)</mo><mo>=</mo><mrow><munder><mrow><mi>un</mi><mi>r</mi><mi>g</mi><mspace></mspace><mi>m</mi><mi>je</mi><mi>n</mi></mrow><mi>h</mi></munder></mrow><mrow><mo>(</mo><mrow><mrow><mfrac><mn>2</mn><mrow><mo>(</mo><mi>n</mi><mo>−</mo><mn>1</mn><mo>)</mo><mi>h</mi></mrow></mfrac></mrow><mo>−</mo><mrow><mfrac><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow><mrow><msup><mi>n</mi><mrow><mn>2</mn></mrow></msup><mo>(</mo><mi>n</mi><mo>−</mo><mn>1</mn><mo>)</mo><mi>h</mi></mrow></mfrac></mrow><munder><mo>∑</mo><mrow><mi>k</mi></mrow></munder><msubsup><mi>N</mi><mrow><mi>k</mi></mrow><mrow><mn>2</mn></mrow></msubsup></mrow><mo>)</mo></mrow></mstyle></mrow><annotation>{\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\hat {J}}(h)={\underset {h}{\operatorname {arg\,min} }}\left({\frac {2}{(n-1)h}}-{\frac {n+1}{n^{2}(n-1)h}}\sum _{k}N_{k}^{2} ight)}</annotation></semantics></math></span><img src=

Ici, représente le nombre de points de données dans la k -ième classe, et choisir la valeur de h qui minimise J minimisera l'erreur quadratique moyenne intégrée. ${\displaystyle N_{k <semantics><mrow><mstyle><msub><mi>N</mi><mrow><mi>k</mi></mrow></msub></mstyle></mrow><annotation>{\displaystyle N_{k}}</annotation></semantics></math><img src=$

Le choix de Shimazaki et Shinomoto

Le choix est basé sur la minimisation d'une fonction de risque L ^{2 estimée}

{\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2{\bar {m}}-v}{h^{2 <semantics><mrow><mstyle><mrow><munder><mrow><mi>un</mi><mi>r</mi><mi>g</mi><mspace></mspace><mi>m</mi><mi>je</mi><mi>n</mi></mrow><mi>h</mi></munder></mrow><mrow><mfrac><mrow><mn>2</mn><mrow><mrow><mover><mi>m</mi><mo>¯</mo></mover></mrow></mrow><mo>−</mo><mi>v</mi></mrow><msup><mi>h</mi><mrow><mn>2</mn></mrow></msup></mfrac></mrow></mstyle></mrow><annotation>{\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2{\bar {m}}-v}{h^{2}}}}</annotation></semantics></math></span><img src=

où et sont la moyenne et la variance biaisée d'un histogramme avec une largeur de classe , et . ${\displaystyle extstyle {\bar {m <semantics><mrow><mstyle><mstyle><mrow><mrow><mover><mi>m</mi><mo>¯</mo></mover></mrow></mrow></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle {\bar {m}}}</annotation></semantics></math><img src=$ ${\displaystyle extstyle v <semantics><mrow><mstyle><mstyle><mi>v</mi></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle v}</annotation></semantics></math><img src=$ ${\displaystyle extstyle h <semantics><mrow><mstyle><mstyle><mi>h</mi></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle h}</annotation></semantics></math><img src=$ ${\displaystyle extstyle {\bar {m}}={\frac {1}{k}}\sum _{i=1}^{k}m_{i <semantics><mrow><mstyle><mstyle><mrow><mrow><mover><mi>m</mi><mo>¯</mo></mover></mrow></mrow><mo>=</mo><mrow><mfrac><mn>1</mn><mi>k</mi></mfrac></mrow><munderover><mo>∑</mo><mrow><mi>je</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi></mrow></munderover><msub><mi>m</mi><mrow><mi>je</mi></mrow></msub></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle {\bar {m}}={\frac {1}{k}}\sum _{i=1}^{k}m_{i}}</annotation></semantics></math><img src=$ ${\displaystyle extstyle v={\frac {1}{k}}\sum _{i=1}^{k}(m_{i}-{\bar {m}})^{2 <semantics><mrow><mstyle><mstyle><mi>v</mi><mo>=</mo><mrow><mfrac><mn>1</mn><mi>k</mi></mfrac></mrow><munderover><mo>∑</mo><mrow><mi>je</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi></mrow></munderover><mo>(</mo><msub><mi>m</mi><mrow><mi>je</mi></mrow></msub><mo>−</mo><mrow><mrow><mover><mi>m</mi><mo>¯</mo></mover></mrow></mrow><msup><mo>)</mo><mrow><mn>2</mn></mrow></msup></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle v={\frac {1}{k}}\sum _{i=1}^{k}(m_{i}-{\bar {m}})^{2}}</annotation></semantics></math><img src=$

largeurs de bacs variables

Plutôt que de choisir des classes équidistantes, il est parfois préférable de faire varier leur largeur. Cela permet d'éviter les classes contenant peu d'éléments. On choisit souvent des classes équiprobables , c'est-à-dire que le nombre d'échantillons dans chaque classe est approximativement égal. Les classes peuvent être choisies selon une distribution connue ou en fonction des données, de sorte que chaque classe contienne suffisamment d'échantillons. Lors de la construction de l'histogramme, la densité de fréquence est utilisée pour l'axe des ordonnées. Bien que toutes les classes aient une aire approximativement égale, les hauteurs de l'histogramme correspondent approximativement à la distribution de densité. ${\displaystyle \approx n/k <semantics><mrow><mstyle><mo>≈</mo><mi>n</mi><mrow><mo>/</mo></mrow><mi>k</mi></mstyle></mrow><annotation>{\displaystyle \approx n/k}</annotation></semantics></math><img src=$

Pour les classes équiprobables, la règle suivante concernant le nombre de classes est suggérée :

{\displaystyle k=2n^{2/5 <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mn>2</mn><msup><mi>n</mi><mrow><mn>2</mn><mrow><mo>/</mo></mrow><mn>5</mn></mrow></msup></mstyle></mrow><annotation>{\displaystyle k=2n^{2/5}}</annotation></semantics></math></span><img src=

Ce choix de classes est motivé par la maximisation de la puissance d'un test du chi carré de Pearson visant à vérifier si les classes contiennent un nombre égal d'échantillons. Plus précisément, pour un intervalle de confiance donné, il est recommandé de choisir entre 1/2 et 1 fois l'équation suivante : ${\displaystyle \alpha <semantics><mrow><mstyle><mi>α</mi></mstyle></mrow><annotation>{\displaystyle \alpha }</annotation></semantics></math><img src=$

{\displaystyle k=4\left({\frac {2n^{2}}{\Phi ^{-1}(\alpha )}} ight)^{\frac {1}{5 <semantics><mrow><mstyle><mi>k</mi><mo>=</mo><mn>4</mn><msup><mrow><mo>(</mo><mrow><mfrac><mrow><mn>2</mn><msup><mi>n</mi><mrow><mn>2</mn></mrow></msup></mrow><mrow><msup><mi>Φ</mi><mrow><mo>−</mo><mn>1</mn></mrow></msup><mo>(</mo><mi>α</mi><mo>)</mo></mrow></mfrac></mrow><mo>)</mo></mrow><mrow><mfrac><mn>1</mn><mn>5</mn></mfrac></mrow></msup></mstyle></mrow><annotation>{\displaystyle k=4\left({\frac {2n^{2}}{\Phi ^{-1}(\alpha )}} ight)^{\frac {1}{5}}}</annotation></semantics></math></span><img src=

Où se trouve la fonction probit ? En suivant cette règle pour , on obtiendrait entre et ; le coefficient 2 est choisi comme valeur facile à retenir parmi cet optimum général. ${\displaystyle \Phi ^{-1 <semantics><mrow><mstyle><msup><mi>Φ</mi><mrow><mo>−</mo><mn>1</mn></mrow></msup></mstyle></mrow><annotation>{\displaystyle \Phi ^{-1}}</annotation></semantics></math><img src=$ ${\displaystyle \alpha =0.05 <semantics><mrow><mstyle><mi>α</mi><mo>=</mo><mn>0,05</mn></mstyle></mrow><annotation>{\displaystyle \alpha =0.05}</annotation></semantics></math><img src=$ ${\displaystyle 1.88n^{2/5 <semantics><mrow><mstyle><mn>1,88</mn><msup><mi>n</mi><mrow><mn>2</mn><mrow><mo>/</mo></mrow><mn>5</mn></mrow></msup></mstyle></mrow><annotation>{\displaystyle 1.88n^{2/5}}</annotation></semantics></math><img src=$ ${\displaystyle 3.77n^{2/5 <semantics><mrow><mstyle><mn>3,77</mn><msup><mi>n</mi><mrow><mn>2</mn><mrow><mo>/</mo></mrow><mn>5</mn></mrow></msup></mstyle></mrow><annotation>{\displaystyle 3.77n^{2/5}}</annotation></semantics></math><img src=$

Remarque

Une bonne raison pour laquelle le nombre de classes doit être proportionnel à est la suivante : supposons que les données soient obtenues comme des réalisations indépendantes d'une distribution de probabilité bornée à densité régulière. L'histogramme reste alors tout aussi « turbulent » lorsque tend vers l'infini. Si est la « largeur » de la distribution (par exemple, l'écart type ou l'écart interquartile), alors le nombre d'unités dans une classe (la fréquence) est de l'ordre de et l' erreur standard relative est de l'ordre de . Par rapport à la classe suivante, la variation relative de la fréquence est de l'ordre de à condition que la dérivée de la densité soit non nulle. Ces deux grandeurs sont du même ordre si est de l'ordre de , donc est de l'ordre de . Ce choix simple de racine cubique peut également être appliqué aux classes de largeur non constante. ${\displaystyle {\sqrt[{3}]{n <semantics><mrow><mstyle><mrow><mroot><mi>n</mi><mrow><mn>3</mn></mrow></mroot></mrow></mstyle></mrow><annotation>{\displaystyle {\sqrt[{3}]{n}}}</annotation></semantics></math><img src=$ ${\displaystyle n <semantics><mrow><mstyle><mi>n</mi></mstyle></mrow><annotation>{\displaystyle n}</annotation></semantics></math><img src=$ ${\displaystyle n <semantics><mrow><mstyle><mi>n</mi></mstyle></mrow><annotation>{\displaystyle n}</annotation></semantics></math><img src=$ ${\displaystyle s <semantics><mrow><mstyle><mi>s</mi></mstyle></mrow><annotation>{\displaystyle s}</annotation></semantics></math><img src=$ ${\displaystyle nh/s <semantics><mrow><mstyle><mi>n</mi><mi>h</mi><mrow><mo>/</mo></mrow><mi>s</mi></mstyle></mrow><annotation>{\displaystyle nh/s}</annotation></semantics></math><img src=$ ${\displaystyle {\sqrt {s/(nh) <semantics><mrow><mstyle><mrow><msqrt><mi>s</mi><mrow><mo>/</mo></mrow><mo>(</mo><mi>n</mi><mi>h</mi><mo>)</mo></msqrt></mrow></mstyle></mrow><annotation>{\displaystyle {\sqrt {s/(nh)}}}</annotation></semantics></math><img src=$ ${\displaystyle h/s <semantics><mrow><mstyle><mi>h</mi><mrow><mo>/</mo></mrow><mi>s</mi></mstyle></mrow><annotation>{\displaystyle h/s}</annotation></semantics></math><img src=$ ${\displaystyle h <semantics><mrow><mstyle><mi>h</mi></mstyle></mrow><annotation>{\displaystyle h}</annotation></semantics></math><img src=$ ${\displaystyle s/{\sqrt[{3}]{n <semantics><mrow><mstyle><mi>s</mi><mrow><mo>/</mo></mrow><mrow><mroot><mi>n</mi><mrow><mn>3</mn></mrow></mroot></mrow></mstyle></mrow><annotation>{\displaystyle s/{\sqrt[{3}]{n}}}</annotation></semantics></math><img src=$ ${\displaystyle k <semantics><mrow><mstyle><mi>k</mi></mstyle></mrow><annotation>{\displaystyle k}</annotation></semantics></math><img src=$ ${\displaystyle {\sqrt[{3}]{n <semantics><mrow><mstyle><mrow><mroot><mi>n</mi><mrow><mn>3</mn></mrow></mroot></mrow></mstyle></mrow><annotation>{\displaystyle {\sqrt[{3}]{n}}}</annotation></semantics></math><img src=$

Applications

En hydrologie, l'histogramme et la fonction de densité estimée des données de précipitations et de débit fluvial, analysés à l'aide d'une distribution de probabilité , sont utilisés pour mieux comprendre leur comportement et leur fréquence d'occurrence. Un exemple est présenté dans la figure bleue.
De nombreux logiciels de traitement d'images numériques disposent d'un outil histogramme qui affiche la distribution du contraste /de la luminosité des pixels .
Histogramme du contraste