Niveau de mesure

variables . Le psychologue Stanley Smith Stevens a développé la classification la plus connue, comportant quatre niveaux, ou échelles, de mesure : nominal , ordinal , d'intervalle et de rapport . Ce cadre de distinction des niveaux de mesure, issu de la psychologie, a connu une histoire complexe : il a été adopté et étendu dans certaines disciplines et par certains chercheurs, et critiqué ou rejeté par d'autres. on peut citer celles de Mosteller et Tukey [ et de Chrisman.

Stevens a proposé sa typologie dans un article de 1946 paru dans la revue Science et intitulé « Sur la théorie des échelles de mesure » . Dans cet article, Stevens affirmait que toute mesure en science était effectuée à l'aide de quatre types d'échelles différents qu'il nommait « nominale », « ordinale », « d'intervalle » et « de rapport », unifiant ainsi les mesures « qualitatives » (décrites par son type « nominal ») et « quantitatives » (à des degrés divers, toutes les autres échelles). Le concept de types d'échelles a par la suite acquis la rigueur mathématique qui lui faisait défaut à ses débuts grâce aux travaux des psychologues mathématiciens Theodore Alper (1985, 1987), Louis Narens (1981a, b) et R. Duncan Luce (1986, 1987, 2001). Comme l'écrivait Luce (1997, p. 395) :

S.S. Stevens (1946, 1951, 1975) affirmait que l'important était de disposer d'une échelle d'intervalle ou de rapport. Des recherches ultérieures ont étayé cette affirmation, mais compte tenu de ses tentatives d'invoquer des notions d'échelle, il est douteux qu'il l'ait lui-même comprise … aucun théoricien de la mesure que je connaisse n'accepte la définition large de la mesure proposée par Stevens… [soulignement ajouté] Selon nous, le seul sens sensé du terme « règle » désigne des lois empiriquement vérifiables concernant l'attribut.

classer .

La mesure nominale peut différencier les éléments ou les sujets uniquement sur la base de leurs noms ou (méta-)catégories et autres classifications qualitatives auxquelles ils appartiennent. Ainsi, il a été avancé que même les données dichotomiques reposent sur une épistémologie constructiviste . Dans ce cas, la découverte d'une exception à une classification peut être considérée comme un progrès.

Des nombres peuvent être utilisés pour représenter les variables, mais ces nombres n'ont pas de valeur numérique ni de relation : par exemple, un identifiant unique global .

Ces classifications peuvent notamment prendre en compte le sexe, la nationalité, l'origine ethnique, la langue, le genre littéraire, le style, l'espèce biologique et la forme. À l'université, on pourrait également citer la résidence universitaire ou l'appartenance à un département. Voici d'autres exemples concrets :

En grammaire , les parties du discours : nom, verbe, préposition, article, pronom, etc.
En politique, projection de puissance : puissance dure, puissance douce, etc.
En biologie, la classification taxonomique se fait selon les domaines suivants : règne, embranchement, classe, etc.
En génie logiciel , types de défauts : défauts de spécification, défauts de conception et défauts de code.

Les échelles nominales étaient souvent appelées échelles qualitatives, et les mesures effectuées sur ces échelles, données qualitatives. Cependant, l'essor de la recherche qualitative a rendu cet usage confus. Dans une mesure nominale, les nombres utilisés comme étiquettes n'ont ni valeur numérique ni signification précise. Aucun calcul arithmétique (+, −, ×, etc.) ne peut être effectué sur ces mesures.

opérations mathématiques

L'égalité et les autres opérations qui peuvent être définies en termes d'égalité, telles que l'inégalité et l'appartenance à un ensemble , sont les seules opérations non triviales qui s'appliquent de manière générique aux objets du type nominal.

Tendance centrale

Le mode , c'est-à-dire l' élément le plus fréquent , est autorisé comme mesure de tendance centrale pour le type nominal.

Échelle ordinale

ordre de mérite (1er, 2e, 3e, etc.), mais ne permet pas d'exprimer un degré relatif de différence entre elles. On peut citer comme exemples, d'une part, les données dichotomiques avec des valeurs dichotomiques (ou dichotomisées) telles que « malade » et « en bonne santé » pour mesurer la santé, « coupable » et « non coupable » dans le cadre des jugements judiciaires, « faux » et « vrai » pour mesurer la valeur de vérité ; et d'autre part, les données non dichotomiques constituées d'un spectre de valeurs, telles que « tout à fait d'accord », « plutôt d'accord », « plutôt en désaccord », « tout à fait en désaccord » pour mesurer une opinion .

L'échelle ordinale classe les événements par ordre, sans pour autant imposer une règle d'égalité entre ses intervalles. Les classements constituent une représentation des échelles ordinales et sont fréquemment utilisés dans les recherches portant sur des phénomènes qualitatifs. Le classement d'un étudiant dans sa promotion illustre ce principe. Il convient d'être très prudent lorsqu'on interprète des résultats basés sur des échelles ordinales. Par exemple, si Devi est 10e et Ganga 40e, on ne peut pas affirmer que le classement de Devi est quatre fois meilleur que celui de Ganga. Les échelles ordinales permettent uniquement de classer les éléments du plus élevé au plus bas. Les mesures ordinales n'ont pas de valeur absolue, et les différences réelles entre deux rangs adjacents peuvent varier. On peut seulement constater qu'une personne se situe plus haut ou plus bas sur l'échelle qu'une autre, sans pouvoir établir de comparaisons plus précises. Ainsi, l'utilisation d'une échelle ordinale implique une affirmation de type « supérieur à » ou « inférieur à » (une affirmation d'égalité est également acceptable) sans qu'il soit possible de préciser l'ampleur de cette différence. La différence réelle entre les rangs 1 et 2, par exemple, peut être supérieure ou inférieure à la différence entre les rangs 5 et 6.

Tendance centrale et dispersion

Selon Stevens, pour les données ordinales, la mesure de tendance centrale appropriée est la médiane (le mode est également autorisé, mais pas la moyenne), et la mesure de dispersion appropriée est le percentile ou le quartile (l'écart type n'est pas autorisé). Ces restrictions impliqueraient que les corrélations ne peuvent être évaluées qu'à l'aide de méthodes de classement, et la signification statistique qu'à l'aide de méthodes non paramétriques (RM Kothari, 2004). Cependant, ces restrictions ne font pas l'unanimité parmi les statisticiens.

En 1946, Stevens observait que les mesures psychologiques, telles que la mesure des opinions, opèrent généralement sur des échelles ordinales ; ainsi, selon ses critères, les moyennes et les écarts-types n’ont aucune validité , mais peuvent servir à améliorer l’opérationnalisation des variables utilisées dans les questionnaires . De fait, la plupart des données psychologiques recueillies par les instruments et tests psychométriques , mesurant les aptitudes cognitives et autres, sont ordinales (Cliff, 1996 ; Cliff & Keats, 2003 ; Michell, 2008). En particulier, les scores de QI reflètent une échelle ordinale, où tous les scores ne sont significatifs qu’à des fins de comparaison. Il n’existe pas de point zéro représentant une absence d’intelligence, et une différence de 10 points peut avoir des significations différentes selon les points de l’échelle.

Échelle d'intervalle

Le type « intervalle » permet de définir le degré de différence entre des mesures, mais pas leur rapport. On peut citer comme exemples les échelles de température en degrés Celsius , une date mesurée à partir d'une époque arbitraire (comme l'an 10), une position en coordonnées cartésiennes et une direction mesurée en degrés par rapport au nord géographique ou magnétique. Les rapports n'ont pas de sens, car on ne peut pas dire que 20 °C est « deux fois plus chaud » que 10 °C, ni effectuer directement une multiplication ou une division entre deux dates. En revanche, il est possible d'exprimer des rapports de différences ; par exemple, une différence peut être le double d'une autre. Ainsi, la différence de dix degrés entre 15 °C et 25 °C est le double de la différence de cinq degrés entre 17 °C et 22 °C.

Tendance centrale et dispersion

Selon Stevens, le mode , la médiane et la moyenne arithmétique permettent de mesurer la tendance centrale des variables d'intervalle, tandis que les mesures de dispersion statistique incluent l'étendue et l'écart type . Puisqu'on ne peut diviser que par les différences , il est impossible de définir des mesures nécessitant des rapports, comme le coefficient de variation . Plus subtilement, bien qu'il soit possible de définir des moments par rapport à l' origine , seuls les moments centrés sont pertinents, le choix de l'origine étant arbitraire. On peut définir des moments standardisés , car les rapports de différences sont significatifs, mais on ne peut définir le coefficient de variation, car la moyenne est un moment par rapport à l'origine, contrairement à l'écart type, qui est (la racine carrée d') un moment centré.

Échelle de rapport

Voir aussi : unité de mesure de même nature (Michell, 1997, 1999). La plupart des mesures en sciences physiques et en ingénierie sont effectuées sur des échelles de rapport. On peut citer comme exemples la masse , la longueur , la durée , l'angle plan , l'énergie et la charge électrique . Contrairement aux échelles d'intervalles, les rapports peuvent être comparés par division . Les échelles de rapport sont souvent utilisées pour exprimer un ordre de grandeur, comme par exemple pour la température (ordres de grandeur de la température) .

Tendance centrale et dispersion

Selon Stevens, la moyenne géométrique et la moyenne harmonique sont autorisées pour mesurer la tendance centrale, en plus du mode, de la médiane et de la moyenne arithmétique. L' étendue studentisée et le coefficient de variation sont autorisés pour mesurer la dispersion statistique. Toutes les mesures statistiques sont autorisées car toutes les opérations mathématiques nécessaires sont définies pour l'échelle de rapport.

Débat sur la typologie de Stevens

Bien que la typologie de Stevens soit largement adoptée, elle est encore contestée par d'autres théoriciens, notamment en ce qui concerne les types nominal et ordinal (Michell, 1986). Duncan (1986), par exemple, s'est opposé à l'utilisation du terme « mesure » en relation avec le type nominal et Luce (1997) a contesté la définition de la mesure proposée par Stevens.

En revanche, Stevens (1975) affirmait, au sujet de sa propre définition de la mesure, que « l’affectation peut être n’importe quelle règle cohérente. La seule règle non autorisée serait l’affectation aléatoire, car l’aléatoire équivaut en fait à une absence de règle ». Hand déclare : « Les manuels de psychologie fondamentale commencent souvent par le cadre théorique de Stevens, et ses idées sont omniprésentes. De fait, la validité essentielle de sa hiérarchie a été établie pour la mesure représentationnelle par les mathématiciens, qui ont déterminé les propriétés d’invariance des applications des systèmes empiriques aux continus de nombres réels. Certes, ces idées ont été révisées, étendues et développées, mais ce qui est remarquable, c’est sa perspicacité compte tenu de l’appareil formel relativement limité dont il disposait et du nombre de décennies écoulées depuis qu’il les a formulées. »

L'utilisation de la moyenne comme mesure de tendance centrale pour les données ordinales reste sujette à débat parmi les tenants de la typologie de Stevens. De nombreux chercheurs en sciences comportementales y ont néanmoins recours. Ce choix se justifie souvent par le fait que, dans ces disciplines, le type ordinal se situe en réalité entre le type ordinal pur et le type intervalle ; bien que la différence d'intervalle entre deux rangs ordinaux ne soit pas constante, elle est souvent du même ordre de grandeur.

Par exemple, l'application de modèles de mesure dans le contexte éducatif montre souvent que les scores totaux présentent une relation relativement linéaire avec les mesures sur l'ensemble de l'échelle d'évaluation. Ainsi, certains affirment que, tant que l'écart inconnu entre les rangs sur une échelle ordinale n'est pas trop variable, les statistiques d'échelle d'intervalle, telles que les moyennes, peuvent être utilisées de manière pertinente sur des variables ordinales. Les logiciels d'analyse statistique comme SPSS exigent que l'utilisateur sélectionne la classe de mesure appropriée pour chaque variable. Ceci permet d'éviter que des erreurs de manipulation ultérieures n'entraînent par inadvertance des analyses non pertinentes (par exemple, une analyse de corrélation avec une variable nominale).

L.L. Thurstone a contribué à l'élaboration d'une justification pour l'obtention de mesures d'intervalle, fondée sur la loi du jugement comparatif . Une application courante de cette loi est le processus d'analyse hiérarchique . Georg Rasch (1960) a ensuite réalisé des progrès en développant le modèle probabiliste de Rasch , qui fournit une base théorique et une justification pour l'obtention de mesures d'intervalle à partir de décomptes d'observations, comme les scores totaux à des évaluations.

Autres typologies proposées

D'autres typologies que celle de Stevens ont été proposées. Par exemple, Mosteller et Tukey (1977) et Nelder (1990) ont décrit les dénombrements continus, les ratios continus, les ratios de dénombrements et les modes catégoriels de données. Voir aussi Chrisman (1998), van den Berg (1991).

La typologie de Mosteller et Tukey (1977)

Mosteller et Tukey ont noté que les quatre niveaux ne sont pas exhaustifs et en ont proposé sept à la place :

Noms
Niveaux (étiquettes ordonnées comme débutant, intermédiaire, avancé)
Classements (ordres où 1 est le plus petit ou le plus grand, 2 le suivant, et ainsi de suite)
Fractions dénombrables (limitées par 0 et 1)
Nombres (entiers non négatifs)
Montants (nombres réels non négatifs)
Soldes (n'importe quel nombre réel)

Par exemple, les pourcentages (une variante des fractions dans le cadre de Mosteller-Tukey) ne s'intègrent pas bien dans le cadre de Stevens : aucune transformation n'est pleinement admissible.

Typologie de Chrisman (1998)

Nicholas R. Chrisman a introduit une liste élargie de niveaux de mesure afin de prendre en compte diverses mesures qui ne correspondent pas nécessairement aux notions traditionnelles de niveaux de mesure. Les mesures liées à une plage et répétitives (comme les degrés sur un cercle, le temps, etc.), les catégories d'appartenance graduées et d'autres types de mesures ne correspondent pas aux travaux originaux de Stevens, ce qui a conduit à l'introduction de six nouveaux niveaux de mesure, pour un total de dix :

Nominal
Graduation des adhésions
Ordinal
Intervalle
Intervalle logarithmique
Rapport extensif
Rapport cyclique
Rapport dérivé
Comptes
Absolu

Bien que certains affirment que les niveaux de mesure étendus sont rarement utilisés en dehors de la géographie académique , l'appartenance graduée est centrale dans la théorie des ensembles flous , tandis que les mesures absolues incluent les probabilités et les notions de plausibilité et d'ignorance dans la théorie de Dempster-Shafer . Les mesures de rapport cycliques comprennent les angles et les temps. Les dénombrements semblent être des mesures de rapport, mais l'échelle n'est pas arbitraire et les dénombrements fractionnaires sont généralement dénués de sens. Les mesures d'intervalle logarithmique sont couramment utilisées dans les graphiques boursiers. Tous ces types de mesures sont couramment utilisés en dehors de la géographie académique et ne correspondent pas bien aux travaux originaux de Stevens.

Types d'échelles et « théorie opérationnelle de la mesure » de Stevens

La théorie des types d'échelles est le corollaire intellectuel de la « théorie opérationnelle de la mesure » de Stevens, qui allait devenir la référence en psychologie et en sciences du comportement , malgré la caractérisation par Michell de son opposition avec la mesure dans les sciences naturelles (Michell, 1999). Essentiellement, la théorie opérationnelle de la mesure était une réaction aux conclusions d'un comité créé en 1932 par l' Association britannique pour l'avancement des sciences afin d'étudier la possibilité d'une véritable mesure scientifique en psychologie et en sciences du comportement. Ce comité, connu sous le nom de comité Ferguson , publia un rapport final (Ferguson et al., 1940, p. 245) dans lequel l'échelle de Stevens ( Stevens et Davis, 1938) était critiquée.

mesurait réellement l'intensité des sensations auditives, il fallait apporter la preuve que ces sensations étaient des attributs quantitatifs. Cette preuve résidait dans la présence d'une structure additive , un concept traité en détail par le mathématicien allemand Otto Hölder (Hölder, 1901). Étant donné que le physicien et théoricien de la mesure Norman Robert Campbell a dominé les délibérations du comité Ferguson, ce dernier a conclu que la mesure dans les sciences sociales était impossible en raison de l'absence d' opérations de concaténation . Cette conclusion a été ultérieurement invalidée par la découverte de la théorie de la mesure conjointe par Debreu (1960) et indépendamment par Luce et Tukey (1964). Cependant, Stevens n'a pas cherché à mener des expériences pour tester la présence d'une structure additive dans les sensations, mais a plutôt invalidé les conclusions du comité Ferguson en proposant une nouvelle théorie de la mesure.

lauréat du prix Nobel Percy Bridgman (1927), dont il a utilisé la doctrine de l'opérationnalisme pour définir la mesure. Dans la définition de Stevens, par exemple, c'est l'utilisation d'un ruban à mesurer qui définit la longueur (l'objet de la mesure) comme étant mesurable (et donc, par implication, quantitative). Les critiques de l'opérationnalisme objectent qu'il confond les relations entre deux objets ou événements avec les propriétés de l'un de ces objets ou événements (Moyer, 1981a, b ; Rogers, 1989).

Le théoricien canadien de la mesure William Rozeboom fut l'un des premiers et des plus virulents critiques de la théorie des types d'échelles de Stevens.

Une même variable peut avoir un type d'échelle différent selon le contexte.

Un autre problème réside dans le fait qu'une même variable peut présenter un type d'échelle différent selon sa méthode de mesure et les objectifs de l'analyse. Par exemple, la couleur des cheveux est généralement considérée comme une variable nominale, puisqu'elle ne présente pas d'ordre apparent. Cependant, il est possible de classer les couleurs (y compris les couleurs de cheveux) de diverses manières, notamment par teinte ; c'est ce que l'on appelle la colorimétrie . La teinte est une variable d'intervalle.

Tableau récapitulatif

de nombres réels , car la théorie des variables aléatoires suppose souvent explicitement qu'elles contiennent des nombres réels.

Valeurs possibles	Exemple d'utilisation	Commun Distributions	Statistiques autorisées	Modèle commun
0, 1 (étiquettes arbitraires)	résultat binaire (« oui/non », « vrai/faux », « succès/échec », etc.)	Bernoulli	mode , chi-carré	logistique , probit
"nom1", "nom2", "nom3", ... "nomK" (étiquettes arbitraires)	résultat catégoriel avec des noms ou des lieux comme « Rome », « Amsterdam », « Madrid », « Londres », « Washington » ( groupe sanguin spécifique , parti politique , mot, etc.)	catégorique	mode , chi-carré	logit multinomial , probit multinomial
classement des catégories ou des nombres entiers ou réels (échelle arbitraire)	L'ordre des adverbes tels que « Petit », « Moyen », « Grand », le score relatif, significatif uniquement pour établir un classement	catégorique		régression ordinale ( logit ordonné , probit ordonné )
0, 1, ..., N	nombre de succès (ex. votes « oui ») sur N possibles	binomial , bêta-binomial	moyenne , médiane , mode , écart type , corrélation	régression binomiale ( logistique , probit )
nombre réel	température en degrés Celsius ou Fahrenheit, distance relative, paramètre de localisation , etc. (ou approximativement, tout ce qui ne varie pas sur une grande échelle)	normal , etc. (généralement symétrique par rapport à la moyenne )	moyenne , médiane , mode , écart type , corrélation	régression linéaire standard
entiers non négatifs (0, 1, ...)	nombre d'éléments ( appels téléphoniques , personnes, molécules , naissances, décès, etc.) dans un intervalle/une zone/un volume donné	Poisson , binomiale négative	Toutes les statistiques autorisées pour les échelles d'intervalles, plus les suivantes : moyenne géométrique , moyenne harmonique , coefficient de variation	Régression de Poisson et binomiale négative
nombre réel positif	température en kelvins , prix, revenu, taille, paramètre d'échelle , etc. (surtout lorsque les variations s'effectuent sur une grande échelle)	log-normale , gamma , exponentielle , etc. (généralement une distribution asymétrique )		modèle linéaire généralisé avec lien logarithmique