Psychométrie

la psychologie qui s'intéresse à la théorie et aux techniques de mesure . Elle couvre généralement les domaines spécialisés de la psychologie et de l'éducation consacrés aux tests, à la mesure, à l'évaluation et aux activités connexes. La psychométrie vise à mesurer objectivement des construits latents, c'est-à-dire des construits qui ne peuvent être observés directement. Parmi les exemples de construits latents, on peut citer l'intelligence , les traits de personnalité (comme l'introversion ), les troubles mentaux et la réussite scolaire . Les niveaux des individus sur des variables latentes non observables sont inférés par modélisation mathématique à partir des réponses observées aux items des tests et des échelles.

Les praticiens sont désignés comme psychométriciens , bien que tous ceux qui mènent des recherches en psychométrie ne portent pas ce titre. La plupart des psychométriciens sont des psychologues ayant suivi une formation supérieure approfondie en psychométrie et en théorie de la mesure. Selon le Dictionnaire de psychologie, un psychométricien « est une personne possédant des connaissances théoriques des techniques de mesure et qualifiée pour développer, évaluer et améliorer les tests psychologiques » . Outre les institutions universitaires traditionnelles, les psychométriciens travaillent également pour des organismes tels que Pearson et l' Educational Testing Service, ainsi qu'en tant que consultants indépendants. Certains chercheurs en psychométrie se concentrent sur la construction et la validation d'instruments d'évaluation, notamment les enquêtes , les échelles et les questionnaires à questions ouvertes ou fermées . D'autres se concentrent sur la recherche relative à la théorie de la mesure (par exemple, la théorie de la réponse à l'item , la corrélation intraclasse ) ou se spécialisent dans le domaine de l'apprentissage et du développement .

grec : ψυχή ( psukhē) , « esprit, âme », et μέτρον (metron) , « mesure ». On attribue à l’universitaire américain Joseph Rodes Buchanan la création du terme « psychométrie » en 1842, dans le cadre de ses recherches sur les phénomènes paranormaux plutôt que sur la quantification rationnelle de critères psychologiques .

Fondation historique

Les tests psychologiques rationnels sont issus de deux courants de pensée : le premier, celui de Darwin , Galton et Cattell , porte sur la mesure des différences individuelles ; le second, celui de Herbart , Weber , Fechner et Wundt, s’appuie sur leurs mesures psychophysiques d’un concept similaire. Ce sont les travaux de ce second groupe de chercheurs qui ont conduit au développement de la psychologie expérimentale et des tests standardisés.

ruisseau victorien

Charles Darwin a inspiré Francis Galton, scientifique qui a contribué au développement de la psychométrie. En 1859, Darwin publia son ouvrage « De l'origine des espèces » . Il y décrivait le rôle de la sélection naturelle dans l'émergence, au fil du temps, de différentes populations d'espèces végétales et animales. Ce livre montrait comment les individus d'une même espèce diffèrent et possèdent des caractéristiques plus ou moins adaptées à leur environnement. Ceux qui présentent les caractéristiques les plus adaptées ont davantage de chances de survivre, de se reproduire et de donner naissance à une nouvelle génération. Ceux qui présentent les caractéristiques les moins adaptées ont moins de chances. Ces idées ont stimulé l'intérêt de Galton pour l'étude des êtres humains, de leurs différences et des moyens de mesurer ces différences.

Galton a écrit un ouvrage intitulé « Hereditary Genius » , publié pour la première fois en 1869. Ce livre décrivait différentes caractéristiques propres aux individus et expliquait comment ces caractéristiques rendent certains plus « aptes » que d'autres. Aujourd'hui, ces différences, telles que les fonctions sensorielles et motrices (temps de réaction, acuité visuelle et force physique), constituent des domaines importants de la psychologie scientifique. Une grande partie des premiers travaux théoriques et appliqués en psychométrie visaient à mesurer l'intelligence . Galton, souvent considéré comme le père de la psychométrie, a conçu et intégré des tests mentaux à ses mesures anthropométriques . James McKeen Cattell , pionnier dans ce domaine, a poursuivi et approfondi les travaux de Galton. Cattell a forgé le terme « test mental » et est à l'origine des recherches et des connaissances qui ont finalement conduit au développement des tests modernes.

flux allemand

L'origine de la psychométrie est également liée au domaine connexe de la psychophysique . À peu près à la même époque où Darwin, Galton et Cattell faisaient leurs découvertes, Herbart s'intéressait lui aussi à « percer les mystères de la conscience humaine » par la méthode scientifique. Herbart a élaboré des modèles mathématiques de l'esprit qui ont influencé les pratiques pédagogiques pendant des années.

E.H. Weber s'est appuyé sur les travaux d'Herbart et a tenté de prouver l'existence d'un seuil psychologique, affirmant qu'un stimulus minimal était nécessaire pour activer un système sensoriel . Après Weber, G.T. Fechner a approfondi les connaissances acquises auprès d'Herbart et de Weber pour formuler la loi selon laquelle l'intensité d'une sensation croît comme le logarithme de l'intensité du stimulus. Disciple de Weber et de Fechner, Wilhelm Wundt est considéré comme le fondateur de la psychologie. C'est grâce à son influence que d'autres ont pu développer des tests psychologiques.

XXe siècle

En 1936, le psychométricien L.L. Thurstone , cofondateur et premier président de la Société de psychométrie, a développé et appliqué une approche théorique de la mesure appelée loi du jugement comparatif , une approche étroitement liée à la théorie psychophysique d' Ernst Heinrich Weber et de Gustav Fechner . Par ailleurs, Spearman et Thurstone ont tous deux apporté d'importantes contributions à la théorie et à l'application de l'analyse factorielle , une méthode statistique développée et largement utilisée en psychométrie. À la fin des années 1950, Leopold Szondi a dressé un bilan historique et épistémologique de l'impact de la pensée statistique sur la psychologie au cours des dernières décennies : « Ces dernières décennies, la pensée spécifiquement psychologique a été presque totalement occultée et remplacée par une pensée statistique. C'est précisément là que se manifeste le cancer de la testologie et la testomanie contemporaines. »

Plus récemment, la théorie psychométrique a été appliquée à la mesure de la personnalité , des attitudes et des croyances , ainsi qu'à la réussite scolaire . Ces construits latents ne peuvent être mesurés avec une précision absolue, et une grande partie des recherches et des travaux scientifiques dans cette discipline visent à les mesurer au plus près de leur valeur réelle.

Parmi les personnalités ayant apporté une contribution significative à la psychométrie, on peut citer Paul Horst, Karl Pearson , Henry F. Kaiser, Carl Brigham , LL Thurstone , EL Thorndike , Georg Rasch , Eugene Galanter , Johnson O'Connor , Frederic M. Lord , Ledyard R Tucker , Louis Guttman et Jane Loevinger .

Définition de la mesure en sciences sociales

La définition de la mesure en sciences sociales a une longue histoire. Une définition largement répandue aujourd'hui, proposée par Stanley Smith Stevens , la définit comme « l'attribution de valeurs numériques à des objets ou des événements selon une règle donnée ». Cette définition a été introduite dans un article de la revue Science de 1946 , dans lequel Stevens proposait quatre niveaux de mesure . Bien que largement adoptée, cette définition diffère sensiblement de la définition plus classique de la mesure en vigueur dans les sciences physiques, à savoir que la mesure scientifique implique « l'estimation ou la découverte du rapport entre une certaine grandeur d'un attribut quantitatif et une unité de ce même attribut » (p. 358)

En effet, la définition de la mesure proposée par Stevens fut élaborée en réponse au Comité Ferguson britannique, présidé par le physicien A. Ferguson. Ce comité fut créé en 1932 par l'Association britannique pour l'avancement des sciences afin d'étudier la possibilité d'estimer quantitativement les événements sensoriels. Bien que son président et d'autres membres fussent physiciens, le comité comptait également plusieurs psychologues. Son rapport souligna l'importance de la définition de la mesure. Si Stevens proposa une nouvelle définition, qui a exercé une influence considérable dans le domaine, ce ne fut pas la seule réaction au rapport. Une autre réaction, sensiblement différente, consista à adopter la définition classique, comme en témoigne la déclaration suivante :

La mesure en psychologie et en physique ne diffère en rien. Les physiciens peuvent mesurer lorsqu'ils trouvent les opérations qui leur permettent de satisfaire aux critères nécessaires ; les psychologues doivent faire de même. Ils n'ont pas à s'inquiéter des mystérieuses différences entre la signification de la mesure dans les deux sciences (Reese, 1943, p. 49).

Ces réponses divergentes se reflètent dans les différentes approches de mesure. Par exemple, les méthodes basées sur les matrices de covariance sont généralement employées en partant du principe que les nombres, tels que les scores bruts issus des évaluations, constituent des mesures. Ces approches impliquent implicitement la définition de la mesure de Stevens, qui exige seulement que des nombres soient attribués selon une règle donnée. La principale tâche de recherche est alors généralement considérée comme la découverte des associations entre les scores et des facteurs supposés sous-tendre ces associations.

En revanche, lorsqu'on utilise des modèles de mesure comme le modèle de Rasch , les valeurs numériques ne sont pas attribuées selon une règle prédéfinie. Au contraire, conformément à l'affirmation de Reese mentionnée plus haut, des critères de mesure spécifiques sont définis, et l'objectif est de concevoir des procédures ou des opérations permettant d'obtenir des données conformes à ces critères. Les mesures sont estimées à partir des modèles, et des tests sont effectués pour vérifier si les critères requis sont respectés.l'intelligence . L'une des premières approches de la mesure de l'intelligence fut le test mis au point en France par Alfred Binet et Théodore Simon . Ce test était connu sous le nom de Lewis Terman de l'université de Stanford, et nommé test de QI Stanford-Binet .

Un autre axe majeur de la psychométrie concerne les tests de personnalité . De nombreuses approches théoriques ont été développées pour conceptualiser et mesurer la personnalité, sans qu'il existe de théorie faisant consensus. Parmi les instruments les plus connus figurent l' Inventaire multiphasique de personnalité du Minnesota (MMPI) , le modèle des cinq facteurs (ou « Big Five ») et des outils tels que l'Inventaire de personnalité et de préférences (PPI) et l' indicateur de type Myers-Briggs (MBTI ). Les attitudes ont également fait l'objet de nombreuses études psychométriques. Une autre méthode consiste à appliquer des modèles de mesure progressifs, le plus général étant le modèle du cosinus hyperbolique (Andrich et Luo, 1993). la théorie classique des tests (TCT) et la théorie de la réponse à l'item (TRI). Le modèle de Rasch représente une approche mathématiquement proche de la TRI, mais également très différente par ses origines et ses caractéristiques. Le développement du modèle de Rasch, et de la classe plus large de modèles à laquelle il appartient, s'est explicitement fondé sur les exigences de la mesure dans les sciences physiques.

Les psychométriciens ont également développé des méthodes pour traiter de grandes matrices de corrélations et de covariances. Parmi les techniques relevant de cette tradition, on trouve l' analyse factorielle , une méthode permettant de déterminer les dimensions sous-jacentes des données. L'une des principales difficultés rencontrées par les utilisateurs de l'analyse factorielle réside dans l'absence de consensus sur les procédures appropriées pour déterminer le nombre de facteurs latents . Une procédure courante consiste à interrompre la factorisation lorsque les valeurs propres deviennent inférieures à un, car la sphère de décision initiale se réduit. Ce manque de critères d'arrêt précis concerne également d'autres méthodes multivariées

L'analyse multidimensionnelle est une méthode permettant de simplifier la représentation de données comportant un grand nombre de dimensions latentes. L'analyse de clusters est une approche visant à identifier les objets similaires. L'analyse factorielle, l'analyse multidimensionnelle et l'analyse de clusters sont des méthodes descriptives multivariées utilisées pour extraire des structures plus simples de grands volumes de données.

Plus récemment, la modélisation par équations structurelles et l'analyse de cheminement constituent des approches plus sophistiquées pour le traitement des grandes matrices de covariance . Ces méthodes permettent d'ajuster des modèles statistiquement complexes aux données et de vérifier leur adéquation. Étant donné que la recherche psychométrique s'intéresse, à un niveau plus fin, à l'étendue et à la nature de la multidimensionnalité de chaque item, une procédure relativement récente appelée analyse bifactorielle peut s'avérer utile. L'analyse bifactorielle permet de décomposer la variance systématique d'un item en deux sources, idéalement un facteur général et une source de variance systématique supplémentaire

Concepts clés

Les concepts clés de la théorie classique des tests sont la fidélité et la validité . Une mesure fidèle est une mesure qui évalue un construit de manière cohérente dans le temps, chez différents individus et selon les situations. Une mesure valide est une mesure qui évalue bien ce qu'elle est censée évaluer. La fidélité est une condition nécessaire, mais non suffisante, à la validité.

La fiabilité et la validité peuvent toutes deux être évaluées statistiquement. La cohérence des mesures répétées d'un même test peut être évaluée à l'aide du coefficient de corrélation de Pearson et est souvent appelée fiabilité test-retest. De même, l'équivalence de différentes versions d'une même mesure peut être indexée par une corrélation de Pearson et est appelée fiabilité des formes équivalentes ou un terme similaire.

La cohérence interne, qui évalue l'homogénéité d'une version de test, peut être mesurée en corrélant les performances sur les deux moitiés du test ; on parle alors de fidélité par bissection . La valeur du coefficient de corrélation de Pearson entre les deux moitiés de test est ajustée par la formule de prédiction de Spearman-Brown pour correspondre à la corrélation entre les deux versions complètes du test. L'indice de fidélité le plus couramment utilisé est sans doute le coefficient alpha de Cronbach , qui correspond à la moyenne de tous les coefficients de fidélité par bissection possibles. Parmi les autres approches, on peut citer le coefficient de corrélation intraclasse , qui est le rapport entre la variance des mesures d'une variable cible donnée et la variance de toutes les variables cibles.

Il existe différentes formes de validité. La validité critérielle désigne la mesure dans laquelle un test ou une échelle prédit un échantillon de comportement, c'est-à-dire le critère, qui est « externe à l'instrument de mesure lui-même » . Cet échantillon externe de comportement peut être de nature diverse : un autre test, la moyenne générale obtenue à l'université (comme lorsque le score au SAT du lycée est utilisé pour prédire la réussite universitaire), ou même un comportement passé (par exemple, lorsqu'un test de symptômes psychologiques actuels est utilisé pour prédire la survenue d'une victimisation passée, ce qui représenterait fidèlement la postdiction). Lorsque la mesure critérielle est recueillie simultanément à la mesure à valider, l'objectif est d'établir la validité concomitante ; lorsqu'elle est recueillie ultérieurement, l'objectif est d'établir la validité prédictive . Une mesure possède une validité de construit si elle est corrélée à des mesures d'autres construits, conformément à la théorie. La validité de contenu démontre que les items d'un test couvrent adéquatement le domaine mesuré. Dans le cadre d'une sélection de personnel, le contenu du test repose sur un énoncé ou un ensemble d'énoncés définis de connaissances, de compétences, d'aptitudes ou d'autres caractéristiques issues d'une analyse de poste .

La théorie de la réponse à l'item (TRI) modélise la relation entre les caractéristiques latentes et les réponses aux questions d'un test. Parmi ses nombreux avantages, la TRI permet d'estimer la position d'un candidat sur une caractéristique latente donnée, ainsi que l'erreur type de mesure de cette position. Par exemple, les connaissances en histoire d'un étudiant universitaire peuvent être déduites de son score à un examen universitaire et comparées de manière fiable à celles d'un lycéen, déduites d'un test moins difficile. Les scores obtenus par la théorie classique des tests ne présentent pas cette caractéristique, et l'évaluation de la compétence réelle (plutôt que la compétence relative aux autres candidats) doit être effectuée en comparant les scores à ceux d'un groupe normatif sélectionné aléatoirement dans la population. En réalité, toutes les mesures issues de la théorie classique des tests dépendent de l'échantillon testé, contrairement, en principe, à celles issues de la TRI.

Normes de qualité

Les considérations de validité et de fidélité sont généralement considérées comme essentielles pour déterminer la qualité de tout test. Cependant, les associations professionnelles et de praticiens ont souvent replacé ces préoccupations dans un contexte plus large lors de l'élaboration de normes et de l'évaluation de la qualité globale des tests dans un contexte donné. Dans de nombreux contextes de recherche appliquée, la question de la pertinence ou de l'arbitraire de la métrique d'un inventaire psychologique donné est un enjeu important.

normes d'essai

En 2014, l’American Educational Research Association (AERA), l’American Psychological Association (APA) et le National Council on Measurement in Education (NCME) ont publié une révision des Normes pour les tests éducatifs et psychologiques , qui décrivent les normes relatives à l’élaboration, à l’évaluation et à l’utilisation des tests. Ces normes couvrent des sujets essentiels en matière de tests, notamment la validité, la fidélité/les erreurs de mesure et l’équité. L’ouvrage établit également des normes relatives au fonctionnement des tests : conception et élaboration des tests, scores, échelles, normes, corrélation des scores, seuils de réussite, administration, notation, compte rendu, interprétation des scores, documentation, ainsi que les droits et responsabilités des candidats et des utilisateurs. Enfin, les normes abordent des sujets liés aux applications des tests, notamment les tests et évaluations psychologiques , les tests et certifications en milieu professionnel , les tests et évaluations pédagogiques , et l’utilisation des tests dans l’évaluation des programmes et les politiques publiques.

normes d'évaluation

Dans le domaine de l'évaluation , et en particulier de l'évaluation de l'éducation , le Joint Committee on Standards for Educational Evaluation a publié trois ensembles de normes d'évaluation. Les normes d'évaluation du personnel ont été publiées en 1988, les normes d'évaluation des programmes (2e édition) ont été publiées en 1994 et les normes d'évaluation des élèves ont été publiées en 2003.

Chaque publication présente et développe un ensemble de normes applicables à divers contextes éducatifs. Ces normes fournissent des lignes directrices pour la conception, la mise en œuvre, l'évaluation et l'amélioration de la forme d'évaluation identifiée. Chaque norme est classée dans l'une des quatre catégories fondamentales visant à promouvoir des évaluations pédagogiques pertinentes, utiles, réalisables et précises. Dans ces ensembles de normes, les considérations de validité et de fiabilité sont abordées dans la section consacrée à la précision. Par exemple, les normes de précision relatives aux élèves contribuent à garantir que les évaluations des élèves fourniront des informations fiables, précises et crédibles sur leur apprentissage et leurs performances.

Controverses et critiques

La psychométrie étant fondée sur des processus psychologiques latents mesurés par des corrélations et des inférences statistiques, la question de la précision scientifique dans la mesure des traits psychologiques fait l'objet de controverses depuis longtemps. sciences physiques , soutiennent que des concepts tels que l'intelligence, la personnalité, la stabilité émotionnelle ou l'adaptation psychologique relèvent d'expériences humaines abstraites plutôt que de propriétés physiques directement observables. De ce fait, la mesure psychométrique dépend fortement de la modélisation statistique, du calcul des probabilités, des hypothèses d'échantillonnage, des corrélations et des cadres d'interprétation, plutôt que d'une mesure exacte au sens des sciences physiques. Les conclusions statistiques en psychologie sont donc probabilistes plutôt qu'absolues, ce qui signifie que les scores aux tests représentent des interprétations estimées, influencées par la théorie, la méthodologie, la culture, l'environnement et le contexte. Les critiques ajoutent que les fondements historiques de la psychométrie compliquent les affirmations de neutralité et d'objectivité. Des théoriciens influents de l'intelligence, tels que Francis Galton , Charles Spearman et Lewis Terman, étaient des partisans de l'eugénisme , et leurs postulats ont considérablement façonné les premières théories de l'intelligence et des différences humaines. Les critiques soutiennent donc que les tests d'intelligence ne peuvent être totalement dissociés des présupposés raciaux et sociaux inhérents à leur développement historique. Bien que les tests de QI restent largement utilisés en psychologie et en éducation, les critiques remettent de plus en plus en question l'idée que l'intelligence puisse être mesurée comme un trait biologique objectivement et culturellement neutre. David Wechsler définissait l'intelligence comme la « capacité globale de l'individu à agir de manière intentionnelle, à penser rationnellement et à interagir efficacement avec son environnement ». Or, les critiques soulignent que différentes cultures, conditions socio-économiques, systèmes éducatifs et environnements sociaux peuvent valoriser différentes formes de raisonnement, d'adaptation, de communication et de résolution de problèmes.

Les Normes pour la mesure en éducation et en psychologie stipulent que « la validité se réfère à la mesure dans laquelle les données probantes et la théorie étayent les interprétations des résultats aux tests, interprétations qui découlent des utilisations proposées de ces tests » . Autrement dit, un test n'est valide que s'il est interprété et utilisé conformément à sa finalité . Même les tests présentant une fiabilité et une validité acceptables restent tributaires de postulats théoriques concernant ce qui est mesuré et la manière dont ces mesures doivent être interprétées. Les critiques soutiennent que les tests psychométriques, développés principalement au sein des traditions universitaires occidentales et à majorité blanche, ont souvent construit des normes de « normalité » autour des expériences culturelles dominantes, tout en considérant les écarts par rapport à ces normes comme des déficiences ou des anomalies. En continuant de s'appuyer sur de telles mesures sans suffisamment remettre en question les postulats qui les sous-tendent, la psychologie risque de légitimer involontairement des interprétations racialisées de l'intelligence, de la réussite, du comportement et de la santé mentale. De tels postulats peuvent contribuer à des inégalités dans le placement scolaire, à des interprétations cliniques biaisées, à des pratiques de recrutement discriminatoires et à des disparités dans les soins de santé. Dans un article paru dans American Psychologist (1957), Lee Cronbach notait que « la psychologie corrélationnelle, bien qu’aussi ancienne que l’expérimentation, a mis plus de temps à se développer. Elle mérite néanmoins d’être considérée comme une discipline à part entière, car elle pose un type de question distinctif et dispose de méthodes techniques permettant de vérifier si la question a été correctement posée et les données correctement interprétées. » Il ajoutait que « la méthode corrélationnelle, pour sa part, permet d’étudier ce que l’homme n’a pas appris à contrôler ou ne pourra jamais espérer contrôler… Une véritable fédération des disciplines est nécessaire. Maintenues indépendantes, elles ne peuvent donner que des réponses erronées, voire aucune réponse du tout, concernant certains problèmes importants. »

Deux grandes catégories d'outils sont utilisées pour mesurer les traits de personnalité : les tests objectifs et les mesures projectives . On peut citer, par exemple, le Big Five Inventory (BFI), le Minnesota Multiphasic Personality Inventory (MMPI-2), le test de Rorschach , le questionnaire de personnalité névrotique KON - 2006 et le questionnaire de personnalité d'Eysenck . Certaines mesures psychométriques présentent une fiabilité et une validité acceptables , tandis que d'autres restent controversées. Le Myers-Briggs Type Indicator (MBTI), par exemple, a été critiqué pour sa validité discutable. Le psychométricien Robert Hogan a écrit : « La plupart des psychologues de la personnalité considèrent le MBTI comme une sorte de jeu de devinettes chinois sophistiqué. »

Non humains : animaux et machines

La psychométrie étudie les aptitudes, les attitudes, les traits de personnalité et l'évolution éducative humaine . L'étude du comportement, des processus mentaux et des aptitudes des animaux non humains est généralement abordée par la psychologie comparée , ou, dans un continuum entre les animaux non humains et le reste du règne animal, par la psychologie évolutionniste . Cependant, certains préconisent une transition plus progressive entre l'approche adoptée pour les humains et celle adoptée pour les animaux (non humains).

L’évaluation des capacités, des caractéristiques et de l’évolution de l’apprentissage des machines a été largement indépendante du cas des humains et des animaux non humains, avec des approches spécifiques dans le domaine de l’intelligence artificielle . Une approche plus intégrée, sous le nom de psychométrie universelle , a également été proposée.