validité de construit

La validité de construit concerne la capacité d'un ensemble d' indicateurs à représenter ou refléter un concept non directement mesurable . La validation de construit consiste à accumuler des preuves étayant l'interprétation de ce qu'une mesure reflète. La théorie moderne de la validité définit la validité de construit comme la préoccupation majeure de la recherche sur la validité, englobant tous les autres types de preuves de validité , tels que la validité de contenu et la validité critérielle .

La validité de construit évalue la pertinence des inférences tirées d'observations ou de mesures (souvent des scores à des tests), et plus précisément si un test peut raisonnablement être considéré comme reflétant le construit visé . Les construits sont des abstractions créées délibérément par les chercheurs pour conceptualiser la variable latente , qui est corrélée aux scores obtenus à une mesure donnée (bien qu'elle ne soit pas directement observable). La validité de construit examine la question suivante : la mesure se comporte-t-elle comme la théorie le prévoit pour une mesure de ce construit ?

La validité de construit est essentielle à la validité globale perçue du test. Elle est particulièrement importante en sciences sociales , en psychologie , en psychométrie et en linguistique.

Des psychologues comme Samuel Messick (1998) ont plaidé pour une conception unifiée de la validité de construit, définie comme « un jugement évaluatif intégré du degré auquel les données empiriques et les justifications théoriques soutiennent la pertinence et l’adéquation des inférences et des actions fondées sur les résultats des tests » Si les idées de Messick sont largement répandues dans le domaine de l’évaluation en éducation et trouvent leur origine dans une carrière consacrée à l’explication de la validité dans le contexte de l’industrie des tests, une définition plus conforme à la recherche psychologique fondamentale, étayée par des études empiriques basées sur les données et mettant l’accent sur le raisonnement statistique et causal, a été proposée par Borsboom et al. (2004)

La validité de construit repose essentiellement sur les idées théoriques sous-jacentes au trait considéré, c’est-à-dire les concepts qui structurent la perception des aspects de la personnalité , de l’intelligence , etc. Paul Meehl affirme que « le meilleur construit est celui autour duquel on peut établir le plus grand nombre d’inférences, de la manière la plus directe ».

La purification d’échelle, c’est-à-dire « le processus d’élimination d’items des échelles à plusieurs items » (Wieland et al., 2017), peut influencer la validité de construit. Un cadre présenté par Wieland et al. (2017) souligne que des critères à la fois statistiques et subjectifs doivent être pris en compte lors des décisions de purification d’échelle.

validité apparente , validité logique , Paul Meehl et Lee Cronbach dans leur article fondateur « Construct Validity In Psychological Tests ». Ils ont souligné que l’idée de validité de construit n’était pas nouvelle ; il s’agissait plutôt d’une combinaison de différents types de validité liés à des concepts théoriques. Ils ont proposé les trois étapes suivantes pour évaluer la validité de construit :

articuler un ensemble de concepts théoriques et leurs interrelations
développer des méthodes pour mesurer les concepts hypothétiques proposés par la théorie
tester empiriquement les relations hypothétiques

De nombreux psychologues ont souligné l'importance de la validation de construit en psychométrie , car elle privilégie la théorie à la validation. Cette priorité vise à répondre à une exigence fondamentale : la validation doit démontrer que le test mesure bien le construit théorique qu'il est censé mesurer. La validité de construit comporte trois aspects ou composantes : la composante substantielle, la composante structurelle et la composante externe . Ces composantes sont étroitement liées aux trois étapes du processus de construction d'un test : la constitution de l'ensemble des items, l'analyse et la sélection de la structure interne de cet ensemble, et la corrélation des scores obtenus avec des critères et d'autres variables.

Dans les années 1970, un débat croissant s'est instauré entre les théoriciens qui considéraient la validité de construit comme le modèle dominant, œuvrant à une théorie de la validité plus unifiée, et ceux qui continuaient de travailler à partir de cadres de validité multiples. De nombreux psychologues et chercheurs en éducation estimaient que « les validités prédictive, concomitante et de contenu étaient essentiellement ad hoc , la validité de construit représentant la totalité de la validité d'un point de vue scientifique » Dans la version de 1974 des Normes pour les tests éducatifs et psychologiques, l'interdépendance des trois aspects de la validité était reconnue : « Ces aspects de la validité peuvent être abordés indépendamment, mais uniquement par commodité. Ils sont interdépendants sur les plans opérationnel et logique ; il est rare qu'un seul d'entre eux soit important dans une situation particulière. »

En 1989, Messick a présenté une nouvelle conceptualisation de la validité de construit comme un concept unifié et multifacettes. Dans ce cadre, toutes les formes de validité sont liées à la qualité du construit et en dépendent. Il a souligné que cette théorie unifiée n'était pas son idée originale, mais plutôt l'aboutissement de débats et de discussions au sein de la communauté scientifique au cours des décennies précédentes. La théorie unifiée de la validité de construit de Messick comporte six aspects :

Conséquences – Quels sont les risques potentiels si les résultats sont invalides ou mal interprétés ? Le test reste-t-il pertinent compte tenu de ces risques ?
Contenu – Les éléments du test semblent-ils mesurer le concept d'intérêt ?
Sur le fond – Le fondement théorique sous-jacent au concept étudié est-il solide ?
Structurelle – Les interrelations des dimensions mesurées par le test sont-elles corrélées avec le construit d’intérêt et les scores du test ?
Externe – Le test possède-t-il des qualités convergentes, discriminantes et prédictives ?
Généralisabilité – Le test est-il généralisable à différents groupes, contextes et tâches ?

La question de la validité de construit reste un sujet de débat parmi les théoriciens de la validité. Le cœur du désaccord réside dans une différence épistémologique entre les théoriciens positivistes et postpositivistes .

Évaluation

L'évaluation de la validité de construit exige l'examen des corrélations de l'instrument de mesure par rapport à des variables connues pour être liées au construit (censées être mesurées par l'instrument évalué ou pour lesquelles il existe des fondements théoriques permettant de supposer une telle relation). Ceci est conforme à la matrice multitraits-multiméthodes (MTMM) d'examen de la validité de construit décrite dans l'article fondateur de Campbell et Fiske (1959) . Outre la MTMM, d'autres méthodes permettent d'évaluer la validité de construit. Celle-ci peut être évaluée par différentes formes d' analyse factorielle , la modélisation par équations structurelles (SEM) et d'autres analyses statistiques . Une étude isolée ne suffit pas à prouver la validité de construit. Il s'agit plutôt d'un processus continu d'évaluation, de réévaluation, d'amélioration et de développement. Les corrélations conformes au modèle attendu constituent une preuve de la validité de construit. La validité de construit est un jugement fondé sur l'accumulation de corrélations issues de nombreuses études utilisant l'instrument évalué

La plupart des chercheurs s'efforcent de tester la validité de construit avant d'entreprendre la recherche principale. À cette fin, des études pilotes peuvent être utilisées. Ces études préliminaires à petite échelle visent à tester la faisabilité d'un test à grande échelle. Elles permettent d'établir la robustesse de la recherche et d'apporter les ajustements nécessaires. Une autre méthode est la technique des groupes connus, qui consiste à administrer l'instrument de mesure à des groupes dont on s'attend à ce qu'ils diffèrent en raison de caractéristiques connues. Le test de relations hypothétiques implique une analyse logique fondée sur la théorie ou des recherches antérieures. réseau nomologique définit un construit en illustrant sa relation avec d'autres construits et comportements. Il représente les concepts (construits) d'intérêt dans une étude, leurs manifestations observables et leurs interrelations. Il examine si les relations entre des construits similaires sont prises en compte par rapport aux relations entre les mesures observées de ces construits. Une observation approfondie des relations entre les construits peut permettre d'en générer de nouveaux. Par exemple, l'intelligence et la mémoire de travail sont considérées comme des construits étroitement liés. Grâce à l'observation de leurs composantes sous-jacentes, les psychologues ont développé de nouveaux construits théoriques tels que l'attention contrôlée et la charge cognitive à court terme . La création d'un réseau nomologique peut également rendre l'observation et la mesure des construits existants plus efficaces en identifiant les erreurs. Des chercheurs ont constaté que l'étude des bosses du crâne humain ( phrénologie ) n'est pas un indicateur d'intelligence, contrairement au volume cérébral. En excluant la théorie phrénologique du réseau nomologique de l'intelligence et en y intégrant la théorie de l'évolution de la masse cérébrale, les concepts d'intelligence gagnent en efficacité et en pertinence. L'entrelacement de tous ces concepts interdépendants et de leurs caractéristiques observables crée un « réseau » qui soutient leur concept théorique. Par exemple, dans le réseau nomologique de la réussite scolaire, on s'attend à ce que les caractéristiques observables de cette réussite (moyenne générale, scores au SAT et à l'ACT) soient liées aux caractéristiques observables de l'assiduité (heures d'étude, attention en classe, précision des notes). Si ce n'est pas le cas, il y a un problème de mesure (de la réussite scolaire ou de l'assiduité), ou bien avec la théorie de la réussite elle-même. Si ces caractéristiques sont interdépendantes, le réseau nomologique, et donc la théorie de la réussite scolaire, s'en trouve renforcé. Bien que le réseau nomologique ait proposé une théorie sur la manière de renforcer les concepts, il ne nous indique pas comment évaluer la validité du concept dans une étude.

matrice multicaractères-multiméthodes

matrice multitrait-multiméthode (MTMM) est une approche d'examen de la validité de construit développée par Campbell et Fiske (1959) . Ce modèle examine la convergence (la capacité de différentes méthodes de mesure d'un construit à donner des résultats similaires) et la discriminabilité (la capacité à différencier le construit d'autres construits apparentés). Il mesure six traits : l'évaluation de la validité convergente, l'évaluation de la validité discriminante (ou divergente), les unités trait-méthode, les approches multitrait-multiméthode, les méthodologies véritablement différentes et les caractéristiques du trait. Ce dispositif permet aux chercheurs de tester : « la convergence entre différentes mesures… d'une même “chose”… et la divergence entre les mesures… de “choses” apparentées mais conceptuellement distinctes »

Menaces à la validité de construit

La validité apparente du construit peut être trompeuse en raison de divers problèmes liés à la formulation des hypothèses et à la conception expérimentale.

Hypothèses hypothétiques : Si le participant connaît, ou devine, le résultat final souhaité, ses actions peuvent s’en trouver modifiées. L’ effet Hawthorne en est un exemple : lors d’une étude d’ergonomie industrielle menée en 1925 à l’usine Hawthorne Works, près de Chicago, les chercheurs ont observé que la diminution comme l’augmentation de l’intensité lumineuse ambiante amélioraient la productivité des ouvriers. Ils ont finalement déterminé l’origine de ce résultat paradoxal : les ouvriers conscients d’être observés travaillaient davantage, quelle que soit la modification de leur environnement.
Biais dans la conception expérimentale (intentionnel ou non). Un exemple en est donné dans l'ouvrage de Stephen Jay Gould , « La mauvaise mesure de l'homme », paru en 1981 . Parmi les questions posées aux alentours de la Première Guerre mondiale dans le cadre des tests d'intelligence, figurait : « Dans quelle ville jouent les Dodgers ? » (ils étaient alors basés à Brooklyn). Les immigrants récemment arrivés aux États-Unis, originaires d'Europe de l'Est et peu familiers avec le baseball, répondaient mal, ce qui a servi à en déduire que les Européens de l'Est étaient moins intelligents. Or, cette question ne mesurait pas l'intelligence : elle évaluait seulement la durée de séjour aux États-Unis et l'acclimatation à un loisir populaire.
Les attentes des chercheurs peuvent être communiquées involontairement aux participants, de manière non verbale, et produire l'effet recherché. Pour limiter ce risque, il convient d'utiliser, dans la mesure du possible, des protocoles expérimentaux en double aveugle . Autrement dit, l'évaluateur d'un participant donné doit ignorer l'intervention qui lui a été appliquée ou être indépendant du chercheur.
Définir le résultat prévu de manière trop restrictive . Par exemple, utiliser uniquement la satisfaction au travail pour mesurer le bonheur exclura des informations pertinentes provenant de l’extérieur du lieu de travail.
Variables confondantes (covariables) : La cause première des effets observés peut être due à des variables qui n'ont pas été prises en compte ou mesurées.

Une exploration approfondie des menaces à la validité de construit est présentée dans Trochim.