Dans toute expérience ou observation impliquant le prélèvement d'un échantillon au sein d'une population , il existe toujours la possibilité qu'un effet observé soit dû à une erreur d'échantillonnage . Toutefois, si la p -valeur de l'effet observé est inférieure ou égale au seuil de signification, le chercheur peut conclure que cet effet reflète les caractéristiques de l'ensemble de la population, et rejeter ainsi l'hypothèse nulle.
Cette technique d'évaluation de la signification statistique des résultats a été développée au début du XXe siècle. Le terme « signification » n'implique pas ici l'importance, et la signification statistique diffère de la signification en recherche, de la signification théorique ou de la signification pratique. Par exemple, la signification clinique désigne l'importance pratique d'un effet thérapeutique.
John Arbuthnot et Pierre-Simon Laplace , qui ont calculé la valeur p du sex-ratio humain à la naissance, en supposant l'hypothèse nulle d'une probabilité égale de naissances de garçons et de filles ; voir la section «Ronald Fisher a introduit l'idée de tests d'hypothèses statistiques, qu'il a appelés « tests de signification », dans sa publication Statistical Methods for Research Workers . Fisher a suggéré une probabilité de 1 sur 20 (0,05) comme seuil pratique pour rejeter l'hypothèse nulle. Dans un article de 1933, Jerzy Neyman et Egon Pearson ont nommé ce seuil le niveau de signification . Ils ont recommandé de le fixer à l'avance, avant toute collecte de données.Malgré sa suggestion initiale d'un seuil de signification de 0,05, Fisher n'entendait pas fixer cette valeur. Dans sa publication de 1956 intitulée « Méthodes statistiques et inférence scientifique », il recommandait que les seuils de signification soient définis en fonction des circonstances spécifiques.
Concepts connexes
Le seuil de signification est le niveau en dessous duquel l'hypothèse nulle est rejetée, même si, par hypothèse, elle est vraie. Autrement dit, si l'hypothèse nulle est effectivement vraie, le seuil de signification correspond également à la probabilité de la rejeter par erreur. On parle alors de faux positif ou d'erreur de type I.
Parfois, les chercheurs parlent plutôt du niveau de confiance La signification statistique joue un rôle crucial dans les tests d'hypothèses statistiques. Elle permet de déterminer si l' hypothèse nulle doit être rejetée ou conservée. L'hypothèse nulle postule l'absence d'effet sur le phénomène étudié. Pour que l'hypothèse nulle soit rejetée, un résultat observé doit être statistiquement significatif, c'est-à-dire que la p -valeur observée doit être inférieure au seuil de signification prédéfini . Pour déterminer si un résultat est statistiquement significatif, un chercheur calcule la p -valeur, qui correspond à la probabilité d'observer un effet d'une ampleur égale ou supérieure à celle attendue si l'hypothèse nulle est vraie. L'hypothèse nulle est rejetée si la p -valeur est inférieure ou égale à un seuil prédéterminé, également appelé niveau de signification , et représente la probabilité de rejeter l'hypothèse nulle sachant qu'elle est vraie ( erreur de type I ). Ce seuil est généralement fixé à 5 % ou moins. Par exemple, lorsque le seuil de signification est fixé à 5 %, la probabilité conditionnelle d'une erreur de type I , sachant que l'hypothèse nulle est vraie , est de 5 % , et un résultat statistiquement significatif est un résultat pour lequel la p -valeur observée est inférieure ou égale à 5 % . Lors de l'échantillonnage, cela signifie que la région de rejet représente 5 % de la distribution d'échantillonnage . Ces 5 % peuvent être attribués à un seul côté de la distribution d'échantillonnage, comme dans un test unilatéral , ou répartis entre les deux côtés de la distribution, comme dans un test bilatéral , chaque queue (ou région de rejet) contenant alors 2,5 % de la distribution. Le recours à un test unilatéral dépend de la nature directionnelle ou non de la question de recherche ou de l'hypothèse alternative , par exemple si un groupe d'objets est plus lourd ou si les performances des élèves à une évaluation sont meilleures . Un test bilatéral peut également être utilisé, mais il sera moins puissant qu'un test unilatéral, car la région de rejet d'un test unilatéral est concentrée à une extrémité de la distribution nulle et est deux fois plus grande (5 % contre 2,5 %) que celle d'un test bilatéral. Par conséquent, l'hypothèse nulle peut être rejetée avec un résultat moins extrême si un test unilatéral est utilisé . Le test unilatéral n'est plus puissant qu'un test bilatéral que si la direction spécifiée de l'hypothèse alternative est correcte. Dans le cas contraire, le test unilatéral est inefficace.Seuils de signification dans des domaines spécifiques
Dans d'autres domaines de la recherche scientifique, comme les études d'association pangénomiques , des niveaux de signification aussi faibles quetaille de l'effet ainsi que les valeurs p . La taille de l'effet quantifie l'intensité d'un effet, par exemple la distance entre deux moyennes exprimée en écart-type (cf. d de Cohen ), le coefficient de corrélation entre deux variables ou son carré , et d'autres mesures.
Reproductibilité
D'autres rédacteurs, commentant cette interdiction, ont fait remarquer : « Interdire la publication des valeurs p , comme l'a récemment fait la revue Basic and Applied Social Psychology, ne résoudra pas le problème, car cela ne fait que traiter un symptôme. Les tests d'hypothèses et les valeurs p en soi ne posent aucun problème, pourvu que les auteurs, les relecteurs et les responsables éditoriaux les utilisent correctement. » Certains statisticiens préfèrent utiliser d'autres mesures de preuve, telles que les rapports de vraisemblance ou les facteurs de Bayes . L'utilisation de statistiques bayésiennes permet d'éviter les niveaux de confiance, mais nécessite également de formuler des hypothèses supplémentaires et n'améliore pas nécessairement les pratiques en matière de tests statistiques.
L’abus généralisé de la signification statistique représente un sujet de recherche important en métascience .
Redéfinir la signification
En 2016, l' American Statistical Association (ASA) a publié une déclaration sur les valeurs p , affirmant que « l'utilisation généralisée de la "signification statistique" (généralement interprétée comme " p ≤ 0,05") comme prétexte pour affirmer un résultat scientifique (ou une vérité implicite) conduit à une distorsion considérable du processus scientifique » . En 2017, un groupe de 72 auteurs a proposé d'améliorer la reproductibilité en abaissant le seuil de signification statistique de la valeur p de 0,05 à 0,005 . D'autres chercheurs ont rétorqué qu'imposer un seuil de signification plus strict aggraverait des problèmes tels que la manipulation des données ; des solutions alternatives ont donc été proposées, comme sélectionner et justifier des seuils de valeur p flexibles avant la collecte des données , ou interpréter les valeurs p comme des indices continus, s'affranchissant ainsi des seuils et de la notion de signification statistique. De plus, la modification à 0,005 augmenterait la probabilité de faux négatifs, c'est-à-dire que l'effet étudié est réel, mais que le test ne parvient pas à le mettre en évidence.
En 2019, plus de 800 statisticiens et scientifiques ont signé un message appelant à l’abandon du terme « signification statistique » en science, et l’ASA a publié un éditorial déclarant (page 2) :
Après avoir examiné les articles de ce numéro spécial et la littérature scientifique en général, nous concluons qu'il est temps de renoncer complètement à l'expression « statistiquement significatif ». De même, les variantes telles que « différence significative », « non significatif » et « non significatif » devraient être conservées, que ce soit par écrit, par des astérisques dans un tableau ou de toute autre manière.