Reproductibilité

La reproductibilité , étroitement liée à la réplicabilité et à la répétabilité , est un principe fondamental de la méthode scientifique . Pour qu'une étude soit reproductible, les résultats obtenus par une expérience , une étude observationnelle ou une analyse statistique de données doivent être reproduits avec un haut degré de fiabilité lors de la réplication de l'étude. Il existe différents types de réplication , mais généralement, les études de réplication impliquent différents chercheurs utilisant la même méthodologie. Ce n'est qu'après une ou plusieurs réplications réussies qu'un résultat peut être considéré comme une connaissance scientifique.

Histoire

Le premier à souligner l'importance de la reproductibilité en science fut le chimiste anglo-irlandais Robert Boyle , en Angleterre au XVIIe siècle. Sa pompe à air était conçue pour générer et étudier le vide , un concept alors très controversé. En effet, d'éminents philosophes tels que René Descartes et Thomas Hobbes niaient jusqu'à la possibilité même de l'existence du vide. Les historiens des sciences Steven Shapin et Simon Schaffer , dans leur ouvrage de 1985, *Leviathan and the Air-Pump* , décrivent le débat entre Boyle et Hobbes, portant officiellement sur la nature du vide, comme une discussion fondamentale sur la manière dont les connaissances utiles doivent être acquises. Boyle, pionnier de la méthode expérimentale , soutenait que les fondements de la connaissance devaient reposer sur des faits produits expérimentalement, dont la reproductibilité permettait de garantir la crédibilité auprès de la communauté scientifique. En répétant inlassablement la même expérience, affirmait Boyle, la certitude du fait finirait par émerger.

La pompe à air, appareil complexe et coûteux à fabriquer au XVIIe siècle, fut également à l'origine de l'une des premières controverses documentées concernant la reproductibilité d'un phénomène scientifique . Dans les années 1660, le scientifique néerlandais Christiaan Huygens construisit sa propre pompe à air à Amsterdam , la première en dehors du contrôle direct de Boyle et de son assistant de l'époque, Robert Hooke . Huygens rapporta un effet qu'il nomma « suspension anormale », au cours duquel l'eau semblait léviter dans un bocal en verre placé à l'intérieur de sa pompe (en réalité suspendue au-dessus d'une bulle d'air). Cependant, Boyle et Hooke ne parvinrent pas à reproduire ce phénomène avec leurs propres pompes. Comme l'expliquent Shapin et Schaffer, « il devint évident que si le phénomène ne pouvait être reproduit en Angleterre avec l'une des deux pompes disponibles, personne en Angleterre n'accepterait les affirmations de Huygens, ni sa compétence dans le fonctionnement de la pompe ». Huygens fut finalement invité en Angleterre en 1663 et, sous sa direction personnelle, Hooke put reproduire la suspension anormale de l'eau. Suite à cela, Huygens fut élu membre étranger de la Royal Society . Cependant, Shapin et Schaffer notent également que « la réussite de la réplication dépendait d’actes de jugement contingents. On ne peut pas formuler une règle permettant de déterminer quand la réplication a été ou non réalisée. »

Dans son célèbre ouvrage de 1934, *La Logique de la découverte scientifique*, le philosophe des sciences Karl Popper note brièvement que « les occurrences uniques non reproductibles sont sans importance pour la science » . Le statisticien Ronald Fisher écrit, dans son livre de 1935, *La Conception des expériences* , qui a posé les fondements de la pratique scientifique moderne des tests d'hypothèses et de la signification statistique , que « l'on peut dire qu'un phénomène est expérimentalement démontrable lorsque l'on sait comment mener une expérience qui nous donnera rarement des résultats non statistiquement significatifs » . De telles affirmations expriment un dogme courant en science moderne : la reproductibilité est une condition nécessaire (mais non suffisante ) pour établir un fait scientifique et, en pratique, pour asseoir l'autorité scientifique dans tout domaine de la connaissance. Cependant, comme le soulignent Shapin et Schaffer, ce dogme n'est pas bien formulé quantitativement, notamment en ce qui concerne la signification statistique, et il n'est donc pas explicitement établi combien de fois un fait doit être répliqué pour être considéré comme reproductible.

Terminologie

La réplicabilité et la répétabilité sont des termes apparentés, plus ou moins synonymes de reproductibilité (par exemple, auprès du grand public), mais il est souvent utile de les différencier de manière plus précise, comme suit.

Deux grandes étapes se distinguent naturellement en matière de reproductibilité des études expérimentales ou observationnelles : lorsque de nouvelles données sont obtenues dans le but d’atteindre cette reproductibilité, on parle souvent de réplicabilité, et la nouvelle étude est alors une réplication de l’ étude originale. Lorsqu’on obtient les mêmes résultats en analysant à nouveau les données de l’étude originale selon les mêmes procédures, de nombreux auteurs utilisent le terme de reproductibilité dans un sens plus restreint et technique, issu de la recherche informatique. La répétabilité , quant à elle , est liée à la répétition de l’expérience au sein d’une même étude par les mêmes chercheurs. La reproductibilité, au sens large originel, n’est reconnue que si une réplication effectuée par une équipe de recherche indépendante est concluante.

Les termes reproductibilité et réplicabilité apparaissent parfois même dans la littérature scientifique avec une signification inversée, car différents domaines de recherche ont établi leurs propres définitions pour les mêmes termes.

Mesures de reproductibilité et de répétabilité

En chimie, les termes reproductibilité et répétabilité ont une signification quantitative précise. Lors d'expériences interlaboratoires, la concentration ou une autre grandeur d'une substance chimique est mesurée à plusieurs reprises dans différents laboratoires afin d'évaluer la variabilité des mesures. L'écart-type de la différence entre deux valeurs obtenues au sein d'un même laboratoire est alors appelé répétabilité. L'écart-type de la différence entre deux mesures effectuées dans des laboratoires différents est appelé reproductibilité . Ces mesures sont liées au concept plus général de composantes de la variance en métrologie .

Recherche reproductible

Méthode de recherche reproductible

Le terme « recherche reproductible » renvoie à l’idée que les résultats scientifiques doivent être documentés de manière à ce que leur déduction soit totalement transparente. Cela implique une description détaillée des méthodes utilisées pour obtenir les données et la mise à disposition facile de l’ensemble des données et du code permettant de calculer les résultats un élément essentiel de la science ouverte .

Pour garantir la reproductibilité informatique de tout projet de recherche, il est généralement recommandé de séparer, d'étiqueter et de documenter clairement toutes les données et tous les fichiers. Toutes les opérations doivent être entièrement documentées et automatisées autant que possible, en évitant les interventions manuelles. Le flux de travail doit être conçu comme une séquence d'étapes plus petites combinées de manière à ce que les résultats intermédiaires d'une étape servent directement d'entrées à l'étape suivante. L'utilisation d'un système de contrôle de version est essentielle : il permet de consulter facilement l'historique du projet et de documenter et suivre les modifications de façon transparente.

Un flux de travail de base pour une recherche reproductible comprend l'acquisition, le traitement et l'analyse des données. L'acquisition consiste principalement à obtenir des données primaires à partir d'une source primaire, comme des enquêtes, des observations de terrain, des recherches expérimentales ou des données issues d'une source existante. Le traitement des données comprend le traitement et la vérification des données brutes collectées lors de la première étape ; il inclut la saisie, la manipulation et le filtrage des données et peut être effectué à l'aide d'un logiciel. Les données doivent être numérisées et préparées pour l'analyse. L'analyse des données peut être réalisée à l'aide d'un logiciel permettant d'interpréter ou de visualiser des statistiques ou des données afin de produire les résultats souhaités de la recherche, tels que des résultats quantitatifs sous forme de figures et de tableaux. L'utilisation de logiciels et l'automatisation améliorent la reproductibilité des méthodes de recherche.

Il existe des systèmes qui facilitent une telle documentation, comme le langage R Markdown ou le notebook Jupyter . L' Open Science Framework fournit une plateforme et des outils utiles pour soutenir la recherche reproductible.

La recherche reproductible en pratique

La psychologie connaît actuellement un regain d'inquiétudes internes concernant l'irréproductibilité des résultats (voir l'article sur la crise de la reproductibilité pour des résultats empiriques sur les taux de réussite des réplications). Une étude de 2006 a montré que, sur 141 auteurs d'articles empiriques publiés par l'American Psychological Association (APA), 103 (73 %) n'ont pas fourni leurs données sur une période de six mois. Une étude de suivi publiée en 2015 a révélé que 246 des 394 auteurs contactés pour des articles dans des revues de l'APA n'ont pas partagé leurs données sur demande (62 %). Un article de 2012 suggérait que les chercheurs publient leurs données avec leurs travaux, et un jeu de données a été publié à titre d'exemple. En 2017, un article paru dans Scientific Data suggérait que cela pourrait ne pas suffire et que le contexte complet de l'analyse devrait être divulgué.

En économie, la crédibilité et la fiabilité des recherches publiées suscitent des inquiétudes. Si, dans d'autres disciplines, la reproductibilité est considérée comme fondamentale et souvent une condition préalable à la publication, elle n'est pas perçue comme une priorité absolue en économie. La plupart des revues économiques à comité de lecture ne prennent aucune mesure concrète pour garantir la reproductibilité des résultats publiés. Cependant, les revues économiques les plus prestigieuses s'orientent vers l'archivage obligatoire des données et des codes sources . Les incitations à partager les données sont faibles, voire inexistantes, et les auteurs doivent supporter les coûts de compilation des données sous des formes réutilisables. La recherche économique est souvent difficilement reproductible, car seule une partie des revues dispose de politiques de divulgation adéquates pour les jeux de données et les codes sources. De plus, même lorsqu'elles en ont, les auteurs ne les respectent pas toujours ou elles ne sont pas appliquées par l'éditeur. Une étude portant sur 599 articles publiés dans 37 revues à comité de lecture a révélé que si certaines revues ont atteint des taux de conformité significatifs, une part importante ne s'y conforme que partiellement, voire pas du tout. Au niveau des articles, le taux de conformité moyen était de 47,5 % ; et au niveau des revues, le taux de conformité moyen était de 38 %, allant de 13 % à 99 %.

Une étude de 2018 publiée dans la revue PLOS ONE a révélé que 14,4 % d'un échantillon de chercheurs en statistiques de santé publique avaient partagé leurs données ou leur code, ou les deux.

Depuis de nombreuses années, des initiatives visent à améliorer la qualité des rapports et, par conséquent, la reproductibilité des publications médicales, à commencer par l' initiative CONSORT , désormais intégrée au réseau EQUATOR . Ce groupe s'est récemment intéressé à la manière dont une meilleure qualité des rapports pourrait réduire le gaspillage dans la recherche , notamment en recherche biomédicale.

La reproductibilité des recherches est essentielle aux nouvelles découvertes en pharmacologie . Une découverte de phase I est suivie de reproductions de phase II, au fur et à mesure du développement d'un médicament en vue de sa commercialisation. Au cours des dernières décennies, le taux de réussite des essais de phase II a chuté de 28 % à 18 %. Une étude de 2011 a révélé que 65 % des études médicales présentaient des résultats incohérents lors de tests répétés, et que seulement 6 % étaient parfaitement reproductibles.

Des efforts ont été déployés pour améliorer la reproductibilité au-delà des sciences sociales et biomédicales. Les études en sciences humaines ont tendance à s'appuyer davantage sur l'expertise et l'herméneutique, ce qui peut rendre la reproductibilité plus difficile. Néanmoins, des initiatives ont été prises pour promouvoir une plus grande transparence et une meilleure documentation dans les sciences humaines.

résultats non reproductibles notables

Hideyo Noguchi est devenu célèbre pour avoir correctement identifié l'agent bactérien de la syphilis , mais il a également affirmé pouvoir cultiver cet agent dans son laboratoire. Personne d'autre n'a été en mesure de produire ce dernier résultat.

En mars 1989, les chimistes Stanley Pons et Martin Fleischmann, de l'Université de l'Utah, ont annoncé la production d'un excès de chaleur qui ne pouvait s'expliquer que par un processus nucléaire (« fusion froide »). Ce résultat était stupéfiant compte tenu de la simplicité du dispositif : il s'agissait essentiellement d'une cellule d'électrolyse contenant de l'eau lourde et une cathode de palladium qui absorbait rapidement le deutérium produit lors de l'électrolyse. Les médias ont largement relayé l'information, et de nombreux journaux à travers le monde en ont fait la une (voir « La science par conférence de presse »). Au cours des mois suivants, d'autres chercheurs ont tenté de reproduire l'expérience, sans succès.

Dès 1899, Nikola Tesla affirmait avoir utilisé un courant à haute fréquence pour allumer des lampes à gaz à plus de 40 km de distance , sans aucun fil électrique . En 1904, il construisit la tour Wardenclyffe sur Long Island afin de démontrer la possibilité d'envoyer et de recevoir de l'énergie sans connexion filaire. L'installation ne fut jamais pleinement opérationnelle et resta inachevée en raison de difficultés financières ; aucune tentative de reproduire son premier résultat ne fut donc jamais entreprise.

Autres exemples où des preuves contraires ont réfuté l'affirmation initiale :

Les rayons N , une forme hypothétique de rayonnement qui s'est avérée par la suite illusoire
La polyeau , une forme polymérisée hypothétique d'eau, s'est avérée être simplement de l'eau présentant des contaminants courants.
L'acquisition de la pluripotence déclenchée par un stimulus s'est révélée être le résultat d'une fraude.
GFAJ-1 , une bactérie qui pourrait, selon certaines sources, incorporer de l'arsenic dans son ADN à la place du phosphore.
Controverse autour du vaccin ROR — une étude publiée dans The Lancet affirmant que le vaccin ROR causait l’autisme s’est révélée frauduleuse.
Scandale Schön — Les « percées » dans le domaine des semi-conducteurs se révèlent être frauduleuses
La posture de pouvoir — un phénomène de psychologie sociale qui est devenu viral après avoir fait l’objet d’une conférence TED très populaire , mais qui n’a pas pu être reproduit dans des dizaines d’études