Interprétations des probabilités

Le mot « probabilité » a été employé de diverses manières depuis son application initiale à l'étude mathématique des jeux de hasard . La probabilité mesure-t-elle la tendance réelle et physique d'un événement à se produire, ou bien la force de la conviction qu'il se produira, ou encore fait-elle appel aux deux ? Pour répondre à ces questions, les mathématiciens interprètent les valeurs de probabilité issues de la théorie des probabilités .

Il existe deux grandes catégories d' interprétations des probabilités , que l'on peut qualifier de « physiques » et de « probabilités évidentes ». Les probabilités physiques, également appelées probabilités objectives ou fréquentielles , sont associées à des systèmes physiques aléatoires tels que la roulette, les dés et les atomes radioactifs. Dans ces systèmes, un type d'événement donné (comme l'obtention d'un six avec un dé) tend à se produire à une fréquence constante, ou « fréquence relative », sur une longue série d'essais. Les probabilités physiques expliquent, ou sont invoquées pour expliquer, ces fréquences stables. Les deux principaux types de théories des probabilités physiques sont les théories fréquentistes (comme celles de Venn , Reichenbach et von Mises ) et les théories de la propension (comme celles de Popper, Miller, Giere et Fetzer)

La probabilité probante, également appelée probabilité bayésienne , peut être attribuée à n'importe quel énoncé, même en l'absence de processus aléatoire, afin de représenter sa plausibilité subjective rationnelle, c'est-à-dire le degré auquel l'énoncé est étayé par les preuves disponibles. Généralement, les probabilités probantes sont considérées comme des degrés de croyance rationnels, définis en termes de propension à prendre un risque à certaines cotes. Les quatre principales interprétations probantes sont l'interprétation classique (par exemple, celle de Laplace) , l'interprétation subjective ( de Finetti et Savage ), l'interprétation épistémique ou inductive ( Ramsey [ 11 l'interprétation logique ( Keynes et Carnap ). Il existe également des interprétations probantes de la probabilité qui couvrent des groupes, souvent qualifiées d'« intersubjectives » (proposées par Gillies et Rowbottom ).

Certaines interprétations de la probabilité sont liées à des approches de l'inférence statistique , notamment aux théories de l'estimation et des tests d'hypothèses . L'interprétation physique, par exemple, est adoptée par les tenants des méthodes statistiques « fréquentistes », tels que Ronald Fisher , Jerzy Neyman et Egon Pearson . Les statisticiens de l' école bayésienne opposée acceptent généralement l'interprétation fréquentiste lorsqu'elle est pertinente (sans toutefois la considérer comme une définition), mais le consensus est moins net concernant les probabilités physiques. Les bayésiens estiment que le calcul des probabilités probantes est à la fois valide et nécessaire en statistique. Cet article, cependant, porte sur les interprétations de la probabilité plutôt que sur les théories de l'inférence statistique.

La terminologie employée dans ce domaine est assez confuse, notamment parce que les probabilités sont étudiées dans divers champs académiques. Le terme « fréquentiste » est particulièrement ambigu. Pour les philosophes, il désigne une théorie particulière de la probabilité physique, aujourd'hui largement abandonnée. Pour les scientifiques, en revanche, la « probabilité fréquentiste » est simplement un synonyme de probabilité physique (ou objective). Les partisans de l'inférence bayésienne considèrent les « statistiques fréquentistes » comme une approche de l'inférence statistique fondée sur l'interprétation fréquentiste de la probabilité, s'appuyant généralement sur la loi des grands nombres et caractérisée par ce que l'on appelle les tests d'hypothèse nulle (THN). De même, le terme « objectif », appliqué à la probabilité, peut parfois avoir le même sens que « physique » ici, mais il est également utilisé pour désigner des probabilités probantes fixées par des contraintes rationnelles, telles que les probabilités logiques et épistémiques.

Il est unanimement admis que les statistiques dépendent d'une manière ou d'une autre des probabilités. Mais quant à la définition même des probabilités et à leur lien avec les statistiques, il est rare d'observer un tel désaccord et une telle rupture de communication depuis la Tour de Babel. Sans doute, une grande partie de ce désaccord est purement terminologique et disparaîtrait sous l'effet d'une analyse suffisamment rigoureuse.

— Savage, 1954, p. 2

Philosophie

La philosophie des probabilités soulève des problèmes principalement d'ordre épistémologique , notamment en raison de l'interface parfois délicate entre les concepts mathématiques et le langage courant employé par les non-mathématiciens. La théorie des probabilités est un domaine d'étude reconnu en mathématiques. Elle trouve son origine dans la correspondance échangée au XVIIe siècle entre Blaise Pascal et Pierre de Fermat , portant sur les mathématiques des jeux de hasard . Elle a été formalisée et axiomatique en tant que branche distincte des mathématiques par Andreï Kolmogorov au XXe siècle. Sous forme axiomatique, les énoncés mathématiques relatifs à la théorie des probabilités bénéficient, au sein de la philosophie des mathématiques , du même degré de certitude épistémologique que les autres énoncés mathématiques

L'analyse mathématique trouve son origine dans l'observation du comportement des jeux de hasard, comme les cartes et les dés , conçus précisément pour introduire des éléments aléatoires et équilibrés ; en termes mathématiques, ce sont des objets d' indifférence . Ce n'est pas la seule façon dont les énoncés probabilistes sont utilisés dans le langage courant : quand on dit « il va probablement pleuvoir », on ne veut généralement pas dire que la probabilité qu'il pleuve ou non est un facteur aléatoire favorisé par les probabilités actuelles ; il est plutôt préférable de comprendre ces énoncés comme une appréciation de la pluie, assortie d'un degré de confiance. De même, lorsqu'on écrit que « l'explication la plus probable » du nom de Ludlow, dans le Massachusetts , « est qu'il a été nommé d'après Roger Ludlow », cela ne signifie pas que Roger Ludlow est favorisé par un facteur aléatoire, mais plutôt que c'est l'explication la plus plausible des faits, tout en admettant d'autres explications moins probables.

Thomas Bayes a tenté de fournir une logique capable de gérer différents degrés de confiance ; ainsi, la probabilité bayésienne est une tentative de reformuler la représentation des énoncés probabilistes comme une expression du degré de confiance avec lequel les croyances qu'ils expriment sont défendues.

Bien que les probabilités aient initialement eu des motivations plutôt prosaïques, leur influence et leur utilisation modernes sont largement répandues, allant de la médecine fondée sur les preuves , en passant par le six sigma , jusqu'à la preuve vérifiable probabilistiquement et le paysage de la théorie des cordes .

Un résumé de quelques interprétations de la probabilité
	Classique	fréquentiste	Subjectif	Propension
Hypothèse principale	Principe d'indifférence	Fréquence d'occurrence	Degré de croyance	Degré de lien de causalité
Base conceptuelle	Symétrie hypothétique	Données antérieures et classe de référence	Connaissance et intuition	État actuel du système
Approche conceptuelle	Conjectural	Empirique	Subjectif	Métaphysique
Un cas isolé possible	Oui	Non	Oui	Oui
Précis	Oui	Non	Non	Oui
Problèmes	Ambiguïté dans le principe d'indifférence	Définition circulaire	problème de classe de référence	Concept contesté

Définition classique

La première tentative de rigueur mathématique dans le domaine des probabilités, défendue par Pierre-Simon Laplace , est aujourd'hui connue sous le nom de définition classique . Développée à partir d'études sur les jeux de hasard (comme le lancer de dés ), elle stipule que la probabilité est répartie également entre tous les résultats possibles, pourvu que ces résultats soient considérés comme équiprobables. (3.1)

La théorie des probabilités consiste à réduire tous les événements de même nature à un certain nombre de cas équiprobables, c'est-à-dire à des cas sur lesquels nous pouvons être également indécis quant à leur existence, et à déterminer le nombre de cas favorables à l'événement dont on cherche la probabilité. Le rapport de ce nombre à celui de tous les cas possibles est la mesure de cette probabilité, qui est donc simplement une fraction dont le numérateur est le nombre de cas favorables et le dénominateur le nombre de tous les cas possibles.

— Pierre-Simon Laplace, Essai philosophique sur les probabilités

La définition classique de la probabilité convient bien aux situations ne comportant qu'un nombre fini d'issues équiprobables.

Cela peut se représenter mathématiquement comme suit : si une expérience aléatoire peut donner lieu à N résultats mutuellement exclusifs et équiprobables, et si N _A de ces résultats entraînent la survenue de l’événement A , la probabilité de A est définie par

{\displaystyle P(A)={N_{A} \over N}. <semantics><mrow><mstyle><mi>P</mi><mo>(</mo><mi>UN</mi><mo>)</mo><mo>=</mo><mrow><mfrac><msub><mi>N</mi><mrow><mi>UN</mi></mrow></msub><mi>N</mi></mfrac></mrow><mo>.</mo></mstyle></mrow><annotation>{\displaystyle P(A)={N_{A} \over N}.}</annotation></semantics></math></span><img src=

La définition classique présente deux limites évidentes. Premièrement, elle ne s'applique qu'aux situations où le nombre de résultats possibles est « fini ». Or, certaines expériences aléatoires importantes, comme le lancer d'une pièce jusqu'à obtenir face, donnent lieu à une infinité de résultats. Deuxièmement, elle exige de déterminer a priori que tous les résultats possibles sont équiprobables, sans tomber dans le piège d'un raisonnement circulaire fondé sur la notion de probabilité. (En utilisant l'expression « nous pouvons être également indécis », Laplace supposait, par ce qu'on a appelé le « principe de raison insuffisante », que tous les résultats possibles sont équiprobables s'il n'existe aucune raison connue de supposer le contraire, raison pour laquelle il n'y a pas de justification évidente. )

Le fréquentisme

Les fréquentistes postulent que la probabilité d'un événement est sa fréquence relative au cours du temps , (3.4), c'est-à-dire sa fréquence relative d'occurrence après la répétition d'un processus un grand nombre de fois dans des conditions similaires. On parle également de probabilité aléatoire. Les événements sont supposés être régis par des phénomènes physiques aléatoires , qui sont soit des phénomènes prévisibles, en principe, avec suffisamment d'informations (voir déterminisme ), soit des phénomènes essentiellement imprévisibles. Parmi les exemples du premier type, on peut citer le lancer de dés ou la roulette ; la désintégration radioactive est un exemple du second type . Dans le cas du lancer d'une pièce équilibrée, les fréquentistes affirment que la probabilité d'obtenir face est de 1/2, non pas parce qu'il existe deux résultats équiprobables, mais parce que des séries répétées d'un grand nombre d'essais démontrent que la fréquence empirique converge vers la limite de 1/2 lorsque le nombre d'essais tend vers l'infini.

Si nous désignons par le nombre d'occurrences d'un événement dans les essais, alors si nous disons que . ${\displaystyle extstyle n_{a <semantics><mrow><mstyle><mstyle><msub><mi>n</mi><mrow><mi>un</mi></mrow></msub></mstyle></mstyle></mrow><annotation>{ displaystyle textstyle n_ {a}}</annotation></semantics></math><img src=$ ${\displaystyle {\mathcal {A <semantics><mrow><mstyle><mrow><mrow><mi>UN</mi></mrow></mrow></mstyle></mrow><annotation>{\displaystyle {\mathcal {A}}}</annotation></semantics></math><img src=$ ${\displaystyle extstyle n <semantics><mrow><mstyle><mstyle><mi>n</mi></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle n}</annotation></semantics></math><img src=$ ${\displaystyle \lim _{n o +\infty }{n_{a} \over n}=p <semantics><mrow><mstyle><munder><mo>limite</mo><mrow><mi>n</mi><mo>→</mo><mo>+</mo><mi>∞</mi></mrow></munder><mrow><mfrac><msub><mi>n</mi><mrow><mi>un</mi></mrow></msub><mi>n</mi></mfrac></mrow><mo>=</mo><mi>p</mi></mstyle></mrow><annotation>{\displaystyle \lim _{n o +\infty }{n_{a} \over n}=p}</annotation></semantics></math><img src=$ ${\displaystyle extstyle P({\mathcal {A}})=p <semantics><mrow><mstyle><mstyle><mi>P</mi><mo>(</mo><mrow><mrow><mi>A</mi></mrow></mrow><mo>)</mo><mo>=</mo><mi>p</mi></mstyle></mstyle></mrow><annotation>{\displaystyle extstyle P({\mathcal {A}})=p}</annotation></semantics></math><img src=$

L'approche fréquentiste présente ses propres problèmes. Il est bien sûr impossible de réaliser une infinité de répétitions d'une expérience aléatoire pour déterminer la probabilité d'un événement. Cependant, si l'on ne réalise qu'un nombre fini de répétitions, différentes fréquences relatives apparaîtront d'une série d'essais à l'autre. Si ces fréquences relatives devaient définir la probabilité, celle-ci varierait légèrement à chaque mesure. Or, la probabilité réelle devrait être la même à chaque fois. Même en admettant qu'une probabilité ne peut être mesurée qu'avec une certaine marge d'erreur, on se heurte encore à des difficultés, car l'erreur de mesure ne peut s'exprimer que sous forme de probabilité, soit le concept même que l'on cherche à définir. Ceci rend la définition de la fréquence circulaire ; voir par exemple « Quelle est la probabilité d'un tremblement de terre ? »

Subjectivisme

Les subjectivistes, également appelés bayésiens ou partisans de la probabilité épistémique , confèrent à la notion de probabilité un statut subjectif en la considérant comme une mesure du « degré rationnel de croyance » de l'individu évaluant l'incertitude d'une situation particulière. La probabilité épistémique ou subjective est parfois appelée croyance , par opposition au terme de chance pour désigner une probabilité de propension.

Parmi les exemples de probabilité épistémique, on peut citer l'attribution d'une probabilité à la proposition selon laquelle une loi physique proposée est vraie, ou la détermination de la probabilité qu'un suspect ait commis un crime, sur la base des preuves présentées.

L’utilisation des probabilités bayésiennes soulève le débat philosophique quant à sa capacité à fournir des justifications valides des croyances . Les bayésiens s’appuient sur les travaux de Ramsey (p. 182) et de Finetti (p. 103) pour démontrer que les croyances subjectives doivent obéir aux lois des probabilités pour être cohérentes (rationnelles).

Des éléments de preuve remettent en question le fait que les individus humains appliquent régulièrement des croyances cohérentes, indiquant qu'ils n'adhèrent souvent pas à la probabilité bayésienne.

L'utilisation des probabilités bayésiennes implique la spécification d'une probabilité a priori . Celle-ci peut être obtenue en déterminant si la probabilité a priori recherchée est supérieure ou inférieure à une probabilité de référence associée à un modèle d'urne ou à une expérience de pensée . Le problème est que, pour un problème donné, plusieurs expériences de pensée peuvent s'appliquer, et le choix de l'une d'entre elles relève parfois du jugement : différentes personnes peuvent attribuer des probabilités a priori différentes, ce que l'on appelle le problème de la classe de référence . Le « problème du lever de soleil » en est un exemple.

Propension

Les théoriciens de la propension conçoivent la probabilité comme une propension physique, une disposition ou une tendance d'un type donné de situation physique à produire un résultat d'un certain type ou à produire une fréquence relative à long terme d'un tel résultat. Ce type de probabilité objective est parfois appelé « hasard ».

Les propensions, ou probabilités, ne sont pas des fréquences relatives, mais des causes supposées des fréquences relatives stables observées. On invoque les propensions pour expliquer pourquoi la répétition d'un certain type d'expérience génère des résultats donnés à des taux constants, appelés propensions ou probabilités. Les fréquentistes ne peuvent adopter cette approche, car les fréquences relatives n'existent pas pour des lancers de pièce isolés, mais seulement pour de grands ensembles ou collectifs (voir « cas unique possible » dans le tableau ci-dessus). En revanche, un propensiste peut utiliser la loi des grands nombres pour expliquer le comportement des fréquences à long terme. Cette loi, qui découle des axiomes des probabilités, stipule que si (par exemple) une pièce est lancée de nombreuses fois de telle sorte que la probabilité d'obtenir face soit la même à chaque lancer, et que les résultats soient probabilistiquement indépendants, alors la fréquence relative de face sera proche de la probabilité d'obtenir face à chaque lancer. Cette loi permet de considérer que les fréquences stables à long terme sont une manifestation de probabilités invariantes dans les cas uniques . Outre l'explication de l'émergence de fréquences relatives stables, l'idée de propension est motivée par le désir de donner un sens aux attributions de probabilité à cas unique en mécanique quantique, telles que la probabilité de désintégration d'un atome particulier à un moment particulier.

Le principal défi auquel sont confrontées les théories de la propension est de définir précisément ce qu'est la propension. (Et ensuite, bien sûr, de démontrer que la propension ainsi définie possède les propriétés requises.) Malheureusement, à l'heure actuelle, aucune des théories de la propension les plus reconnues n'est en mesure de relever ce défi.

Une théorie de la propension en matière de probabilité a été proposée par Charles Sanders Peirce . Une théorie de la propension ultérieure a été proposée par le philosophe Karl Popper , qui ne connaissait cependant que superficiellement les écrits de C. S. Peirce. Popper a observé que le résultat d'une expérience physique est déterminé par un ensemble de « conditions génératrices ». Lorsqu'on répète une expérience, on en effectue en réalité une autre avec un ensemble de conditions génératrices (plus ou moins) similaires. Dire qu'un ensemble de conditions génératrices a une propension p à produire le résultat E signifie que ces conditions exactes, si elles étaient répétées indéfiniment, produiraient une séquence de résultats dans laquelle E se produirait avec une fréquence relative limite p . Pour Popper, une expérience déterministe aurait donc une propension de 0 ou 1 pour chaque résultat, puisque ces conditions génératrices auraient le même résultat à chaque essai. En d'autres termes, les propensions non triviales (celles qui diffèrent de 0 et 1) n'existent que pour des expériences véritablement non déterministes.

Plusieurs autres philosophes, dont David Miller et Donald A. Gillies , ont proposé des théories de la propension assez similaires à celle de Popper.

D'autres théoriciens de la propension (par exemple Ronald Giere ) ne définissent pas explicitement la propension, mais la conçoivent plutôt comme définie par le rôle théorique qu'elle joue en science. Ils ont soutenu, par exemple, que les grandeurs physiques telles que la charge électrique ne peuvent pas non plus être définies explicitement en termes d'éléments plus fondamentaux, mais seulement en termes de leurs propriétés (comme l'attraction et la répulsion d'autres charges électriques). De même, la propension correspond à ce qui remplit les différents rôles que joue la probabilité physique en science.

Quel rôle joue la probabilité physique en science ? Quelles sont ses propriétés ? Une propriété fondamentale du hasard est que, lorsqu’elle est connue, elle contraint les croyances rationnelles à prendre la même valeur numérique. David Lewis a appelé cela le Principe Principal ( 3.3 et 3.5), un terme largement adopté par les philosophes. Par exemple, supposons que vous soyez certain qu’une pièce truquée a une propension de 0,32 à tomber sur face à chaque lancer. Quel est alors le prix correct d’un pari qui rapporte 1 $ si la pièce tombe sur face, et rien sinon ? Selon le Principe Principal, le prix juste est de 32 cents.

Probabilité logique, épistémique et inductive

Il est largement admis que le terme « probabilité » est parfois employé dans des contextes où il n'a aucun lien avec le hasard physique. Prenons l'exemple de l'affirmation selon laquelle l'extinction des dinosaures a probablement été causée par la chute d'une grosse météorite sur Terre. Des énoncés tels que « L'hypothèse H est probablement vraie » ont été interprétés comme signifiant que les données empiriques (E, par exemple) actuellement disponibles confirment fortement H. Ce degré de confirmation de H par E est appelé la probabilité logique , épistémique ou inductive de H étant donné E.

Les différences entre ces interprétations sont minimes et peuvent paraître insignifiantes. L'un des principaux points de désaccord réside dans la relation entre probabilité et croyance. Les probabilités logiques sont conçues (par exemple dans le Traité des probabilités de Keynes ) comme des relations logiques objectives entre propositions (ou énoncés), et ne dépendent donc en aucune façon de la croyance. Ce sont des degrés d' implication (partielle) , ou des degrés de conséquence logique , et non des degrés de croyance . (Elles déterminent néanmoins les degrés de croyance appropriés, comme nous le verrons plus loin.) Frank P. Ramsey , quant à lui, était sceptique quant à l'existence de telles relations logiques objectives et soutenait que la probabilité (évidente) est « la logique de la croyance partielle » (p. 157). Autrement dit, Ramsey affirmait que les probabilités épistémiques sont simplement des degrés de croyance rationnelle, et non des relations logiques qui contraignent uniquement les degrés de croyance rationnelle.

Un autre point de désaccord concerne l' unicité de la probabilité probante, relativement à un état de connaissance donné. Rudolf Carnap soutenait, par exemple, que les principes logiques déterminent toujours une probabilité logique unique pour toute affirmation, relativement à tout ensemble de preuves. Ramsey, en revanche, pensait que si les degrés de croyance sont soumis à certaines contraintes rationnelles (telles que, mais sans s'y limiter, les axiomes de probabilité), ces contraintes ne déterminent généralement pas une valeur unique. Autrement dit, des personnes rationnelles peuvent avoir des degrés de croyance légèrement différents, même si elles disposent toutes des mêmes informations.

Prédiction

Une autre conception des probabilités met l'accent sur le rôle de la prédiction : prédire les observations futures à partir des observations passées, et non de paramètres inobservables. Dans sa forme moderne, elle s'inscrit principalement dans l'approche bayésienne. C'était la fonction principale des probabilités avant le XXe siècle , mais cette approche a été délaissée au profit de l'approche paramétrique, qui modélise les phénomènes comme un système physique observé avec une marge d'erreur, à l'instar de la mécanique céleste .

L'approche prédictive moderne a été initiée par Bruno de Finetti , avec l'idée centrale d' échangeabilité – que les observations futures devraient se comporter comme les observations passées. Ce point de vue a attiré l'attention du monde anglophone avec la traduction en 1974 du livre de de Finetti , et a depuis été défendu par des statisticiens tels que Seymour Geisser .

Probabilité axiomatique

Les mathématiques des probabilités peuvent être développées sur une base entièrement axiomatique, indépendante de toute interprétation : voir les articles sur la théorie des probabilités et les axiomes des probabilités pour un traitement détaillé.