Corrélation de distance

En statistique et en théorie des probabilités , la corrélation de distance mesure la dépendance entre deux paires de vecteurs aléatoires de dimension arbitraire, non nécessairement égale . Le coefficient de corrélation de distance de la population est nul si et seulement si les vecteurs aléatoires sont indépendants . Ainsi, la corrélation de distance mesure l'association linéaire et non linéaire entre deux variables aléatoires ou vecteurs aléatoires. Ceci contraste avec la corrélation de Pearson , qui ne détecte que l'association linéaire entre deux variables aléatoires .

La corrélation de distance peut être utilisée pour effectuer un test statistique de dépendance par test de permutation . On calcule d'abord la corrélation de distance (impliquant le recentrage des matrices de distance euclidienne) entre deux vecteurs aléatoires, puis on compare cette valeur aux corrélations de distance obtenues par de nombreux permutations des données.

coefficient de corrélation de Pearson , est principalement sensible à une relation linéaire entre deux variables. La corrélation de distance a été introduite en 2005 par Gábor J. Székely dans plusieurs conférences afin de pallier cette lacune de la corrélation de Pearson , à savoir sa capacité à s'annuler pour des variables dépendantes . Une corrélation nulle (absence de corrélation) n'implique pas l'indépendance, contrairement à une corrélation de distance nulle. Les premiers résultats sur la corrélation de distance ont été publiés en 2007 et 2009 Il a été démontré que la covariance de distance est identique à la covariance brownienne . Ces mesures sont des exemples de distances énergétiques .

La corrélation de distance est calculée à partir de plusieurs autres quantités utilisées dans sa définition, notamment : la variance de distance , l’écart-type de distance et la covariance de distance . Ces quantités jouent le même rôle que les moments ordinaires , avec les noms correspondants, dans la définition du coefficient de corrélation de Pearson .

Définitions

Covariance de distance

Commençons par la définition de la matrice de covariance des distances d'échantillon . Soit ( X _k , Y _k ), k = 1, 2, ..., n , un échantillon statistique issu d'une paire de variables aléatoires réelles ou vectorielles ( X , Y ). Calculons d'abord les matrices de distance n × n ( a _j_,_k ) et ( b _j_,_k ) contenant toutes les distances par paires.

où || ⋅ || désigne la norme euclidienne . On considère ensuite toutes les distances doublement centrées.

où est la moyenne de la $moyenne générale de la matrice de distance de l' échantillon$

La statistique T _n = n dCov ^2_{ n} ( X , Y ) détermine un test multivarié convergent d'indépendance de vecteurs aléatoires de dimensions arbitraires. Pour une implémentation, voir la fonction dcov.test du package energy pour R.

La valeur de la covariance de distance pour la population peut être définie de la même manière. Soit X une variable aléatoire prenant ses valeurs dans un espace euclidien à p dimensions de loi de probabilité

Enfin, définissez la valeur de population de la covariance au carré de la distance de X et Y comme suit :

On peut démontrer que cela est équivalent à la définition suivante :

où E désigne l'espérance, et et sont indépendantes et identiquement distribuées. Les variables aléatoires primées et désignent des copies indépendantes et identiquement distribuées (i.i.d.) des variables et et sont également i.i.d. La covariance de distance peut être exprimée en fonction de la covariance de Pearson classique , cov , comme suit :

Cette identité montre que la covariance de distance n'est pas la même que la covariance des distances, norme L ² pondérée de la distance entre la fonction caractéristique conjointe des variables aléatoires et le produit de leurs fonctions caractéristiques marginales :

où , , et sont les fonctions caractéristiques de fonction de pondération est choisie pour produire une mesure équivariante d'échelle et invariante par rotation qui ne s'annule pas pour les variables dépendantes. Une interprétation de la définition de la fonction caractéristique est que les variables e ^isX et e ^itY sont des représentations cycliques de X et Y avec des périodes différentes données par s et t , et l'expression

où , , et sont des variables aléatoires indépendantes et identiquement distribuées , désigne la valeur attendue , et pour la fonction , par exemple, .

La variance de la distance de l'échantillon est la racine carrée de

qui est apparentée à la différence moyenne de Corrado Gini introduite en 1912 (mais Gini n'a pas travaillé avec des distances centrées).

L' écart type de la distance est la racine carrée de la variance de la distance .

Corrélation de distance

La corrélation de distance de deux variables aléatoires s'obtient en divisant leur covariance de distance par le produit de leurs écarts-types de distance . La corrélation de distance est la racine carrée de

et la corrélation de distance de l'échantillon est définie en substituant la covariance de distance de l'échantillon et les variances de distance aux coefficients de population ci-dessus.

Pour un calcul facile de la corrélation de distance d'échantillon, voir la fonction dcor dans le package energy pour R .

Propriétés

Corrélation de distance

et ; ceci contraste avec la corrélation de Pearson, qui peut être négative. si et seulement si X et Y sont indépendants. implique que les dimensions des sous-espaces linéaires engendrés respectivement par les échantillons X et Y sont presque sûrement égales et si nous supposons que ces sous-espaces sont égaux, alors dans ce sous-espace pour un certain vecteur A, un scalaire b et une matrice orthonormale .

Covariance de distance

et ; pour tous les vecteurs constants , les scalaires et les matrices orthonormales . Si les vecteurs aléatoires et sont indépendants, alors L'égalité est vérifiée si et seulement si et sont toutes deux des constantes, ou si et sont toutes deux des constantes, ou si et sont mutuellement indépendantes. si et seulement si X et Y sont indépendants.

Cette dernière propriété est l'effet le plus important du travail avec des distances centrées.

Cette statistique est un estimateur biaisé de . Sous l'hypothèse d'indépendance de X et Y

Un estimateur sans biais de est donné par Székely et Rizzo.

Variance de distance

si et seulement si presque sûrement. si et seulement si chaque observation de l'échantillon est identique. pour tous les vecteurs constants A, les scalaires b et les matrices orthonormales . Si X et Y sont indépendants, alors .

L'égalité est vérifiée dans (iv) si et seulement si l'une des variables aléatoires

Alors, pour tout , et sont indépendants si et seulement si . Cette caractérisation n'est pas valable pour l'exposant ; dans ce cas, pour des variables bivariées , est une fonction déterministe de la corrélation de Pearson. Si et sont des puissances des distances correspondantes, , alors la covariance de distance de l'échantillon peut être définie comme le nombre non négatif pour lequel

On peut étendre ce principe aux variables aléatoires à valeurs dans un espace métrique : si suit une loi dans un espace métrique muni de la métrique , alors on définit , , et (à condition que soit fini, c'est-à-dire que son premier moment soit fini) . Ensuite, si suit une loi (dans un espace métrique éventuellement différent et muni de son premier moment), on définit .

Cette propriété est non négative pour tous les espaces métriques de ce type si et seulement si les deux espaces métriques sont de type négatif. Ici, un espace métrique est de type négatif s'il est isométrique à un sous-ensemble d'un espace de Hilbert . _13-0" rel="dc:references" typeof="mw:Transclusion mw:Extension/ref" data-mw="{"name":"ref","attrs":{"group":"","name":"FOOTNOTEKlebanov2005[[Category:Wikipedia articles needing page number citations from October 2021]]^{[[[Wikipedia:Citing sources|page needed]]]}"},"body":{"id":"mw-reference-text-cite_note-FOOTNOTEKlebanov2005[[Category:Wikipedia_articles_needing_page_number_citations_from_October_2021]][[[Wikipedia:Citing_sources|page needed]]]-13"},"parts":[{"template":{"target":{"wt":"sfn","href":"./Template:Sfn"},"params":{"1":{"wt":"Klebanov"},"2":{"wt":"2005"},"p":{"wt":"{{pn|date=October 2021}}"}},"i":0}}] [_13-0" rel="dc:references" typeof="mw:Transclusion mw:Extension/ref" data-mw="{"name":"ref","attrs":{"group":"","name":"FOOTNOTEKlebanov2005[[Category:Wikipedia articles needing page number citations from October 2021]]^{[[[Wikipedia:Citing sources|page needed]]]}"},"body":{"id":"mw-reference-text-cite_note-FOOTNOTEKlebanov2005[[Category:Wikipedia_articles_needing_page_number_citations_from_October_2021]][[[Wikipedia:Citing_sources|page needed]]]-13"},"parts":[{"template":{"target":{"wt":"sfn","href":"./Template:Sfn"},"params":{"1":{"wt":"Klebanov"},"2":{"wt":"2005"},"p":{"wt":"{{pn|date=October 2021}}"}},"i":0}}] 13 _13-0" rel="dc:references" typeof="mw:Transclusion mw:Extension/ref" data-mw="{"name":"ref","attrs":{"group":"","name":"FOOTNOTEKlebanov2005[[Category:Wikipedia articles needing page number citations from October 2021]]^{[[[Wikipedia:Citing sources|page needed]]]}"},"body":{"id":"mw-reference-text-cite_note-FOOTNOTEKlebanov2005[[Category:Wikipedia_articles_needing_page_number_citations_from_October_2021]][[[Wikipedia:Citing_sources|page needed]]]-13"},"parts":[{"template":{"target":{"wt":"sfn","href":"./Template:Sfn"},"params":{"1":{"wt":"Klebanov"},"2":{"wt":"2005"},"p":{"wt":"{{pn|date=October 2021}}"}},"i":0}}] ] Si les deux espaces métriques sont de type fortement négatif, alors ils sont non négatifs si et seulement si ils sont indépendants. $_13-0" rel="dc:references" typeof="mw:Transclusion mw:Extension/ref" data-mw="{"name":"ref","attrs":{"group":"","name":"FOOTNOTEKlebanov2005[[Category:Wikipedia articles needing page number citations from October 2021]][[[Wikipedia:Citing sources|page needed]]]"},"body":{"id":"mw-reference-text-cite_note-FOOTNOTEKlebanov2005[[Category:Wikipedia_articles_needing_page_number_citations_from_October_2021]][[[Wikipedia:Citing_sources|page needed]]]-13"},"parts":[{"template":{"target":{"wt":"sfn","href":"./Template:Sfn"},"params":{"1":{"wt":"Klebanov"},"2":{"wt":"2005"},"p":{"wt":"{{pn|date=October 2021}}"}},"i":0}}]$

Définition alternative de la covariance de distance

La covariance de distance initiale a été définie comme la racine carrée de , plutôt que le carré du coefficient lui-même. a la propriété d'être la distance énergétique entre la distribution conjointe de et le produit de ses marginales. Selon cette définition, cependant, c'est la variance de distance, et non l' écart-type de distance , qui est mesurée dans les mêmes unités que les distances.

On peut aussi définir la covariance de distance comme le carré de la distance énergétique : dans ce cas, l’écart type de distance est mesuré dans les mêmes unités que la distance, et il existe un estimateur sans biais pour la covariance de distance de la population.

Selon ces définitions alternatives, la corrélation de distance est également définie comme le carré , plutôt que comme la racine carrée.

Formulation alternative : covariance brownienne

La covariance brownienne est motivée par la généralisation de la notion de covariance aux processus stochastiques. Le carré de la covariance des variables aléatoires X et Y peut s'écrire sous la forme suivante :

où E désigne l' espérance et le prime indique des copies indépendantes et identiquement distribuées. Nous avons besoin de la généralisation suivante de cette formule. Si U(s) et V(t) sont des processus aléatoires arbitraires définis pour tous les réels s et t, alors on définit la version centrée sur U de X par

chaque fois que l'espérance conditionnelle soustraite existe et notons Y _V la version centrée sur V de Y. La covariance (U,V) de (X,Y) est définie comme le nombre non négatif dont le carré est

lorsque le membre de droite est non négatif et fini. L'exemple le plus important est celui où U et V sont des mouvements browniens / processus de Wiener indépendants bilatéraux d'espérance nulle et de covariance

Il existe une coïncidence surprenante : la covariance brownienne est identique à la covariance de distance :

et donc la corrélation brownienne est la même que la corrélation de distance.

D'autre part, si nous remplaçons le mouvement brownien par la fonction identité déterministe id, alors Cov _id ( X , Y ) est simplement la valeur absolue de la covariance de Pearson classique ,

Métriques associées

D'autres mesures de corrélation, notamment celles basées sur les noyaux (comme le critère d'indépendance de Hilbert-Schmidt ou HSIC), permettent également de détecter les interactions linéaires et non linéaires. La corrélation de distance et les mesures basées sur les noyaux peuvent être utilisées dans des méthodes telles que l'analyse de corrélation canonique et l'analyse en composantes indépendantes afin d'obtenir une puissance statistique accrue .