Korelacja odległościowa
W statystyce i teorii prawdopodobieństwa korelacja odległościowa i kowariancja odległościowa to miary zależności między dwoma zmiennymi (w tym wektorami) losowymi. Współczynnik korelacji odległościowej w populacji wynosi zero wtedy i tylko wtedy, gdy zmienne/wektory losowe są niezależne. Współczynnik korelacji odległościowej mierzy zarówno liniowy, jak i nieliniowy związek między dwiema zmiennymi/wektorami losowymi, w odróżnieniu od korelacji Pearsona opisującej związek liniowy.
Korelacja odległościowa może stanowić podstawę permutacyjnego testu statystycznego zależności. Najpierw oblicza się korelację odległościową między dwoma próbkami (co obejmuje centrowanie macierzy odległości euklidesowych), a następnie porównuje się tę wartość z korelacjami odległościowymi wielu permutacji (przetasowań) danych.

Wstęp
Klasyczną miarą zależności jest współczynnik korelacji Pearsona, który jest wrażliwy głównie na zależność liniową między dwiema zmiennymi. Korelacja odległościowa została wprowadzona w 2005 r. przez Gábora J. Székelya jako odpowiedź na istotną wadę korelacji Pearsona – mianowicie fakt, że w przypadku zmiennych zależnych współczynnik ten może przyjmować wartość zero. Współczynnik korelacji Pearsona równy 0 (brak korelacji) nie oznacza niezależności zmiennych, natomiast współczynnik korelacji odległościowej równy 0 oznacza ich niezależność. Pierwsze wyniki dotyczące korelacji odległościowej opublikowano w latach 2007 i 2009[1][2]. Wykazano, że kowariancja odległościowa jest tożsama z kowariancją Browna[2].
Korelacja odległościowa jest definiowana na podstawie kilku powiązanych wielkości: wariancji odległościowej, odległościowego odchylenia standardowego oraz kowariancji odległościowej. Pełnią one analogiczną rolę, jaką w przypadku współczynnika korelacji momentów iloczynowych Pearsona odgrywają odpowiednio: wariancja, odchylenie standardowe i kowariancja.
Definicje
Kowariancja odległościowa
Zacznijmy od zdefiniowania kowariancji odległościowej w próbie. Niech (Xk, Yk ), k = 1, 2, ... , n niech będzie próbą statystyczną z dwóch zmiennych losowych (X, Y) o wartościach rzeczywistych lub wektorowych. W pierwszym kroku należy obliczyć macierze odległości (aj,k) i (bj,k) o wymiarach n na n zawierające wszystkie odległości między parami obserwacji.
gdzie || ⋅ || oznacza normę euklidesową. W kolejnym kroku wyznacza się wszystkie podwójnie wycentrowane odległości
gdzie jest średnią j-tego wiersza, jest średnią k-tej kolumny, zaś jest średnią ogólną macierzy odległości próbki X. Podobna notacja obowiązuje dla wartości b. Można zauważyć, że macierzach odległości centrowanych (Aj,k) i (Bj,k) suma wszystkich wierszy i kolumn wynosi zero. Kwadrat kowariancji odległościowej w próbie to skalar będący po prostu średnią arytmetyczną iloczynów Aj,k Bj,k :
Statystyka T n = n dCov2n(X,Y) wyznacza spójny wielowymiarowy test niezależności wektorów losowych o dowolnych wymiarach. Implementację można znaleźć w funkcji dcov.test w pakiecie energy w R[3].
Kowariancję odległościową w populacji można zdefiniować w analogiczny sposób. Niech X będzie zmienną losową przyjmującą wartości w p-wymiarowej przestrzeni euklidesowej z rozkładem prawdopodobieństwa μ, a Y niech będzie zmienną losową przyjmującą wartości w q-wymiarowej przestrzeni euklidesowej z rozkładem prawdopodobieństwa ν. Załóżmy, że X i Y mają skończone wartości oczekiwane. Wprowadźmy następujące oznaczenia:
Zdefiniujmy kwadrat kowariancji odległościowej X i Y w populacji jako:
Można pokazać, że jest to równoważne następującej definicji:
gdzie E oznacza wartość oczekiwaną, zaś , oraz są niezależne i mają jednakowy rozkład (zmienne losowe I oznaczają niezależne i mające jednakowy rozkład kopie zmiennych i [4]. Kowariancję odległościową można wyrazić za pomocą klasycznej kowariancji Pearsona, cov, w następujący sposób:
Tożsamość ta pokazuje, że kowariancja odległościowa nie jest tym samym, co korelacja odległościowa cov(||X – X’ || , ||Y – Y’ ||). Ta ostatnia może wynosić zero, nawet gdy X i Y nie są niezależne.
Alternatywnie, kowariancję odległościową można zdefiniować jako ważoną normę L2 odległości między łączną funkcją charakterystyczną zmiennych losowych i iloczynem ich brzegowych funkcji charakterystycznych:
gdzie , i są funkcjami charakterystycznymi odpowiednio (X, Y), X, i Y; p i q oznaczają wymiar euklidesowy odpowiednio X i Y, zaś s i t oraz cp i cq są stałymi. Funkcja wagi jest wybrana w celu wytworzenia miary niezmienniczej względem obrotu i względem skali, która nie dąży do zera dla zmiennych zależnych[5]. Jedna z interpretacji definicji funkcji charakterystycznej zakłada, że zmienne e isX i e itY są cyklicznymi reprezentacjami X i Y o różnych okresach określonych przez s i t, a wyrażenie ϕX, Y(s, t) − ϕX(s) ϕY(t) w liczniku definicji kowariancji odległościowej funkcji charakterystycznej jest po prostu klasyczną kowariancją e isX i e itY . Definicja funkcji charakterystycznej wyraźnie pokazuje, że dCov 2(X, Y) = 0 wtedy i tylko wtedy, gdy X i Y są niezależne.
Wariancja odległościowa i odległościowe odchylenie standardowe
Wariancja odległościowa jest szczególnym przypadkiem kowariancji odległościowej, gdy dwie zmienne są identyczne. Wartość wariancji odległościowej w populacji to pierwiastek kwadratowy z
gdzie , , I są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, oznacza wartość oczekiwaną, zaś dla funkcji , np, .
Wariancja odległościowa w próbie jest pierwiastkiem kwadratowym z
co jest zbliżone do średniej różnicy bezwzględnej Corrado Giniego wprowadzoną w 1912 r., przy czym Gini nie używał z odległości centrowanych[6].
Korelacja odległościowa
Korelację odległościową dwóch zmiennych losowych uzyskuje się poprzez podzielenie ich kowariancji odległościowej przez iloczyn ich odległościowych odchyleń standardowych[1][2]. Korelacja odległościowa jest pierwiastkiem kwadratowym z
zaś korelacja odległościowa w próbie jest definiowana analogicznie przez podstawienie kowariancji odległościowej w próbie i wariancji odległościowej w próbie w powyższym wzorze.
Korelację odległościową z próby można obliczyć, stosując funkcję dcor w pakiecie energy w R[3].
Właściwości
Korelacja odległościowa
i. oraz ;
W przeciwieństwie do współczynnika korelacji Pearsona korelacja odległościowa nie może być ujemna.
ii. wtedy i tylko wtedy, gdy X i Y są niezależne.
iii. implikuje, że wymiary podprzestrzeni liniowych rozpiętych odpowiednio przez próbki X i Y są (z prawdopodobieństwem 1) równe, a jeśli założymy, że te podprzestrzenie są równe, to w tej podprzestrzeni dla pewnego wektora A, skalara b i macierzy ortonormalnej .
Kowariancja odległościowa
i. i ;
ii.dla wszystkich stałych wektorów , skalarów i ortonormalnych macierzy .
iii. Jeżeli wektory losowe i są niezależne, to
Równość występuje wtedy i tylko wtedy, gdy zarówno , jak i są stałymi lub zarówno , jak i są stałymi, albo też gdy są wzajemnie niezależne.
iv. wtedy i tylko wtedy, gdy X i Y są niezależne.
Ostatnia właściwość jest najważniejszym właściwością wynikającą z pracy z odległościami wycentrowanymi.
Statystyka jest obciążonym estymatorem . Zakładając niezależność X i Y[7]
Nieobciążony estymator podają Székely i Rizzo[4].
Wariancja odległościowa
i. wtedy i tylko wtedy, gdy prawie na pewno.
ii. wtedy i tylko wtedy, gdy wszystkie obserwacje w próbie są jednakowe.
iii. dla wszystkich stałych wektorów A, skalarów b i macierzy ortonormalnych .
iv. Jeśli X i Y są niezależne, to .
Równość zachodzi w (iv) wtedy i tylko wtedy, gdy jedna ze zmiennych losowych X lub Y jest stałą.
Uogólnienie
Kowariancję odległościową można uogólnić tak, aby uwzględniała potęgi odległości euklidesowej:
Wtedy dla każdego , i są niezależne wtedy i tylko wtedy, gdy . Należy zaznaczyć, że właściwość ta nie dotyczy wykładnika ; w tym przypadku dla dwuwymiarowej zmiennej losowej , jest deterministyczną funkcją korelacji Pearsona[1]. Gdy i to potęgi o wykładniku () odpowiednich odległości, wówczas -kowariancję odległościową z próby można zdefiniować jako liczbę nieujemną, dla której
Alternatywna definicja kowariancji odległościowej
Oryginalna kowariancja odległościowa została zdefiniowana jako pierwiastek kwadratowy z . jest odległością energetyczną między wspólnym rozkładem i iloczynem rozkładów brzegowych. Zgodnie z tą definicją wariancja odległościowa, a nie odległościowe odchylenie standardowe, mierzona jest w tych samych jednostkach, co odległości.
Alternatywnie można zdefiniować kowariancję odległościową jako kwadrat odległości energetycznej: W tym przypadku odległościowe odchylenie standardowe jest mierzone w tych samych jednostkach, co odległość i istnieje nieobciążony estymator kowariancji odległościowej w populacji[8].
Zgodnie z tymi alternatywnymi definicjami korelacja odległościowa jest również definiowana jako , a jako nie pierwiastek kwadratowy z tej miary.
Alternatywna formuła: kowariancja Browna
Kowariancja Browna stanowi uogólnienie pojęcia kowariancji na procesy stochastyczne. Kwadrat kowariancji zmiennych losowych X i Y można zapisać w następującej postaci:
gdzie E oznacza wartość oczekiwaną, a symbol prim oznacza niezależną kopię danej zmiennej o jednakowym rozkładzie. Jeżeli U(s), V(t) są dowolnymi procesami losowymi zdefiniowanymi dla wszystkich rzeczywistych s i t, wówczas zmienną X zcentrowaną względem U definiujemy następująco
zawsze gdy istnieje odejmowana w powyższym wzorze warunkowa wartość oczekiwana. Niech YV będzie Y centrowaną ze względu na V wersją Y[2][9][10] , wtedy (U,V)-kowariancja (X,Y) jest zdefiniowana jako liczba nieujemna, której kwadrat wynosi
zawsze, gdy prawa strona jest nieujemna i skończona. Najważniejszym przykładem jest sytuacja, gdy U i V są dwustronnymi niezależnymi ruchami Browna / procesami Wienera z zerową średnią i kowariancją |s| + |t| – |s–t| = 2 min (s, t), gdy s, t są nieujemne. W tym przypadku kowariancja (U, V) nazywana jest kowariancją Browna i oznaczana jako
Jak się okazuje, kowariancja Browna jest tym samym, co kowariancja odległościowa:
stąd korelacja Browna jest tym samym, co korelacja odległościowa.
Z drugiej strony, jeśli zastąpimy ruch Browna deterministyczną funkcją tożsamościową id, wówczas Covid(X,Y) jest po prostu wartością bezwzględną klasycznej kowariancji Pearsona:
Powiązane miary
Inne miary zależności, w tym wskaźniki korelacyjne oparte na jądrze (takie jak kryterium niezależności Hilberta-Schmidta, czyli HSIC), również mogą wykrywać oddziaływania liniowe i nieliniowe. Zarówno korelację odległościową, jak i metryki oparte na jądrze można stosować w ramach analizy korelacji kanonicznej, analizy niezależnych składowych i podobnych procedur, aby uzyskać większą moc statystyczną .
Przypisy
- 1 2 3 Gábor J. Székely, Maria L. Rizzo, Nail K. Bakirov, Measuring and testing dependence by correlation of distances, „The Annals of Statistics”, 35 (6), 2007, DOI: 10.1214/009053607000000505, ISSN 0090-5364 [dostęp 2025-05-20].
- 1 2 3 4 Gábor J. Székely, Maria L. Rizzo, Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312, ISSN 1932-6157, PMID: 20574547, PMCID: PMC2889501 [dostęp 2025-05-20].
- 1 2 Maria Rizzo, Gabor Szekely, energy: E-Statistics: Multivariate Inference via the Energy of Data [online], 24 sierpnia 2024 [dostęp 2025-05-20].
- 1 2 Gábor J. Székely, Maria L. Rizzo, Partial distance correlation with methods for dissimilarities, „The Annals of Statistics”, 42 (6), 2014, DOI: 10.1214/14-aos1255, ISSN 0090-5364 [dostęp 2025-05-20].
- ↑ Székely i Rizzo 2012 ↓.
- ↑ Corrado Gini, Variabilità e mutabilità: contributo allo studio delle distribuzioni e delle relazioni statistiche. [Fasc. I.], Tipogr. di P. Cuppini, 1912 [dostęp 2025-05-20] (wł.).
- ↑ Gábor J. Székely, Maria L. Rizzo, Rejoinder: Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312rej, ISSN 1932-6157 [dostęp 2025-05-20].
- ↑ Gábor J. Székely, Maria L. Rizzo, Partial distance correlation with methods for dissimilarities, „The Annals of Statistics”, 42 (6), 2014, DOI: 10.1214/14-AOS1255, ISSN 0090-5364 [dostęp 2025-05-20].
- ↑ Peter J. Bickel, Ying Xu, Discussion of: Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312a, ISSN 1932-6157 [dostęp 2025-05-20].
- ↑ Michael R. Kosorok, Discussion of: Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312b, ISSN 1932-6157 [dostęp 2025-05-20].