Korelacja odległościowa

W statystyce i teorii prawdopodobieństwa korelacja odległościowa i kowariancja odległościowa to miary zależności między dwoma zmiennymi (w tym wektorami) losowymi. Współczynnik korelacji odległościowej w populacji wynosi zero wtedy i tylko wtedy, gdy zmienne/wektory losowe są niezależne. Współczynnik korelacji odległościowej mierzy zarówno liniowy, jak i nieliniowy związek między dwiema zmiennymi/wektorami losowymi, w odróżnieniu od korelacji Pearsona opisującej związek liniowy.

Korelacja odległościowa może stanowić podstawę permutacyjnego testu statystycznego zależności. Najpierw oblicza się korelację odległościową między dwoma próbkami (co obejmuje centrowanie macierzy odległości euklidesowych), a następnie porównuje się tę wartość z korelacjami odległościowymi wielu permutacji (przetasowań) danych.

Wykresy rozrzutu pokazujące przykładowe zależności między wektorami próbkowymi wraz z odpowiadającymi im wartościami współczynnika korelacji odległościowej. Grafikę tę można porównać z analogiczną przedstawioną w artykule o współczynniku korelacji Pearsona.

Wstęp

Klasyczną miarą zależności jest współczynnik korelacji Pearsona, który jest wrażliwy głównie na zależność liniową między dwiema zmiennymi. Korelacja odległościowa została wprowadzona w 2005 r. przez Gábora J. Székelya jako odpowiedź na istotną wadę korelacji Pearsona – mianowicie fakt, że w przypadku zmiennych zależnych współczynnik ten może przyjmować wartość zero. Współczynnik korelacji Pearsona równy 0 (brak korelacji) nie oznacza niezależności zmiennych, natomiast współczynnik korelacji odległościowej równy 0 oznacza ich niezależność. Pierwsze wyniki dotyczące korelacji odległościowej opublikowano w latach 2007 i 2009[1][2]. Wykazano, że kowariancja odległościowa jest tożsama z kowariancją Browna[2].

Korelacja odległościowa jest definiowana na podstawie kilku powiązanych wielkości: wariancji odległościowej, odległościowego odchylenia standardowego oraz kowariancji odległościowej. Pełnią one analogiczną rolę, jaką w przypadku współczynnika korelacji momentów iloczynowych Pearsona odgrywają odpowiednio: wariancja, odchylenie standardowe i kowariancja.

Definicje

Kowariancja odległościowa

Zacznijmy od zdefiniowania kowariancji odległościowej w próbie. Niech (Xk, Yk ), k = 1, 2, ... , n niech będzie próbą statystyczną z dwóch zmiennych losowych (X, Y) o wartościach rzeczywistych lub wektorowych. W pierwszym kroku należy obliczyć macierze odległości (aj,k) i (bj,k) o wymiarach n na n zawierające wszystkie odległości między parami obserwacji.

gdzie || || oznacza normę euklidesową. W kolejnym kroku wyznacza się wszystkie podwójnie wycentrowane odległości

gdzie jest średnią j-tego wiersza, jest średnią k-tej kolumny, zaś jest średnią ogólną macierzy odległości próbki X. Podobna notacja obowiązuje dla wartości b. Można zauważyć, że macierzach odległości centrowanych (Aj,k) i (Bj,k) suma wszystkich wierszy i kolumn wynosi zero. Kwadrat kowariancji odległościowej w próbie to skalar będący po prostu średnią arytmetyczną iloczynów Aj,k Bj,k :

Statystyka T n = n dCov2n(X,Y) wyznacza spójny wielowymiarowy test niezależności wektorów losowych o dowolnych wymiarach. Implementację można znaleźć w funkcji dcov.test w pakiecie energy w R[3].

Kowariancję odległościową w populacji można zdefiniować w analogiczny sposób. Niech X będzie zmienną losową przyjmującą wartości w p-wymiarowej przestrzeni euklidesowej z rozkładem prawdopodobieństwa μ, a Y niech będzie zmienną losową przyjmującą wartości w q-wymiarowej przestrzeni euklidesowej z rozkładem prawdopodobieństwa ν. Załóżmy, że X i Y mają skończone wartości oczekiwane. Wprowadźmy następujące oznaczenia:

Zdefiniujmy kwadrat kowariancji odległościowej X i Y w populacji jako:

Można pokazać, że jest to równoważne następującej definicji:

gdzie E oznacza wartość oczekiwaną, zaś , oraz są niezależne i mają jednakowy rozkład (zmienne losowe I oznaczają niezależne i mające jednakowy rozkład kopie zmiennych i [4]. Kowariancję odległościową można wyrazić za pomocą klasycznej kowariancji Pearsona, cov, w następujący sposób:

Tożsamość ta pokazuje, że kowariancja odległościowa nie jest tym samym, co korelacja odległościowa cov(||XX’ || , ||YY’ ||). Ta ostatnia może wynosić zero, nawet gdy X i Y nie są niezależne.

Alternatywnie, kowariancję odległościową można zdefiniować jako ważoną normę L2 odległości między łączną funkcją charakterystyczną zmiennych losowych i iloczynem ich brzegowych funkcji charakterystycznych:

gdzie , i funkcjami charakterystycznymi odpowiednio (X, Y), X, i Y; p i q oznaczają wymiar euklidesowy odpowiednio X i Y, zaś s i t oraz cp i cq są stałymi. Funkcja wagi jest wybrana w celu wytworzenia miary niezmienniczej względem obrotu i względem skali, która nie dąży do zera dla zmiennych zależnych[5]. Jedna z interpretacji definicji funkcji charakterystycznej zakłada, że zmienne e isX i e itY są cyklicznymi reprezentacjami X i Y o różnych okresach określonych przez s i t, a wyrażenie ϕX, Y(s, t) − ϕX(s) ϕY(t) w liczniku definicji kowariancji odległościowej funkcji charakterystycznej jest po prostu klasyczną kowariancją e isX i e itY . Definicja funkcji charakterystycznej wyraźnie pokazuje, że dCov 2(X, Y) = 0 wtedy i tylko wtedy, gdy X i Y są niezależne.

Wariancja odległościowa i odległościowe odchylenie standardowe

Wariancja odległościowa jest szczególnym przypadkiem kowariancji odległościowej, gdy dwie zmienne są identyczne. Wartość wariancji odległościowej w populacji to pierwiastek kwadratowy z

gdzie , , I niezależnymi zmiennymi losowymi o jednakowym rozkładzie, oznacza wartość oczekiwaną, zaś dla funkcji , np, .

Wariancja odległościowa w próbie jest pierwiastkiem kwadratowym z

co jest zbliżone do średniej różnicy bezwzględnej Corrado Giniego wprowadzoną w 1912 r., przy czym Gini nie używał z odległości centrowanych[6].

Korelacja odległościowa

Korelację odległościową dwóch zmiennych losowych uzyskuje się poprzez podzielenie ich kowariancji odległościowej przez iloczyn ich odległościowych odchyleń standardowych[1][2]. Korelacja odległościowa jest pierwiastkiem kwadratowym z

zaś korelacja odległościowa w próbie jest definiowana analogicznie przez podstawienie kowariancji odległościowej w próbie i wariancji odległościowej w próbie w powyższym wzorze.

Korelację odległościową z próby można obliczyć, stosując funkcję dcor w pakiecie energy w R[3].

Właściwości

Korelacja odległościowa

i. oraz ;

W przeciwieństwie do współczynnika korelacji Pearsona korelacja odległościowa nie może być ujemna.

ii. wtedy i tylko wtedy, gdy X i Y są niezależne.

iii. implikuje, że wymiary podprzestrzeni liniowych rozpiętych odpowiednio przez próbki X i Y są (z prawdopodobieństwem 1) równe, a jeśli założymy, że te podprzestrzenie są równe, to w tej podprzestrzeni dla pewnego wektora A, skalara b i macierzy ortonormalnej .

Kowariancja odległościowa

i. i ;

ii.dla wszystkich stałych wektorów , skalarów i ortonormalnych macierzy .

iii. Jeżeli wektory losowe i są niezależne, to

Równość występuje wtedy i tylko wtedy, gdy zarówno , jak i są stałymi lub zarówno , jak i są stałymi, albo też gdy są wzajemnie niezależne.

iv. wtedy i tylko wtedy, gdy X i Y są niezależne.

Ostatnia właściwość jest najważniejszym właściwością wynikającą z pracy z odległościami wycentrowanymi.

Statystyka jest obciążonym estymatorem . Zakładając niezależność X i Y[7]

Nieobciążony estymator podają Székely i Rizzo[4].

Wariancja odległościowa

i. wtedy i tylko wtedy, gdy prawie na pewno.

ii. wtedy i tylko wtedy, gdy wszystkie obserwacje w próbie są jednakowe.

iii. dla wszystkich stałych wektorów A, skalarów b i macierzy ortonormalnych .

iv. Jeśli X i Y są niezależne, to .

Równość zachodzi w (iv) wtedy i tylko wtedy, gdy jedna ze zmiennych losowych X lub Y jest stałą.

Uogólnienie

Kowariancję odległościową można uogólnić tak, aby uwzględniała potęgi odległości euklidesowej:

Wtedy dla każdego , i są niezależne wtedy i tylko wtedy, gdy . Należy zaznaczyć, że właściwość ta nie dotyczy wykładnika  ; w tym przypadku dla dwuwymiarowej zmiennej losowej , jest deterministyczną funkcją korelacji Pearsona[1]. Gdy i to potęgi o wykładniku () odpowiednich odległości, wówczas -kowariancję odległościową z próby można zdefiniować jako liczbę nieujemną, dla której

Alternatywna definicja kowariancji odległościowej

Oryginalna kowariancja odległościowa została zdefiniowana jako pierwiastek kwadratowy z . jest odległością energetyczną między wspólnym rozkładem i iloczynem rozkładów brzegowych. Zgodnie z tą definicją wariancja odległościowa, a nie odległościowe odchylenie standardowe, mierzona jest w tych samych jednostkach, co odległości.

Alternatywnie można zdefiniować kowariancję odległościową jako kwadrat odległości energetycznej: W tym przypadku odległościowe odchylenie standardowe jest mierzone w tych samych jednostkach, co odległość i istnieje nieobciążony estymator kowariancji odległościowej w populacji[8].

Zgodnie z tymi alternatywnymi definicjami korelacja odległościowa jest również definiowana jako , a jako nie pierwiastek kwadratowy z tej miary.

Alternatywna formuła: kowariancja Browna

Kowariancja Browna stanowi uogólnienie pojęcia kowariancji na procesy stochastyczne. Kwadrat kowariancji zmiennych losowych X i Y można zapisać w następującej postaci:

gdzie E oznacza wartość oczekiwaną, a symbol prim oznacza niezależną kopię danej zmiennej o jednakowym rozkładzie. Jeżeli U(s), V(t) są dowolnymi procesami losowymi zdefiniowanymi dla wszystkich rzeczywistych s i t, wówczas zmienną X zcentrowaną względem U definiujemy następująco

zawsze gdy istnieje odejmowana w powyższym wzorze warunkowa wartość oczekiwana. Niech YV będzie Y centrowaną ze względu na V wersją Y[2][9][10] , wtedy (U,V)-kowariancja (X,Y) jest zdefiniowana jako liczba nieujemna, której kwadrat wynosi

zawsze, gdy prawa strona jest nieujemna i skończona. Najważniejszym przykładem jest sytuacja, gdy U i V są dwustronnymi niezależnymi ruchami Browna / procesami Wienera z zerową średnią i kowariancją |s| + |t| – |st| = 2 min (s, t), gdy s, t są nieujemne. W tym przypadku kowariancja (U, V) nazywana jest kowariancją Browna i oznaczana jako

Jak się okazuje, kowariancja Browna jest tym samym, co kowariancja odległościowa:

stąd korelacja Browna jest tym samym, co korelacja odległościowa.

Z drugiej strony, jeśli zastąpimy ruch Browna deterministyczną funkcją tożsamościową id, wówczas Covid(X,Y) jest po prostu wartością bezwzględną klasycznej kowariancji Pearsona:

Powiązane miary

Inne miary zależności, w tym wskaźniki korelacyjne oparte na jądrze (takie jak kryterium niezależności Hilberta-Schmidta, czyli HSIC), również mogą wykrywać oddziaływania liniowe i nieliniowe. Zarówno korelację odległościową, jak i metryki oparte na jądrze można stosować w ramach analizy korelacji kanonicznej, analizy niezależnych składowych i podobnych procedur, aby uzyskać większą moc statystyczną .

Przypisy

  1. 1 2 3 Gábor J. Székely, Maria L. Rizzo, Nail K. Bakirov, Measuring and testing dependence by correlation of distances, „The Annals of Statistics”, 35 (6), 2007, DOI: 10.1214/009053607000000505, ISSN 0090-5364 [dostęp 2025-05-20].
  2. 1 2 3 4 Gábor J. Székely, Maria L. Rizzo, Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312, ISSN 1932-6157, PMID: 20574547, PMCID: PMC2889501 [dostęp 2025-05-20].
  3. 1 2 Maria Rizzo, Gabor Szekely, energy: E-Statistics: Multivariate Inference via the Energy of Data [online], 24 sierpnia 2024 [dostęp 2025-05-20].
  4. 1 2 Gábor J. Székely, Maria L. Rizzo, Partial distance correlation with methods for dissimilarities, „The Annals of Statistics”, 42 (6), 2014, DOI: 10.1214/14-aos1255, ISSN 0090-5364 [dostęp 2025-05-20].
  5. Székely i Rizzo 2012 ↓.
  6. Corrado Gini, Variabilità e mutabilità: contributo allo studio delle distribuzioni e delle relazioni statistiche. [Fasc. I.], Tipogr. di P. Cuppini, 1912 [dostęp 2025-05-20] (wł.).
  7. Gábor J. Székely, Maria L. Rizzo, Rejoinder: Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312rej, ISSN 1932-6157 [dostęp 2025-05-20].
  8. Gábor J. Székely, Maria L. Rizzo, Partial distance correlation with methods for dissimilarities, „The Annals of Statistics”, 42 (6), 2014, DOI: 10.1214/14-AOS1255, ISSN 0090-5364 [dostęp 2025-05-20].
  9. Peter J. Bickel, Ying Xu, Discussion of: Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312a, ISSN 1932-6157 [dostęp 2025-05-20].
  10. Michael R. Kosorok, Discussion of: Brownian distance covariance, „The Annals of Applied Statistics”, 3 (4), 2009, DOI: 10.1214/09-aoas312b, ISSN 1932-6157 [dostęp 2025-05-20].