Kwartet Anscombe’a

Wszystkie cztery zestawy danych wydają się być identyczne, jeżeli weźmiemy pod uwagę ich charakterystykę statystyczną, ale znacznie różnią się od siebie w ujęciu graficznym

Kwartet Anscombe'a to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna, wariancja, współczynnik korelacji czy równanie regresji liniowej, jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym. Układ tych danych został stworzony w 1973 roku przez brytyjskiego statystyka Francisa Anscombe'a aby ukazać znaczenie graficznej reprezentacji danych przy okazji ich analizy statystycznej.

Cechy układów

Cecha Wartość
Średnia arytmetyczna zmiennej x 9
Wariancja zmiennej x 11
Średnia arytmetyczna zmiennej y 7.50 (identyczna do dwóch cyfr po przecinku)
Wariancja zmiennej y 4.122 lub 4.127 (identyczna do trzech cyfr po przecinku)
Współczynnik korelacji pomiędzy zmiennymi 0.816 (identyczny do trzech cyfr po przecinku)
Równanie regresji liniowej (identyczny do kolejno: dwóch i trzech miejsc po przecinku)
Współczynnik determinacji R² 0,666 (różnica pojawia się dopiero na czwartym miejscu po przecinku)

Dane wejściowe

Poniższa tabela zawiera dane wejściowe użyte przez Anscombe'a do przedstawienia problemu.

Kwartet Anscombe'a
I II III IV
x y x y x y x y
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89

Bibliografia

  • F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 lutego 1973, s. 17-21.
  • Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
  • Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254.