Darrell Huff. How to lie with statistics (142 strony/a5)

Bill Gates poleca w 2015
Bill Gates poleca w 2015

Książka Huffa jest na samej górze…

to zdjęcie (z 2015 roku) w połączeniu z faktem, że Gates finasował badania w dziedzinie epidemiologii (na John Hopkins University) stało się „dowodem” dla różnych szurów, których w USA nie brakuje, iż za pandemią COVID19 stał Gates

Tufte

Edward Tufte (https://www.edwardtufte.com/tufte/; wym. Tafti), który jest – bo ciągle żyje – znanym ekspertem (aka guru) w dziedzinie wizualizacji informacji, zaproponował dwie reguły, które nazwał współczynnik dane/farba (data to ink ratio) oraz (współ)czynnik zakłamania (lie factor).

Farba to wielkość farby drukarskiej użyta do narysowania wykresu. Dane to ta ilość farby, która służy do narysowania danych. Reguła postuluje, aby współczynnik DI miał jak najwyższą wartość (tj. zawierał minimum elementów zdobniczych a maksimum danych.)

Krótki video klip, ilustruje zasadę maksymalizacji DI: https://www.youtube.com/watch?v=JIMUzJzqaA8

Współczynnik kłamstwa (LF) jest definiowany jako względną wielkość czegoś na grafice do wielkości tego w danych. LF powinno być oczywiście równe 100%. Według Tufte, LF większe niż 105% lub mniejsze niż 95% oznacza znaczące zniekształcenie. Tę regułę najlepiej wyjaśnić na przykładzie.

Jak bardzo Hinduski są niższe od innych kobiet?

Wygląda że bardzo, np Łotyszki są \(135/31 \approx 4,35\) ponad 4 razy wyższe…

Przykład nieco bardziej subtelny

Wybory prezydenckie 2015. Oto okładka wpływowego polskiego tygodnika z maja 2015 roku, tuż przed wyborami. Okładka przedstawia wykres słupkowy tyle że uatrakcyjniony w ten sposób że słupkami są sylwetki kandydatów (BK = Bronisław Komorowski, AD = Andrzej Duda, oraz PK = Paweł Kukiz). Redakcja twierdzi, że liczby są in-sync z wynikami najświeższych badań (proporcje postaci zgodne z wynikami sondaży…).

Ukryjmy liczby. Co można wydedukować z tego wykresu na temat wyników każdego kandydata?

  1. O ile wynik BK jest lepszy od wyniku AD?

  2. O ile wynik BK jest lepszy od od wyniku PK?

  3. Który kandydat jest wspierany przez gazetę (to akurat łatwo :-)?

The lie-factor details

Policzmy lie factor:

Linia od butów do czubka głowy 204mm dla GG, 134mm dla AD dla 42.5mm dla PK. Zatem \(204/134=1.5\) oraz \(204/42.5 \approx 4.8\). Ponieważ \(44/29 \approx 1.5\) oraz \(44/9 \approx 4.8\) zatem wartość LF wynosi perfekcyjne 100%.

Ale czy oceniając figury dwuwymiarowe patrzymy tylko na jeden wymiar na czy powierzchnię?

Jeżeli porównamy powierzchnię: \((204 * 58) /(134 * 21)= 4.20\) oraz \((204 *58)/(42.5 *15) \approx 18.56\). LF wynosi \(4.2/1.5 =280\)% oraz \(18.56/4.8=387\)%. Przypomniam że 105% i więcej to dużo wg Tufte…

Na marginesie: żeby poprawić wynik BK zastosowana dwa pozastatystyczne triki (Can you see them?)

Na marginesie 2: Co dokładnie oznacza proporcje postaci i czy nie powinno być wysokość postaci? :-)

zmyłkowe wykresy (nie zaczynające się od zera)

Huff r. 5

https://en.wikipedia.org/wiki/Gee_Whiz

Procent w procencie

W czasie strajku nauczycieli https://pl.wikipedia.org/wiki/Strajk_nauczycieli_w_Polsce_w_2019_roku taki wykres był koloportowany (skopiowany z publikacji GUS zresztą)

Zestawmy oryginał z wykresem w którym wszystko zaczyna się od zera (na osi Y):

Nachylenie 45 (banking to 45)

Stosunek szerokości do wysokości prostokąta nazywany jest jego współczynnikiem proporcji (aspect ratio).

Współczynnik proporcji określa obszar zajmowany przez dane na wykresie. Zmiana współczynnika proporcji zmienia postrzeganie wykresu. Pytanie brzmi: który współczynnik proporcji jest najlepszy?

Ocena wielkości nachylenia krzywej jest najlepsza jeżeli, jeśli jest ono równe 45 stopniom. Znacznie trudniej jest określić wielkość zmiany, jeśli krzywe są prawie poziome/pionowe.

Powyżej przedstawiono to samo ale używając różnego aspekt ratio oraz zaczynając bądź nie od zera na osi Y

Niewątpliwie postulat zaczynania słupków/linii od zera czasami/często nie da się połączyć z nachyleniem pod kątem 45…

Wykresy spartolone koncertowo

Kurs rubla wg NYT

  1. Ile spadł Rubel? Wydaje się że o 1000000% w rzeczywistości znacznie mniej

  2. Czy kierunek na osi OY nie wdaje się dziwny?

Wykresy spartolone koncertowo cd

Huff r6. zmyłkowe wykresy (porównywanie jednowymiarowych wielkości w 2D albo pseudo 3D)

Nie używać więcej wymiarów na wykresie niż jest wymiarów w zbiorze danych

Polski Sejm 2015

  1. Spróbuj oszacować na wykresie po lewej liczbę mandatów poszczególnych partii (np PO i Kukiz); do czego Excel wyrównuje słupki niewiadomo ale na pewno nie do tej krawędzi do której nam się wydaje że powinien

  2. Słupki nie wiedzieć czemu nie trzymają pionu (ah ten Excel)

  3. Ilu wymiarów użyto?

cztery: pseudo 3D + kolor (słupków). Do pokazania zależności pomiędzy czterema liczbami. Rekord świata w przeroście formy nad treścią

Koniec