W kwestii tytułu

Darrell Huff. How to lie with statistics (142 strony/a5)

Bill Gates poleca w 2015

https://www.gatesnotes.com/About-Bill-Gates/Summer-Books-2015?WT.mc_id=05_19_2015_SummerBooks_GeekWire

BTW: to zdjęcie (z 2015 roku) w połączeniu z faktem, że Gates finasował badania w dziedzinie epidemiologii (na John Hopkins University) stało się „dowodem” dla różnych szurów, których w USA nie brakuje, iż za pandemią COVID19 stał Gates

A book written by Darrell Huff in 1954 presenting an introduction to statistics for the general reader. Not a statistician, Huff was a journalist […]

In the 1960/1970s, it became a standard textbook introduction to the subject of statistics for many college students […] one of the best-selling statistics books in history.

https://en.wikipedia.org/wiki/How_to_Lie_with_Statistics

Książeczka składa się z 10 rozdziałów i jest napisana w prowokacyjny, sposób (nienaukowy). Poszczególne rozdziały można powiedzieć przeszły do legendy i jak się wpisze tytuł rozdziału do google to zwykle można znaleźć setki tysięcy stron cytujących…

r1. niereprezentatywność próby;

r2. sztuczki nt. średniej r3: niejasne/nieznane szczegóły wyników analizy (statystycznie nieistotne rezulataty ogłaszane bez podania, że są nieistotne–albo średnie dla rozkładów daleko różnych od normalnych)

r4. to samo co #r3 przy założeniu że pomiar jest mocno przybliżony

r5. zmyłkowe wykresy (nie zaczynające się od zera) https://en.wikipedia.org/wiki/Gee_Whizhttps://en.wikipedia.org/wiki/Misleading_graph

r6. zmyłkowe wykresy (porównywanie jednowymiarowych wielkości w 2D albo 3D) https://thejeshgn.com/2017/11/17/how-to-lie-with-graphs/ r7: using one thing as a way to claim proof of something else, even though there’s no correlation between the two (teza i dowód nie są ze sobą powiązane) https://www.secjuice.com/the-semi-attached-figure/

r8. Korelacja to nie przyczynowość

r9. Misinforming people by the use of statistical material might be called statistical manipulation, in a word, Statisticulation. (ten rozdzialik to podsumowanie)

  1. Jak się nie dać oszukać:

Who Says So? (ludzie mają interesy);

How Does He Know? (pomiar jest często wysoce wadliwy);

What’s Missing? (analiza jest niejasna/niepełna);

Many figures (liczb nie rysunków) lose meaning because a comparison is missing. Kobiety w PL nie rodzą dzieci; przeciętny wiek matki w momencie urodzenia dziecka to 27 lat. [czego NIE powiedziano: W całej Europie tak jest]

Did Somebody Change The Subject? (czy mówimy o tezie?)

Does It Make Sense? (ogólnie czy coś z tego wynika na poziomie zdrowego rozsądku)

Że ludzie pokładają nadmierną ufność wynikom statystycznym to zjawisko znane i komentowane od lat:

Wprowadzające w błąd analizy statystyczne mają się mimo to całkiem dobrze jeżeli nie lepiej niż za czasów Huffa co pewnie wynika z następujących czynników:

Nie tylko wykresami można wprowadzić w błąd (w sposób zamierzony lub nie) ale ten wykład jest o wykresach. Bo wykresy są powszechne. Bo wykresy statystyczne stały się ulubioną formą prezentacji wyników przez media w tym media elektroniczne i społecznościowe (jesteśmy zalewani wykresami, które mają coś udowodnić.) Bo nie można na raz o wszystkim.

Po co są tworzone wykresy statystyczne?

Wykresy statystyczne można tworzyć w następujących trzech celach:

  1. Dekoracjnym (aby przyciągnąć czyjąś uwagę; dokument bez obrazków jest nudny, kolorowe zdjęcia są lepsze niż biało-czarne; fantazyjne rysunki są lepsze niż proste, forma jest królem, treść nie ma znaczenia)

  2. Objaśniającym (aby lepiej wyjaśnić komuś pewne zjawisko. Uważa się, że obraz jest warty tysięcy słów)

  3. Eksploracyjnym (wyszukiwanie wzorców danych na eksploracyjnym/wstępnym etapie analizy danych)

Skoncentruję się na drugim punkcie, tj. na skutecznych (effective) graficznych metodach objaśniania zależności w danych. Przy czym jedna metoda (graficzna) jest bardziej skuteczna niż inna, jeśli zawarta w niech informacja jest sprawniej/łatwiej odczytywana przez odbiorcę [Robbins 2005]

Rodzaje wykresów

Niektóre wykresy są lepsze od innych:

Kącik historyczny

Wykresy słupkowe/liniowe/kołowe zostały wymyślone przez Williama Playfaira (ekonomista!) w XVIII wieku. Wykresy kropkowe wymyślił John Cleveland (lata 80.). Wykresy pudełkowe zaproponował John Tukey (lata 70.)

Więcej wykresów Playfaira można znaleźć za pośrednictwem google lub w [artykule Syamnzika] (http://www.math.usu.edu/symanzik/papers/2009_cost/editorial.html)

Statystyką zajmowała się też Florence Nightingale. Wykres poniżej nazywa się różą Nightingale. Jest to rodzaj skumulowanego wykresu słupkowego, ale w układzie biegunowym.

Wycinków (biegunowych słupków) jest dwanaście – tyle ile miesięcy. Długość promienia a co za tym idzie wielkość pola wycinka zależy od wielkości zjawiska, który reprezentuje (liczba zmarłych z powodu: ran, chorób oraz innych przyczyn) Diagramy FN nie przyjęły się, no ale nie każdy nowy pomysł jest od razu genialny…

Metafory graficzne (graphic features)

Wizualizacja danych = zakodowanie zależności między liczbami (aka informacji ilościowej) za pomocą metafor graficznych (figury geometryczne, kąty, kolory, położenie itp.). Niektóre metafory są lepsze niż inne (z punktu widzenia skuteczności)

Wg William S. Cleveland (tego od stripcharts) oraz Robert McGill (Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods, JASA 1984) uporządkowali metafory graficzne w następującej kolejności (od najskuteczniejszej do najmniejskutecznej)

Może zaskakiwać niska efektywność koloru, ale pokażemy że tak jest w istocie.

Najbardziej efektywna jest ocena położenia (odległości) na jednakowej skali i wspólnej linii bazowej

Ocena wielkości kąta nie jest precyzyjna (trudno jest porównać zatem dwa kąty niewiele się różniące). Kąty ostre są niedoszacowane podczas gdy kąty rozwarte (większe niż 90) są przeszacowane.

Ocena powierzchni jest równie mało precyzyjna. Niemożliwe jest rozróżnienie obiektów o zbliżonej powierzchni

Jedna zmienna

Zmienna niemierzalna: wykresy kołowe i słupkowe

Przykład 1: gminy wg Polsce wg typów (źródło: Bank Danych Lokalnych GUS/BDL)

Wykres słupkowy

Wykres kołowy

Jeżeli wartości jest mało wykres kołowy jest OK, ale po co wizualizować raptem trzy liczby?

Porównanie dla trzech województw (wychodzą krótkie nóżki wykresów kołowych – więcej liczb wykres staje się nieczytelny/nieefektywny)

Przykład 2: Wykorzystanie powierzchni kraju w % ogółem (źródło BDL)

W tym przykładzie zmienna przyjmuje więcej wartości co od razu demonstruje słabe strony wykresu kołowego

Wykres słupkowy

Wykres kołowy od razu do kitu

Dla utrwalenia porównanie dla trzech województw

Kołowy do kitu potrójnie czego można się było spodziewać

Przykład 3: Noclegi udzielone w roku 2017 wg krajów UE (tour_occ_ninat, Nights spent at tourist accommodation establishments by non residents)

Wykresy kołowe:

Wykresy słupkowe:

Zmienna mierzalna: histogram

Histogram służy do wizualizacji rozkładu częstości. Pary wartość/liczebność są pokazywane jako prostokąty umieszczone w układzie współrzędnych. Zwykle wartości są grupowane w przedziały wartości.

Przykład: wiek laureatów Nagrody Nobla (do roku 2018 włącznie; dane: The Nobel Prize API Developer Hub)

Histogramy o szerokości przedziału równej 10, 5, 2 oraz 1 lat:

Im więcej wartości/przedziałów tym histogram jest bardziej szczegółowy co niekoniecznie jest pożądane bo zaciemnia ogólny obraz. Nie ma złotych recept na to ile powinno być przedziałów, a ich liczba determinuje kształt oraz optyczną wielkość (tj. całkowitą powierzchnię). Im mniej przedziałów tym histogram będzie optycznie większy.

Porównanie rozkładów

Cecha niemierzalna

Standardowe podejście: skumulowany wykres słupkowy (stacked barchart) względnie grupowany wykres słupkowy (multiple barchart)

CBOS realizuje co najmniej 12 razy w roku sondaż “Aktualne problemy i wydarzenia”, na reprezentatywnej ok. 1000-osobowej próbie dorosłych mieszkańców Polski. (cf https://www.cbos.pl/PL/trendy/trendy.php?)

Częścią tych badań jest badanie zaufania do Polityków. Które to zaufanie jest mierzone w taki sposób, że respondenci odpowiadają na jedno pytanie, które brzmi: Ludzie aktywni publicznie – swoim zachowaniem, tym, co mówią, do czego dążą – budzą mniejsze lub większe zaufanie. Przedstawimy teraz Panu(i) listę osób aktywnych w życiu politycznym naszego kraju. O każdej z nich proszę powiedzieć, w jakim stopniu budzi ona Pana(i) zaufanie. Odpowiadając, proszę posłużyć się skalą, na której –5 oznacza, że osoba ta budzi w Panu(i) głęboką nieufność, 0 – że jest ona Panu(i) obojętna, a +5 oznacza, że ma Pan(i) do tej osoby pełne zaufanie. Oczywiście może się Pan(i) posługiwać innymi ocenami tej skali. Jeżeli kogoś Pan(i) nie zna, proszę powiedzieć

Odsetki badanych wyrażających zaufanie – wskazania punktów od +1 do +5, nieufność – wskazania punktów od –1 do –5, obojętność – 0

W zestawieniu CBOS pomija odpowiedzi „trudno powiedzieć” i odmowy odpowiedzi.

Analiza CBOS (przykład raportu jest w pliku zaufanie_do_politykow_CBOS_2019.pdf) posługuje się skumulowanym wykresem słupkowym (stacked barchart):

Skumulowany wykres słupkowy jest w zasadzie jest wykresem kołowym, tyle że zamiast kółek są prostokąty (cf https://eagereyes.org/techniques/stacked-bars-are-the-worst). Można łatwo porównywać łączną wartość albo wartość przedstawioną za pomocą pierwszego słupka (bo mają wspólną linię dla wartości zero, common baseline). Pozostałe słupki nie są oparte o wspólną linię zerowej wartości i w związku z tym porównanie ich wartości jest trudne. W przykładzie każdy słupek ma 3 kategorie a już jest trudno wskazać czy nieufność do Pawła Kukiza jest większa czy mniejsza od nieufności do Roberta Biedronia. Gorzej wykres sugeruje, że nieufność do Biedronia jest większa niż do Kukiza, podczas gdy w rzeczywistości jest odwrotnie. Podobnie trudno jest określić dla konkretnego polityka czy zaufanie jest większe od nieufności albo o ile jest większe (lub mniejsze)..

Zamiast kumulować czy grupować można wykreślić słupki z każdej kategorii oddzielniem na wspólnej linii zera:

Takie coś nazywa się panelem. Można zamiast wykresów słupkowych użyć kołowych (jeżeli ktoś jest jeszcze nieprzekonany że wykres kołowy nie ma żadnych zalet w porównaniu do słupkowego):

Cecha mierzalna: wykresy pudełkowe (box and whisker plot)

Wykresy pudełkowe są znacznie lepsze niż histogramy do porównywania rozkładów.

Konstrukcja (typowego) wykresu pudełkowego: środkowa kreska to mediana. Góra/dół prostokąta to IQR pierwszy/trzeci kwartyl (czyli wysokość prostokąta to rozstęp międzykwartylowy.) Fantazyjne kreski nad/pod prostokątem zwane wąsami (kot ma whiskers a człowiek mustache) są definiowane jako \(Q_*\pm 1,5 \times \mathrm{IQR}\) Symbole powyżej/pod wąsami (zwykle otwarte kółka) są wartościami nietypowymi (outliers)

Zwróć uwagę na sztuczkę: wartości nietypowe nie są definiowane jako (na przykład) górne/dolne 1% wszystkich wartości (bo wtedy każdy rozkład miałby outliers); ale jako wartości mniejsze/większe od \(Q_* \pm 1,5 \times \mathrm{IQR}\). Wszystkie wartości rozkładów o umiarkowanej zmienności mieszczą się wewnątrz czegoś takiego.

Przykład: wiek laureatów Nagrody Nobla

#nlf <- read.csv("nobel_laureates3.csv", sep = ';', dec = ",",  header=T, na.string="NA");
#noblisci <- nrow(lnf)

ggplot(nlf, aes(x=category, y=age, fill=category)) + geom_boxplot() + ylab("years") + xlab("");

Cecha mierzalna: wykresy paskowe (strip charts)

Wykres paskowy przedstawia rozkład wartości na osi. Taki wykres może być stosowany zamiast wykresu podełkowego (ponieważ zachowują więcej informacji o danych).

Przykład: wiek laureatów Nagrody Nobla

Największym problemem związanym z wykresem paskowym jest nakładanie się punktów. Może to poważnie zniekształcić wykres.

Nie ma dobrego rozwiązania tego problemu, ale istnieje kilka technik, które mogą pomóc: użyj mniejszych kropek, użyj półprzezroczystych kropek (prawy panel), użyj jittera.

Jitter — mały losowy szum dodany do danych (poniżej; większy jitter na prawym panelu)

Dwie zmienne

Celem wizualizacji jest pokazanie zależności pomiędzy zmiennymi.

Wykres rozproszenia (wykres XY) Przykład: Spożycie mięsa a GDP (Świat/2013 rok; dane FAO)

Szeregi czasowe

Wykres liniowy lub słupkowy. Liniowy jest bardziej odpowiedni w przypadku szeregu momentów a słupkowy okresów.

Cel: pokazać dynamikę zmian rośnie/maleje i jak szybko także porównać dynamikę, czyli ocenić zmiany jednej zmniennej względem drugiej…

Ogólne zasady projektowe

Zalecenia Edwarda Tufte

Tufte (https://www.edwardtufte.com/tufte/; wym. Tafti), który jest – bo ciągle żyje – znanym ekspertem (aka guru) w dziedzinie wizualizacji informacji, zaproponował dwie reguły, które nazwał współczynnik dane/farba (data to ink ratio) oraz (współ)czynnik zakłamania (lie factor).

Farba to wielkość farby drukarskiej użyta do narysowania wykresu. Dane to ta ilość farby, która służy do narysowania danych. Reguła postuluje, aby współczynnik DI miał jak najwyższą wartość (tj. zawierał minimum elementów zdobniczych a maksimum danych.)

Krótki video klip, ilustruje zasadę maksymalizacji DI: https://www.youtube.com/watch?v=JIMUzJzqaA8

Współczynnik kłamstwa (LF) jest definiowany jako względną wielkość czegoś na grafice do wielkości tego w danych. LF powinno być oczywiście równe 100%. Według Tufte, LF większe niż 105% lub mniejsze niż 95% oznacza znaczące zniekształcenie. Tę regułę najlepiej wyjaśnić na przykładzie.

Jak bardzo Hinduski są niższe od innych kobiet?

Wygląda że bardzo, np Łotyszki są \(135/31 \approx 4,35\) ponad 4 razy wyższe…

Przykład nieco bardziej subtelny

Wybory prezydenckie 2015. Wyjaśnienie dla cudzoziemców: ten gigant (GG) w środku to nasz były prezydent. Facet obok niego po lewej stronie jest naszym obecnym prezydentem Dudą (AD). Obok Dudy jest była gwiazda rocka Kukiz, czarny koń wyborów (CK).

Oto okładka (lekko zmodyfikowana) wpływowego polskiego tygodnika z maja 2015 roku, tuż przed wyborami. Okładka przedstawia wykres słupkowy tyle że uatrakcyjniony w ten sposób że słupkami są sylwetki kandydatów. Redakcja twierdzi, że liczby są in-sync z wynikami najświeższych badań.

Co można wydedukować z tego wykresu na temat wyników każdego kandydata? O ile wynik GG jest lepszy od wyniku AD? A od wyniku CK? Który kandydat jest wspierany przez gazetę (to akurat łatwo :-)?

The lie-factor details:

Linia od butów do czubka głowy 204mm dla GG, 134mm dla AD dla 42.5mm dla CK. Zatem \(204/134=1.5\) oraz \(204/42.5 \approx 4.8\). Ponieważ \(44/29 \approx 1.5\) oraz \(44/9 \approx 4.8\) zatem wartość LF wynosi perfekcyjne 100%.

Ale czy oceniając figury dwuwymiarowe patrzymy tylko na jeden wymiar na czy powierzchnię?

Jeżeli porównamy powierzchnię: \((204 * 58) /(134 * 21)= 4.20\) oraz \((204 *58)/(42.5 *15) \approx 18.56\). LF wynosi \(4.2/1.5 =280\)% oraz \(18.56/4.8=387\)%. Przypomniam że 105% i więcej to dużo wg Tufte…

Na marginesie: żeby poprawić wynik GG zastosowana dwa pozastatystyczne triki (Can you see them?)

Na marginesie 2: Co dokładnie oznacza proporcje postaci i czy nie powinno być wysokość postaci? :-)

Nachylenie 45 (banking to 45)

Stosunek szerokości do wysokości prostokąta nazywany jest jego współczynnikiem proporcji (aspect ratio).

Współczynnik proporcji określa obszar zajmowany przez dane na wykresie. Zmiana współczynnika proporcji zmienia postrzeganie wykresu. Pytanie brzmi: który współczynnik proporcji jest najlepszy?

Ocena wielkości nachylenia krzywej jest najlepsza jeżeli, jeśli jest ono równe 45 stopniom. Znacznie trudniej jest określić wielkość zmiany, jeśli krzywe są prawie poziome/pionowe. Cleveland (1988) zaproponował aby współczynnik proporcji wykresu był tak dobrany, żeby większość krzywych była nachylona po kątem około 45 stopni.

Ustawienie współczynnika proporcji tak, aby średnia wartości nachylenia wynosiła 45 stopni, nazywa się „przechylaniem średniej orientacji do 45 stopni”.

Można tak ustalić współczynnik proporcji wykresu, aby średnia ważona segmentów linii (ważona długością segmentów) wynosiła około 45 stopni. Dla programu komputerowego wyliczenie czegoś takiego nie powinno stanowić problemu, ale nie znam takiego, który by coś takiego umiał.

Ćwiczenie: na którym wykresie dynamika zjawiska jest największa? (proste)

BTW: na każdym wykresie są te same dane dotyczące emisji (średnia dla Maja każdego roku.) Źródło: US Government’s Earth System Research Laboratory, Global Monitoring Division. (cf CO2 PPM – Trends in Atmospheric Carbon Dioxide)

Wybór skali

Skalę logarytmiczną należy stosować jeżeli wizualizowany zbiór danych charakteruje duży rozstęp (wartości znacznie się różnią.) Jako przykład znowu znowu laureaci nagrody Nobla, tym razem według kraju urodzenia (bornCountryCode)…

Wykresy punktowe z wykorzystaniem różnych skal na osi Y (arithmetic, log2 and log10)

Dokładne dane (gdyby ktoś był ciekaw):

## 
##  AR  AT  AU  AZ  BA  BD  BE  BG  BR  BY  CA  CH  CL  CN  CO  CR  CY  CZ  DE  DK 
##   4  17  10   1   2   1   9   1   1   4  19  17   2  12   2   1   1   6  82  12 
##  DZ  EG  ES  FI  FR  GB  GH  GP  GR  GT  HR  HU  ID  IE  IL  IN  IR  IS  IT  JP 
##   2   6   7   5  55 100   1   1   1   2   1   9   1   5   6   8   2   1  19  26 
##  KE  KR  LC  LR  LT  LU  LV  MA  MG  MK  MM  MX  NG  NL  NO  NZ  PE  PK  PL  PT 
##   1   2   2   2   3   2   1   1   1   1   1   3   1  18  12   3   1   3  25   2 
##  RO  RU  SE  SI  SK  TL  TR  TW  UA  US  VE  VN  YE  ZA  ZW 
##   4  26  29   1   1   2   3   1   5 269   1   1   1   9   1

PL – 25 noblistów 😊 (głównie Niemców i Żydów urodzonych w granicach Cesarstwa Niemieckiego względnie Rosyjskiego)

Jak się nie dać zmanipulować?

Manipulacja może być zamierzona lub nie. Jeżeli wykres jest preparowany pod określoną tezę możemy mówić o manipulacji, ale jeżeli wykres jest tylko niepoprawny, to także może zniekształcić rzeczywistość czyli ją zmanipulować.

Odpowiedź na tytułowe pytanie w jednym zdaniu: nie korzystać (w sensie korzystać z danych) ze złych wykresów, czyli:

  1. przedstawiających nieokreślone wielkości (brak źródła, niejasne definicje, nieokreślone cechy stałe)

  2. zbudowanych niezgodnie z regułami sztuki. Jeżeli ktoś nie potrafi skonstruować poprawnie wykresu, to może też jest równie wiarygodny na innych etapach analizy statystycznej?

  3. jawnie manipulatorskich

Przykłady złych wykresów

Recenzowana praca na temat ruchu turystycznego w muzeum zamku w Malborku pn Parzych Krzysztof. The determinants of the tourist traffic in the castle’s museum of Malbork Journal of Education, Health and Sport.

Praca ta demonstruje wszystkie szkolne błędy omówione wyżej:

wersja bardziej czytelna (jeżeli ktoś upiera się przy wykresach kołowych):

jednak lepiej używać wykresów słupkowych:

Jeszcze gorzej też można (yes we can:-))

Co to jest?

### Wykresy kołowe są znane z bylejakości:

Wykresy słupkowe też można koncertowo zepsuć

Rozkład miejsc w Sejmie po wyborach w 2015 r

Zaznaczono dziwny przechył w lewo

Dlaczego protestowali polscy nauczyciele?

Często pokazywany wykres mający przekonać opinię publiczną, że nauczyciele są dużo gorsi niż kiedyś: (Przeciętne wynagrodzenie jako % przeciętnego ogółem?)

Wersja poprawione (zaczynające się od zera) nie wyglądają już tak dramatycznie:

Wydatki publiczne na edukację

Cd strajku nauczycieli, TVN podaje za GUS

Ciekawostkowo, nawet GUSowi się pomyliło. Najpierw udostępnił coś takiego (Wersja #1):

Zastąpiona szybko poprawką:

Rubel crash według NYT

Załamanie się kursu rubla luty/marzec 2022. Co jest bardzo nie tak na wykresie?

Dziękuję za uwagę

Notatki są tutaj: https://bookdown.org/rudolf_von_ems/jak_sie_nie_dac/

Zbiory danych z przykładów tutaj: https://github.com/hrpunio/Papers/tree/main/PSW_2022