Rozdział 11 Przedział ufności dla średniej

11.1 Przedział ufności i poziom ufności

Przedział ufności to przedział, który stanowi oszacowanie nieznanego parametru z ufnością \((1-\alpha)\). Przedział ufności jest skonstruowany w taki sposób, że — przy spełnieniu odpowiednich warunków — istnieje ustalone prawdopodobieństwo (nazywane poziomem ufności i oznaczane wyrażeniem \(1-\alpha\)), że przedział wyznaczony na podstawie losowej próby zawiera rzeczywistą wartość tego parametru.

Poziom ufności \((1-\alpha)\) to prawdopodobieństwo, że przedział ufności wyznaczony na podstawie losowej próby będzie zawierał rzeczywistą wartość oszacowywanego parametru. Innymi słowy, poziom ufności to długookresowy odsetek takich przedziałów, które zawierałyby prawdziwy parametr, gdybyśmy wielokrotnie powtarzali proces losowania próby i konstruowania przedziałów ufności.

Poziom ufności jest zwykle przedstawiany albo w postaci ułamka dziesiętnego, albo w postaci procentu.

11.2 Estymacja przedziałowa średniej

W ramach naszego kursu średnią w populacji na podstawie prób losowych będziemy szacować na dwa sposoby:

Wzór z wykorzystaniem odpowiedniego kwantyla standaryzowanego rozkładu normalnego (wzór „z”): W pierwszym przypadku będziemy zakładać, że próba jest wystarczająco duża (w praktyce dydaktycznej⁷ \(n \geqslant 30\)). Będziemy wtedy używać centralnego twierdzenia granicznego i stosować odpowiedni kwantyl rozkładu normalnego \(z_{\alpha/2}\).
Wzór wykorzystujący odpowiedni kwantyl rozkładu t-Studenta (wzór „t”): W drugim przypadku, dla małych prób, estymacja będzie możliwa tylko wtedy, jeżeli będziemy mogli założyć, że rozkład zmiennej w populacji jest (przynajmniej w przybliżeniu) normalny. Będziemy wtedy korzystać z rozkładu t-Studenta i kwantyla \(t_{\alpha/2}\).

W pierwszym przypadku (z) zastosujemy taki wzór:

\[\begin{equation} \bar{x} \pm z_{\alpha/2} \frac{s}{\sqrt{n}}, \tag{11.1} \end{equation}\]

gdzie \(\bar{x}\) to średnia z próby, \(s\) to odchylenie standardowe z próby, \(n\) to liczba obserwacji (liczebność próby), zaś \(z_{\alpha/2}\) to kwantyl standardowego rozkładu normalnego, taki że \(P(Z > z_{\alpha/2})= \alpha/2\). Komponent \(\frac{s}{\sqrt{n}}\) nazywany jest błędem standardowym lub, bardziej precyzyjnie, oszacowaniem błędu standardowego średniej z próby.

Zaś w drugim przypadku (t) zastosujemy następujący wzór:

\[\begin{equation} \bar{x} \pm t_{\alpha/2} \frac{s}{\sqrt{n}}, \tag{11.2} \end{equation}\]

gdzie wartość \(t_{\alpha/2}\) to odpowiedni kwantyl z rozkładu t-Studenta.

Rozkład t-Studenta ma jeden parametr (oznaczany \(\nu\) lub d.f., co jest skrótem od angielskiego degrees of freedom) – tzw. „liczbę stopni swobody”. Do celów szacowania przedziału ufności należy wziąć \(\nu = n-1\).

11.3 Dodatkowe uwagi

Ponieważ dla dużych prób (dla dużych \(n\)) przedział ufności oparty na statystyce \(t\) zwraca wyniki podobne do przedziału opartego na statystyce \(z\), w praktyce stosuje się dość często wzór \(t\) również dla dużych prób.
Wzór „z” można stosować również wtedy, kiedy próba jest mała, ale spełnione są jednocześnie dwa warunki:
- rozkład w populacji jest w przybliżeniu normalny i
- znamy odchylenie standardowe w populacji.

Warunek drugi nie jest oczywiście spełniony zbyt często.

11.4 Linki

Przedziały ufności – wizualizacja 1: https://rpsychologist.com/d3/ci/

Przedziały ufności – wizualizacja 2: https://seeing-theory.brown.edu/frequentist-inference/index.html#section2

Przedziały ufności – wizualizacja 3: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation5_2.html

Przedział ufności dla średniej – wizualizacja 4: https://istats.shinyapps.io/Inference_mean/

11.5 Szablony

Arkusze kalkulacyjne

Przedział ufności dla średniej — arkusz Google

Przedział ufności dla średniej — szablon w Excelu

Kod w R

# Przedział ufności dla średniej
# Dane:
# Wielkość próby:
n <- 24
# Średnia w próbie:
xbar <- 183
# Odchylenie standardowe w populacji lub w próbie:
s <- 5.19
# Poziom ufności:
conf <- 0.95

alpha <- 1 - conf

# z:
ci_z <- xbar + c(-qnorm(1-alpha/2), qnorm(1-alpha/2)) * s/sqrt(n)

# t:
df<- n-1
ci_t <- xbar + c(-qt(1-alpha/2, df), qt(1-alpha/2, df)) * s/sqrt(n)

print(paste(
  list(
    "Przedział ufności - z:",
    ci_z, 
    "Przedział ufności - t:", 
    ci_t)))

## [1] "Przedział ufności - z:"                "c(180.923605699976, 185.076394300024)"
## [3] "Przedział ufności - t:"                "c(180.808455203843, 185.191544796157)"

# Na podstawie danych:
dane <- c(34.1, 35.6, 34.2, 33.9, 25.1)
test_result<-t.test(dane, conf.level = 0.99)
print(test_result$conf.int)

## [1] 23.85964 41.30036
## attr(,"conf.level")
## [1] 0.99

Kod w Pythonie

import math
import scipy.stats as stats

n = 24
xbar = 183
s = 5.19
conf = 0.95
alpha = 1 - conf

ci_z = [xbar + (-stats.norm.ppf(1-alpha/2)) * s/math.sqrt(n), xbar + (stats.norm.ppf(1-alpha/2)) * s/math.sqrt(n)]

df = n-1
ci_t = [xbar + (-stats.t.ppf(1-alpha/2, df)) * s/math.sqrt(n), xbar + (stats.t.ppf(1-alpha/2, df)) * s/math.sqrt(n)]

print("Przedział ufności - z:", ci_z,
"\nPrzedział ufności - t:", ci_t)

## Przedział ufności - z: [180.92360569997632, 185.07639430002368] 
## Przedział ufności - t: [180.80845520384258, 185.19154479615742]

# Wersja 2

print(stats.norm.interval(confidence=conf, loc=xbar, scale=s/math.sqrt(n)), "\n",
stats.t.interval(confidence=conf, df=df, loc=xbar, scale=s/math.sqrt(n)))

## (180.92360569997632, 185.07639430002368) 
##  (180.80845520384258, 185.19154479615742)

# Na podstawie danych:
import numpy as np
from scipy import stats

dane = np.array([34.1, 35.6, 34.2, 33.9, 25.1])
test_result = stats.ttest_1samp(dane, popmean=np.mean(dane))
conf_int = test_result.confidence_interval(0.99)
print(conf_int)

## ConfidenceInterval(low=23.85964498330358, high=41.300355016696415)

11.6 Pytania

Pytanie 11.1 Wypełnij luki:

Im liczebność próby, tym – ceteris paribus – szerszy przedział ufności.
Im poziom ufności, tym – ceteris paribus – szerszy przedział ufności.
Im wartość \(\alpha\), tym – ceteris paribus – szerszy przedział ufności.
Im odchylenie standardowe w próbie, tym – ceteris paribus – szerszy przedział ufności.
Im odchylenie standardowe w populacji, tym – przeciętnie rzecz biorąc, ceteris paribus – szerszy przedział ufności.

11.7 Zadania

Zadanie 11.1 Zbadano ilość kalorii w standardowym śniadaniu podawanym przez stołówkę uniwersytecką. Na podstawie próby losowej 100 śniadań określono, że przeciętna liczba kilokalorii to 321, a odchylenie standardowe wynosi 24 kilokalorie. Jaki jest 90-procentowy przedział ufności dla średniej liczby kilokalorii?

Zadanie 11.2 (Na podstawie Aczel and Sounderpandian 2018) Firma górnicza chce oszacować średnią ilość kruszcu przypadającą na tonę pozyskanej rudy miedzi. Losowo wybrano do pomiaru 50 ton, każda tona stanowi pojedynczą obserwację. Uzyskano średnią 66,75 kg i odchylenie standardowe 15,20 kg. Proszę wyznaczyć przedział ufności dla przeciętnej ilości kruszcu w pozyskanej tonie. Proszę przyjąć poziom ufności 95%, a następnie 90% i 99%.

Zadanie 11.3 (Na podstawie Aczel and Sounderpandian 2018) Producent baterii używanych w małych urządzeniach elektronicznych chce oszacować przeciętny czas działania baterii. Pobrano próbę 12 baterii i uzyskano średnią \(\bar{x}\) = 34,2 h oraz odchylenie standardowe \(s\) = 5,9 h. Proszę wyznaczyć 95-procentowy przedział ufności przeciętnego życia baterii. Jakie założenia należy poczynić?

Zadanie 11.4 Firma HR chce oszacować przeciętne wynagrodzenie osób na stanowiskach menedżerskich w bankowości. Pobrano próbę losową 50 menedżerów i otrzymano \(\bar{x}\) = 22 539 złotych oraz \(s\) = 8 790 złotych. Podaj 90-procentowy przedział ufności dla przeciętnego wynagrodzenia menedżerów w bankowości.

Zadanie 11.5 (Na podstawie Aczel and Sounderpandian 2018) Handlarz dziełami sztuki chciałby oszacować przeciętną wartość dzieł sztuki określonego typu pochodzących z pewnego okresu. W tym celu uzyskał 20-elementową próbę i obliczył średnią (5139 zł) i odchylenie standardowe (640 zł). Jaki jest 95-procentowy przedział ufności dla średniej wartości dzieł sztuki tego typu z badanego okresu? Jakie założenia należy poczynić?

Zadanie 11.6 Wyznacz 99-procentowe przedziały ufności dla średniego czasu przejazdu doktora B rowerem na trasie między uczelnią a domem na podstawie danych (próby losowej). Dane

dla dowolnego przejazdu,
dla przejazdu na uczelnię,
dla powrotów z uczelni.

Literatura

Aczel, A. D., and J. Sounderpandian. 2018. Statystyka w Zarządzaniu. PWN. https://ksiegarnia.pwn.pl/Statystyka-w-zarzadzaniu,731934758,p.html.

W prawdziwym życiu warto skonsultować się ze statystykiem lub ekonometrykiem, gdyż każda technika niewłaściwie zastosowana może zagrażać prawidłowym wynikom przeprowadzanej analizy.↩︎