6 Zufallsvektoren

Zufallsvariablen sind Funktionen aus dem Ergebnisraum in die Menge der reellen Zahlen. Es ist natürlich möglich, nicht nur eine solche Funktion zu betrachten, sondern mehrere gleichzeitig. Man erhält dann mehrere Zufallsvariablen, die jedoch alle vom gleichen zugrundeliegenden Zufallsvorgang abhängen und auf dem gleichen Ergebnisraum $Ω$ basieren. Ordnet man diese Zufallsvariablen in Form eines Vektors an, dann spricht man von einem Zufallsvektor (engl. random vector). Man sagt auch, dass die Zufallsvariablen eine gemeinsame Verteilung (engl. joint distribution) haben. Auch die beiden Begriffe univariat und multivariat werden häufig verwendet, wenn von einer oder mehreren Zufallsvariablen die Rede ist.

Gemeinsame Verteilungen sind erheblich interessanter und vielseitiger als eindimensionale Zufallsvariablen, weil sie auch Zusammenhänge und Abhängigkeiten zwischen den Variablen beschreiben können.

Beispiel: Kleinere und größere Augenzahl

Zwei Würfel werden geworfen. Die Zufallsvariable $X$ sei die kleinere Augenzahl, die Zufallsvariable $Y$ die größere Augenzahl. Die beiden Zufallsvariablen $X$ und $Y$ basieren auf dem gleichen Ergebnisraum. Sie haben eine gemeinsame Verteilung. Das lässt sich etwa so veranschaulichen: $\begin{array}{lclcl} R & X & Ω & Y & R \\ 1 & ⟵ & 11 & ⟶ & 1 \\ 1 & ⟵ & 12 & ⟶ & 2 \\ 1 & ⟵ & 13 & ⟶ & 3 \\ 1 & ⟵ & 14 & ⟶ & 4 \\ 1 & ⟵ & 15 & ⟶ & 5 \\ 1 & ⟵ & 16 & ⟶ & 6 \\ 1 & ⟵ & 21 & ⟶ & 2 \\ 2 & ⟵ & 22 & ⟶ & 2 \\ 2 & ⟵ & 23 & ⟶ & 3 \\ ⋮ & ⋮ & ⋮ \\ 5 & ⟵ & 65 & ⟶ & 6 \\ 6 & ⟵ & 66 & ⟶ & 6 \end{array}$

Beispiel: Aktienportfolio mit zwei Aktien

Wir betrachten die Tagesrenditen von zwei Aktien an einem zukünftigen Tag. Sei $X$ die Tagesrendite der Volkswagenaktie und $Y$ die Tagesrendite von BASF. Dann haben $X$ und $Y$ eine gemeinsame Verteilung. Die gemeinsame Verteilung hat mehr Informationen als die beiden einzelnen Verteilungen für sich genommen. In der gemeinsamen Verteilung stecken auch Informationen über die Art des Zusammenhangs. Das ist z.B. wichtig, wenn man das Risiko seines Portfolios managen will.

Im folgenden gehen wir Schritt für Schritt fast genauso vor wie bei den univariaten Zufallsvariablen in Kapitel 4.

6.1 Verteilungsfunktion

Alle wichtigen Eigenschaften der Verteilung einer univariaten Zufallsvariable werden durch ihre Verteilungsfunktion beschrieben. Wie lässt sich die Idee einer Verteilungsfunktion auf Zufallsvektoren übertragen?

Definition: Gemeinsame Verteilungsfunktion

Sei $Ω$ eine Ergebnismenge, seien $X : Ω ⟶ R$ und $Y : Ω ⟶ R$ zwei Zufallsvariablen. Dann ist $F_{X, Y} (x, y) = P (X \leq x, Y \leq y)$ die gemeinsame Verteilungsfunktion (engl. joint cumulative distribution function) von $X$ und $Y$ .

Wenn aus dem Kontext eindeutig hervorgeht, um welchen Zufallsvektor bzw. um welche Zufallsvariablen es sich handelt, können die Subindizes entfallen. Die gemeinsame Verteilungsfunktion lässt sich leicht auf mehr als zwei Zufallsvariablen verallgemeinern. Da die Notation dann etwas unübersichtlicher wird, beschränken wir uns auf den Fall von zwei Zufallsvariablen. Alle wichtigen Konzepte lassen sich auch gut in diesem Fall verstehen.

Eigenschaften der gemeinsamen Verteilungsfunktion:

$F_{X, Y} (x, y) = P (X \leq x, Y \leq y)$ ist monoton steigend (aber nicht unbedingt streng monoton steigend) in $x$ und $y$ .
Es gilt $lim_{x \to - \infty} F_{X, Y} (x, y) = 0$ und $lim_{y \to - \infty} F_{X, Y} (x, y) = 0$ .
Es gilt $lim_{z \to \infty} F_{X, Y} (z, z) = 1$ .

6.2 Gemeinsam diskrete Zufallsvariablen

Im univariaten Fall haben wir uns auf zwei Klassen von Zufallsvariablen beschränkt, nämlich diskrete und stetige Zufallsvariablen. Das lässt sich leicht auf den mehrdimensionalen Fall verallgemeinern.

Definition: Gemeinsam diskrete Zufallsvariablen

Zwei Zufallsvariablen $X$ und $Y$ heißen gemeinsam diskret (engl. jointly discrete), wenn es endlich viele oder abzählbar unendlich viele Werte $x_{1}, x_{2}, \dots$ und $y_{1}, y_{2}, \dots$ gibt, so dass $\sum_{j} \sum_{k} p_{j k} = 1$ mit $p_{j k} = P (X = x_{j}, Y = y_{k})$ .

Gemeinsam diskrete Zufallsvariablen haben eine gemeinsame Wahrscheinlichkeitsfunktion (engl. joint probability function), nämlich $f_{X, Y} (x, y) = {\begin{cases} p_{j k} & wenn x = x_{j} und y = y_{k} \\ 0 & sonst. \end{cases}$ Wenn die Zahl der unterschiedlichen möglichen Werte, die $X$ und $Y$ annehmen können, nicht allzu groß ist, dann kann man die gemeinsamen Wahrscheinlichkeiten übersichtlich in Form einer Wahrscheinlichkeitstabelle darstellen: $\begin{array}{cccc} X ∖ Y & y_{1} & \dots & y_{K} \\ x_{1} & p_{11} & \dots & p_{1 K} \\ ⋮ & ⋮ & ⋮ \\ x_{J} & p_{J 1} & \dots & p_{J K} \end{array}$

Beispiel: Kleinere und größere Augenzahl

Zwei Würfel werden geworfen. Die gemeinsame Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen $X$ : “kleinere Augenzahl” und $Y$ : “größere Augenzahl” sieht als Wahrscheinlichkeitstabelle so aus: $\begin{array}{ccccccc} X ∖ Y & 1 & 2 & 3 & 4 & 5 & 6 \\ 1 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} \\ 2 & 0 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} \\ 3 & 0 & 0 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} \\ 4 & 0 & 0 & 0 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} \\ 5 & 0 & 0 & 0 & 0 & \frac{1}{36} & \frac{2}{36} \\ 6 & 0 & 0 & 0 & 0 & 0 & \frac{1}{36} \end{array}$ Der Wert der gemeinsamen Verteilungsfunktion an der Stelle $(x, y) = (5.3, 2)$ gibt die Wahrscheinlichkeit an, dass $X \leq 5$ ist und gleichzeitig $Y \leq 2$ . Diese Wahrscheinlichkeit ergibt sich, indem man alle Wahrscheinlichkeiten aus der Tabelle addiert, die in den ersten beiden Spalten ( $Y \leq 2$ ) und in den ersten fünf Zeilen ( $X \leq 5.3$ ) stehen. Man erhält $F_{X, Y} (5.3, 2) = \frac{1}{36} + \frac{2}{36} + \frac{1}{36} = \frac{4}{36} = \frac{1}{9} .$

6.3 Gemeinsam stetige Zufallsvariablen

Definition: Gemeinsam stetige Zufallsvariablen

Die Zufallsvariablen $X$ und $Y$ heißen gemeinsam stetig (engl. jointly continuous), falls es eine Funktion $f_{X, Y}$ gibt mit $F_{X, Y} (x, y) = \int_{- \infty}^{y} \int_{- \infty}^{x} f_{X, Y} (u, v) d u d v .$ Die Funktion $f_{X, Y}$ heißt gemeinsame Dichte oder Dichtefunktion (engl. joint density function) von $X$ und $Y$ .

Wenn die Verteilungsfunktion partiell differenzierbar ist, dann erhält man die Dichte, indem man die Verteilungsfunktion nach beiden Argumenten ableitet, $f_{X, Y} (x, y) = \frac{\partial^{2}}{\partial x \partial y} F_{X, Y} (x, y) .$ Da die Verteilungsfunktion monoton steigend ist, kann die Dichte nie negativ sein (sie kann jedoch in einigen Bereichen 0 sein). Für $x, y \in R$ gilt also $f_{X, Y} (x, y) \geq 0.$ Das gesamte Volumen unter der Dichte beträgt 1, $\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x d y = 1.$ Die gemeinsame Dichte zweier Zufallsvariablen kann man sich als Gebirge mit einem Volumen von 1 vorstellen. Die Bereiche $(x, y)$ , in denen das Gebirge hoch ist, kommen mit einer höheren Wahrscheinlichkeit vor, als die Bereiche, in denen es niedrig ist.

Die verschiedenen Arten der grafischen Darstellung werden nun für eine konkrete gemeinsame Dichte vorgestellt. Die Dichte der beiden Zufallsvariablen $X$ und $Y$ sei für $x, y \in R$ $f (x, y) = \frac{2 e^{- x - y}}{(1 + e^{- x} + e^{- y})^{3}} .$

In der folgenden 3D-Abbildung, die Sie mit der Maus bewegen können (allerdings leider nicht auf einem Tablet), erkennt man, dass die Dichte um den Punkt $(0, 0)$ herum besonders hoch ist. Die gemeinsame Realisation von $X$ und $Y$ wird also mit hoher Wahrscheinlichkeit irgendwo in der Nähe des Nullpunkts liegen. Außerdem ist eine leichte Asymmetrie zu erkennen. Es ist sehr unwahrscheinlich, dass sowohl $X$ als auch in $Y$ beide größer als 3 sind. Hingegen kann es (wenn auch mit eher kleiner Wahrscheinlichkeit) passieren, dass beide Zufallsvariable kleiner als $- 3$ sind.

R-Code zeigen

library(rgl)
x <- seq(-4, 4, length=101)
y <- seq(-4, 4, length=101)
f <- matrix(0, length(x), length(y))

for(i in 1:length(x)){
    for(j in 1:length(y)){
        f[i,j] <- (2*exp(-x[i])*exp(-y[j]))/
                  (1+exp(-x[i])+exp(-y[j]))^3
    }
}

persp3d(x, y, f, col="light green",
        xlab="x", ylab="y", zlab="f(x,y)")
rglwidget()

R-Code zeigen

close3d()

Weitere Möglichkeiten, ein Dichtegebirge grafisch darzustellen, sind Contour-Plots und Image-Plots. In einem Contour-Plot sieht man die Höhenlinien der Dichtefunktion wie auf einer normalen Landkarte. In einem Image-Plot werden die Höhen durch Farben repräsentiert.

Der Contour-Plot für die obige Dichte sieht so aus:

R-Code zeigen

# Die Vektoren x und y und die Matrix f wurden weiter oben berechnet.

contour(x, y, f,
        xlab="x", ylab="y")

Ein Vorteil des Contour-Plots besteht darin, dass man leicht erkennen kann, wo die Dichte hoch ist. Ein farbiger Image-Plot der gleichen Dichte zeigt folgendes Bild:

R-Code zeigen

# Die Vektoren x und y und die Matrix f wurden weiter oben berechnet.

filled.contour(x, y, f,
               xlab="x", ylab="y")

Wenn man sich für die Wahrscheinlichkeit interessiert, dass die Zufallsvariable in einem bestimmten Bereich landet, muss man das Volumen der Dichte über diesem Bereich berechnen. Für einen rechteckigen Bereich $[a_{1}, b_{1}] \times [a_{2}, b_{2}]$ berechnet man das Doppel-Integral $P (a_{1} < X \leq b_{1}, a_{2} < Y \leq b_{2}) = \int_{a_{2}}^{b_{2}} \int_{a_{1}}^{b_{1}} f (x, y) d x d y .$ Lässt man das Rechteck unendlich groß werden, ergibt sich das Gesamtvolumen 1. Die Herleitung des Doppelintegrals ist in vielen Fällen umständlich, in manchen Fällen sogar in geschlossener Form unmöglich. Numerische Verfahren erlauben jedoch eine approximative Berechnung der Wahrscheinlichkeit. In dem folgenden Beispiel ist die Dichte des Zufallsvektors von einer Form, die eine geschlossene Herleitung des Doppelintegrals erlaubt.

Beispiel: Gemeinsame Dichte

Der gemeinsam stetig verteilte Zufallsvektor $(X, Y)$ hat die gemeinsame Dichtefunktion $f (x, y) = {\begin{cases} x + y^{2} & wenn 0 \leq x \leq 1.11963 und 0 \leq y \leq 1 \\ 0 & sonst. \end{cases}$ Die obere Intervallgrenze ( $1.11963$ ) für $x$ ist gerundet, streng genommen lautet die Obergrenze $(\sqrt{19} - 1) / 3)$ . Dieser Wert stellt sicher, dass das gesamte Volumen unter der Dichte 1 ergibt.

Wie groß ist die Wahrscheinlichkeit, dass $X$ in dem Intervall $[0.5, 0.75]$ und gleichzeitig $Y$ in dem Intervall $[0.2, 0.5]$ liegt? Diese Wahrscheinlichkeit ergibt sich als das Doppelintegral $P (0.5 < X \leq 0.75, 0.2 < Y \leq 0.5) = \int_{0.2}^{0.5} \int_{0.5}^{0.75} (x + y^{2}) d x d y .$ Zuerst bestimmen wir das innere Integral. Es ist $\int_{0.5}^{0.75} (x + y^{2}) d x = {\frac{1}{2} x^{2} + x y^{2} |}_{0.5}^{0.75} = 0.25 y^{2} + 0.15625 .$ Dieser Ausdruck wird nun in das äußere Integral eingesetzt. Man erhält $\int_{0.2}^{0.5} (0.25 y^{2} + 0.15625) d y = {\frac{1}{12} y^{3} + 0.15625 y |}_{0.2}^{0.5} = 0.056625 .$ Die Wahrscheinlichkeit, das die Realisation des Zufallsvektors in dem Rechteck $[0.5, 0.75] \times [0.2, 0.5]$ liegt, beträgt also 5.7 Prozent.

6.4 Randverteilungen

Alle Informationen über die gemeinsame Verteilung eines Zufallsvektors $(X, Y)$ sind in der gemeinsamen Dichte oder der gemeinsamen Verteilungsfunktion enthalten. In manchen Situationen interessiert man sich jedoch gar nicht für die gemeinsame Verteilung, sondern nur für die Verteilung einer der beiden Variablen.

Definition: Randverteilung

Als Randverteilung (engl. marginal distribution) bezeichnet man die Verteilung einer Zufallsvariablen eines Zufallsvektors, wenn die restlichen Zufallsvariablen des Zufallsvektors ignoriert werden.

Die Randverteilungen lassen sich besonders einfach aus der gemeinsamen Verteilungsfunktion $F_{X, Y} (x, y)$ ableiten. Es gilt nämlich

$\begin{aligned} F_{X} (x) & = F_{X, Y} (x, \infty) = lim_{y \to \infty} F_{X, Y} (x, y) \\ F_{Y} (y) & = F_{X, Y} (\infty, y) = lim_{x \to \infty} F_{X, Y} (x, y), \end{aligned}$

wobei $F_{X}$ und $F_{Y}$ die Randverteilungsfunktionen von $X$ und $Y$ sind. Man erhält also die Randverteilungsfunktionen, indem man die jeweils andere Variable gegen unendlich gehen lässt.

Wenn $X$ und $Y$ gemeinsam diskret verteilt sind, ergeben sich die Randwahrscheinlichkeitsfunktionen aus der gemeinsamen Wahrscheinlichkeitsfunktion,

$\begin{aligned} p_{j \cdot} & = P (X = x_{j}) = \sum_{k} p_{j k} \\ p_{\cdot k} & = P (Y = y_{k}) = \sum_{j} p_{j k} . \end{aligned}$

Beispiel: Kleinere und größere Augenzahl

Zwei Würfel werden geworfen. Die gemeinsame Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen $X$ : “kleinere Augenzahl” und $Y$ : “größere Augenzahl” sieht als Wahrscheinlichkeitstabelle so aus: $\begin{array}{ccccccc} X ∖ Y & 1 & 2 & 3 & 4 & 5 & 6 \\ 1 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} \\ 2 & 0 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} \\ 3 & 0 & 0 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} \\ 4 & 0 & 0 & 0 & \frac{1}{36} & \frac{2}{36} & \frac{2}{36} \\ 5 & 0 & 0 & 0 & 0 & \frac{1}{36} & \frac{2}{36} \\ 6 & 0 & 0 & 0 & 0 & 0 & \frac{1}{36} \end{array}$ Die Zeilensummen ergeben die Randverteilung von $X$ , die Spaltensummen die Randverteilung von $Y$ . Die Wahrscheinlichkeiten sind: $\begin{array}{lcc} k & P (X = k) & P (Y = k) \\ 1 & 11 / 36 & 1 / 36 \\ 2 & 9 / 36 & 3 / 36 \\ 3 & 7 / 36 & 5 / 36 \\ 4 & 5 / 36 & 7 / 36 \\ 5 & 3 / 36 & 9 / 36 \\ 6 & 1 / 36 & 11 / 36 \end{array}$

Wenn $X$ und $Y$ gemeinsam stetig verteilt sind, erhält man die Randdichten aus der gemeinsamen Dichte wie folgt.

$\begin{aligned} f_{X} (x) & = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y \\ f_{Y} (y) & = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x . \end{aligned}$

Man sagt auch, dass man $y$ “herausintegriert”, um die Randdichte von $X$ zu erhalten, und umgekehrt.

Beispiel: Randdichte

Der gemeinsam stetig verteilte Zufallsvektor $(X, Y)$ hat die gemeinsame Dichtefunktion $f_{X, Y} (x, y) = {\begin{cases} x + y^{2} & wenn 0 \leq x \leq 1.11963 und 0 \leq y \leq 1 \\ 0 & sonst. \end{cases}$ Wie sehen die beiden Randdichten aus? Die Randdichte von $X$ erhält man, indem man $y$ “herausintegriert”. Wenn $x$ nicht in dem Interval $[0, 1.11963]$ liegt, ist die Randdichte offensichtlich 0. Wir betrachten darum nur den Fall, dass $x$ in dem Intervall liegt. Dann gilt

$\begin{aligned} f_{X} (x) & = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y \\ = \int_{0}^{1} (x + y^{2}) d y \\ = x y + {\frac{1}{3} y^{3} |}_{0}^{1} \\ = x + \frac{1}{3} . \end{aligned}$

Nun bestimmen wir die Randdichte von $Y$ , indem wir über $x$ integrieren.

$\begin{aligned} f_{Y} (y) & = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x \\ = \int_{0}^{1.11963} (x + y^{2}) d x \\ = 1.11963 \cdot y^{2} + {\frac{1}{2} x^{2} |}_{0}^{1.11963} \\ = 1.11963 \cdot y^{2} + 0.62679 \end{aligned}$

für $y \in [0, 1]$ . Für $y \notin [0, 1]$ ist die Dichte $f_{Y} (y) = 0$ .

6.5 Unabhängigkeit

Definition: Unabhängigkeit

Zwei Zufallsvariablen $X$ und $Y$ heißen stochastisch unabhängig oder unabhängig (engl. independent), wenn für alle $x, y \in R$ gilt $F_{X, Y} (x, y) = F_{X} (x) \cdot F_{Y} (y) .$

Wenn die Zufallsvariablen nicht unabhängig sind, nennt man sie abhängig. Sowohl bei abhängigen als auch bei unabhängigen Zufallsvariablen gilt, dass die Randverteilungen aus der gemeinsamen Verteilung hergeleitet werden können. Im Gegensatz dazu ist die Herleitung der gemeinsamen Verteilung aus den Randverteilungen nur möglich, wenn die Zufallsvariablen unabhängig sind.

Wenn $X$ und $Y$ gemeinsam diskret verteilt sind, dann gilt bei Unabhängigkeit für alle $j$ und $k$ $p_{j k} = p_{j \cdot} \cdot p_{\cdot k} .$

Beispiel: Unabhängigkeit diskreter Zufallsvariablen

Zwei Würfel werden geworfen. Die gemeinsame Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen $X$ : “kleinere Augenzahl” und $Y$ : “größere Augenzahl”. Sind $X$ und $Y$ unabhängig? Um diese Frage zu beantworten, betrachten wir die gemeinsame Wahrscheinlichkeit $P (X = 6, Y = 1)$ . Sie ist offensichtlich 0, denn die kleinere Augenzahl $X$ kann niemals größer sein als die größere Augenzahl $Y$ . Wir wissen aber bereits, dass $P (X = 6) > 0$ und $P (Y = 1) > 0$ sind. Damit ist die Bedingung für Unabhängigkeit verletzt und $X$ und $Y$ sind abhängig voneinander.

Wenn $X$ und $Y$ gemeinsam stetig verteilt sind, ergibt sich bei Unabhängigkeit die gemeinsame Dichte als Produkt der beiden Randdichten, $f_{X, Y} (x, y) = f_{X} (x) \cdot f_{Y} (y) .$

Beispiel: Unabhängigkeit stetiger Zufallsvariablen

Der gemeinsam stetig verteilte Zufallsvektor $(X, Y)$ hat die gemeinsame Dichtefunktion $f_{X, Y} (x, y) = {\begin{cases} x + y^{2} & wenn 0 \leq x \leq 1.11963 und 0 \leq y \leq 1 \\ 0 & sonst. \end{cases}$ Sind $X$ und $Y$ unabhängig? Die beiden Randdichten wurden bereits weiter oben ermittelt. Wir werten sie an den beiden willkürlich ausgewählten Stellen $x = 2 / 3$ und $y = 0.2$ aus.

$\begin{aligned} f_{X} (2 / 3) & = x + \frac{1}{3} = 1 \\ f_{Y} (0.2) & = 1.11963 \cdot {0.2}^{2} + 0.62679 = 0.67158 . \end{aligned}$

Das Produkt ist also $0.67158$ . Setzt man $x = 2 / 3$ und $y = 0.2$ in die gemeinsame Dichte ein, erhält man $f (2 / 3, 0.2) = 2 / 3 + {0.2}^{2} = 0.70667 .$ Die beiden Werte sind nicht gleich. Die Zufallsvariablen $X$ und $Y$ sind also nicht unabhängig.

6.6 Bedingte Verteilungen

Wir betrachten wieder eine gemeinsame Verteilung von zwei Zufallsvariablen $X$ und $Y$ . Während man sich bei den Randverteilungen fragt, wie eine Zufallsvariable verteilt ist, wenn man die andere ignoriert, stellt man sich bei bedingten Verteilungen die Frage, wie eine Zufallsvariable verteilt ist, wenn man den Wert der anderen Zufallsvariable kennt (oder annimmt).

Definition: Bedingte Verteilung

Als bedingte Verteilung (engl. conditional distribution) bezeichnet man die Verteilung einer Zufallsvariable einer gemeinsamen Verteilung, wenn die andere Zufallsvariable auf einen bestimmten Wert fixiert wird.

Wie ist $X$ (die bedingte Variable) verteilt, wenn man weiß (oder annimmt), dass $Y$ (die bedingende Variable) den Wert $y$ hat? Oder umgekehrt: Wie ist $Y$ (bedingte Variable) verteilt, wenn man $X$ kennt (bedingende Variable)? Bedingte Verteilungen sind deswegen in der Ökonomik wichtig, weil sie Informationsstände abbilden können. Die Bedingung gibt an, welche Information ein Agent hat.

Für gemeinsam diskrete Verteilungen mit $p_{j k} = P (X = x_{j}, Y = y_{k})$ für $j = 1, \dots, J$ und $k = 1, \dots, K$ gilt: Die bedingte Verteilung von $X$ gegeben $Y = y_{k}$ ist für $j = 1, \dots, J$ $P (X = x_{j} | Y = y_{k}) = \frac{P (X = x_{j}, Y = y_{k})}{P (Y = y_{k})} .$ Es gibt also nicht nur eine bedingte Verteilung von $X$ , sondern $k$ (nämlich für jeden möglichen Wert von $Y$ eine).

Vertauscht man die beiden Variablen, so ergeben sich die bedingten Verteilungen von $Y$ gegeben $X = x_{j}$ . Sie sind für festes $j$ und $k = 1, \dots, K$ $P (Y = y_{k} | X = x_{j}) = \frac{P (X = x_{j}, Y = y_{k})}{P (X = x_{j})} .$

Ein Blick auf die Wahrscheinlichkeitstabelle zeigt, dass die bedingte Verteilung sich aus einer Zeile oder Spalte der Tabelle ergibt, indem man diese Zeile oder Spalte durch den zugehörigen Wert der Randverteilung dividiert. Aus der fett markierten ersten Spalte erhält man beispielsweise die bedingte Verteilung von $X$ gegeben $Y = y_{1}$ , indem man die Spalteneinträge durch $p_{\cdot 1}$ teilt. $\begin{array}{ccccc} X ∖ Y & y_{1} & \dots & y_{K} \\ x_{1} & p_{11} & \dots & p_{1 K} & p_{1 \cdot} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ x_{J} & p_{J 1} & \dots & p_{J K} & p_{J \cdot} \\ p_{\cdot 1} & \dots & p_{\cdot K} \end{array}$

Für gemeinsam stetige Verteilungen mit der gemeinsamen Dichte $f_{X, Y} (x, y)$ gilt: Die bedingte Dichte von $X$ gegeben $Y = y$ ist $f_{X | Y = y} (x) = \frac{f_{X, Y} (x, y)}{f_{Y} (y)} .$ Es gibt also wiederum nicht nur eine bedingte Verteilung von $X$ , sondern nun sogar unendlich viele (nämlich für jeden Wert $y$ aus dem Träger von $Y$ eine).

Durch Vertauschen von $X$ und $Y$ erhält man die bedingte Verteilung von $Y$ gegeben $X = x$ . Die bedingte Dichte lautet $f_{Y | X = x} (y) = \frac{f_{X, Y} (x, y)}{f_{X} (x)} .$

Wenn $X$ und $Y$ unabhängig sind, dann sind alle bedingten Verteilungen gleich der Randverteilung. Das gilt sowohl für gemeinsam stetige als auch für gemeinsam diskrete Verteilungen. Die Herleitung ist einfach, wenn man die Definition der Unabhängigkeit berücksichtigt. Als Beispiel sehen wir uns den stetigen Fall an. Die bedingte Dichte von $X$ gegeben $Y = y$ ist $f_{X | Y = y} (x) = \frac{f_{X, Y} (x, y)}{f_{Y} (y)} .$ Bei Unabhängigkeit gilt $f_{X, Y} (x, y) = f_{X} (x) f_{Y} (y)$ , so dass $f_{X | Y = y} (x) = \frac{f_{X} (x) f_{Y} (y)}{f_{Y} (y)} = f_{X} (x) .$ Unabhängigkeit bedeutet also mit anderen Worten, dass die Information $Y = y$ keinen Einfluss auf die Form der Verteilung von $X$ hat. Die Verteilung von $X$ hängt bei Unabhängigkeit nicht davon ab, welchen Wert $Y$ annimmt (und umgekehrt).

Beispiel: Bedingte Dichte

Der gemeinsam stetig verteilte Zufallsvektor $(X, Y)$ hat die gemeinsame Dichtefunktion $f_{X, Y} (x, y) = {\begin{cases} x + y^{2} & wenn 0 \leq x \leq 1.11963 und 0 \leq y \leq 1 \\ 0 & sonst. \end{cases}$ Wie sieht die bedingte Dichte von $Y$ gegeben $X = 0.8$ aus? Für die Herleitung braucht man die Randdichte von $X$ . Sie wurde bereits hergeleitet, $f_{X} (x) = x + \frac{1}{3} .$ Man erhält als bedingte Dichte von $Y$ gegeben $X = 0.8$

$\begin{aligned} f_{Y | X = 0.8} (y) & = \frac{f_{X, Y} (0.8, y)}{f_{X} (0.8)} \\ = \frac{0.8 + y^{2}}{0.8 + 1 / 3} \\ = \frac{0.8 + y^{2}}{1.13333} \end{aligned}$

für $0 \leq y \leq 1$ .

Bedingte Verteilungen sind univariate Verteilungen. Für jeden Wert der bedingenden Zufallsvariable ergibt sich eine univariate Verteilung. Im Allgemeinen sind sie alle unterschiedlich, aber das muss nicht unbedingt so sein. Wenn $X$ und $Y$ unabhängig sind, dann sind die univariaten bedingten Verteilungen alle gleich.

Für univariate Verteilungen kann man all die Parameter berechnen, die in Kapitel 4 eingeführt wurden, z.B. den Erwartungswert oder die Varianz. Man spricht dann von bedingten Erwartungswerten und bedingten Varianzen. Die gängige Notation ist $E (X | Y = y)$ und $V a r (X | Y = y)$ . Für jeden Wert der bedingenden Zufallsvariable $(Y = y)$ erhält man einen bedingten Erwartungswert und eine bedingte Varianz. Es handelt sich quasi um Funktionen von $y$ . Für gemeinsam stetige Zufallsvariablen berechnet man den bedingten Erwartungswert als $E (X | Y = y) = \int_{- \infty}^{\infty} x f_{X | Y = y} (x) d x$ und die bedingte Varianz als $V a r (X | Y = y) = \int_{- \infty}^{\infty} (x - E (X | Y = y))^{2} f_{X | Y = y} (x) d x .$ Die Formeln sind vollständig analog zu den Formeln in Abschnitt 4.6 und Abschnitt 4.7. Nur wird die Dichte durch die auf $Y = y$ bedingte Dichte ersetzt (und im Fall der Varianz der Erwartungswert durch den bedingten Erwartungswert). Für gemeinsam diskret verteilte Zufallsvariablen geht man analog vor.

Beispiel: Bedingte Erwartungswerte

Der gemeinsam stetig verteilte Zufallsvektor $(X, Y)$ hat die gemeinsame Dichtefunktion $f_{X, Y} (x, y) = {\begin{cases} x + y^{2} & wenn 0 \leq x \leq 1.11963 und 0 \leq y \leq 1 \\ 0 & sonst. \end{cases}$ Zur Berechnung des bedingten Erwartungswerts von $Y$ gegeben $X = x$ benötigt man die bedingte Dichte. Wir haben sie im letzten Beispiel hergeleitet. Sie ist für gegebenes $x$

$\begin{aligned} f_{Y | X = x} (y) & = \frac{f_{X, Y} (x, y)}{f_{X} (x)} \\ = \frac{x + y^{2}}{x + 1 / 3} \end{aligned}$

für $0 \leq y \leq 1$ . Damit ergibt sich der bedingte Erwartungswert

$\begin{aligned} E (Y | X = x) & = \int_{- \infty}^{\infty} y f_{Y | X = x} (y) d y \\ = \int_{0}^{1} y \frac{x + y^{2}}{x + 1 / 3} d y \\ = \frac{x}{x + 1 / 3} \int_{0}^{1} y d y + \frac{1}{x + 1 / 3} \int_{0}^{1} y^{3} d y \\ = \frac{x}{x + 1 / 3} \cdot \frac{1}{2} + \frac{1}{x + 1 / 3} \cdot \frac{1}{4} \\ = \frac{2 x}{4 x + 4 / 3} + \frac{1}{4 x + 4 / 3} \\ = \frac{2 x + 1}{4 x + 4 / 3} \\ = \frac{6 x + 3}{12 x + 4} . \end{aligned}$

Für jeden Wert von $x$ in dem Intervall $[0, 1.11963]$ erhält man einen anderen bedingten Erwartungswert für $Y$ . Grafisch lässt sich das so darstellen:

x <- seq(from=0, to=1.11963, length=200)
plot(x, (6*x+3)/(12*x+4), 
     type="l",
     xlab="x", 
     ylab="E(Y|X=x)",
     main="Bedingte Erwartungswerte von Y")

Der Erwartungswert von $Y$ ist also bei kleinen Werten von $x$ größer als bei großen Werten. Wenn bekannt ist, dass $X$ den Wert 1 annimmt, dann erwartet man für $Y$ im Mittel ungefähr den Wert 0.55. Ist $X$ dagegen nur knapp über 0, dann erwartet man im Mittel für $Y$ fast 0.75.