5  Zufallsvektoren

Zufallsvariablen sind Funktionen aus dem Ergebnisraum in die Menge der reellen Zahlen. Es ist natürlich möglich, nicht nur eine solche Funktion zu betrachten, sondern mehrere gleichzeitig. Man erhält dann mehrere Zufallsvariablen, die jedoch alle vom gleichen zugrundeliegenden Zufallsvorgang abhängen und auf dem gleichen Ergebnisraum Ω basieren. Ordnet man diese Zufallsvariablen in Form eines Vektors an, dann spricht man von einem Zufallsvektor (engl. random vector). Man sagt auch, dass die Zufallsvariablen eine gemeinsame Verteilung (engl. joint distribution) haben. Auch die beiden Begriffe univariat und multivariat werden häufig verwendet, wenn von einer oder mehreren Zufallsvariablen die Rede ist.

Gemeinsame Verteilungen sind erheblich interessanter und vielseitiger als eindimensionale Zufallsvariablen, weil sie auch Zusammenhänge und Abhängigkeiten zwischen den Variablen beschreiben können.

Zwei Würfel werden geworfen. Die Zufallsvariable X sei die kleinere Augenzahl, die Zufallsvariable Y die größere Augenzahl. Die beiden Zufallsvariablen X und Y basieren auf dem gleichen Ergebnisraum. Sie haben eine gemeinsame Verteilung. Das lässt sich etwa so veranschaulichen: RXΩYR11111122113311441155116612122222223356566666

Wir betrachten die Tagesrenditen von zwei Aktien an einem zukünftigen Tag. Sei X die Tagesrendite der Volkswagenaktie und Y die Tagesrendite von BASF. Dann haben X und Y eine gemeinsame Verteilung. Die gemeinsame Verteilung hat mehr Informationen als die beiden einzelnen Verteilungen für sich genommen. In der gemeinsamen Verteilung stecken auch Informationen über die Art des Zusammenhangs. Das ist z.B. wichtig, wenn man das Risiko seines Portfolios managen will.

Im folgenden gehen wir Schritt für Schritt fast genauso vor wie bei den univariaten Zufallsvariablen in .

5.1 Verteilungsfunktion

Alle wichtigen Eigenschaften der Verteilung einer univariaten Zufallsvariable werden durch ihre Verteilungsfunktion beschrieben. Wie lässt sich die Idee einer Verteilungsfunktion auf Zufallsvektoren übertragen?

Definition: Gemeinsame Verteilungsfunktion

Sei Ω eine Ergebnismenge, seien X:ΩR und Y:ΩR zwei Zufallsvariablen. Dann ist FX,Y(x,y)=P(Xx,Yy) die gemeinsame Verteilungsfunktion (engl. joint cumulative distribution function) von X und Y.

Wenn aus dem Kontext eindeutig hervorgeht, um welchen Zufallsvektor bzw. um welche Zufallsvariablen es sich handelt, können die Subindizes entfallen. Die gemeinsame Verteilungsfunktion lässt sich leicht auf mehr als zwei Zufallsvariablen verallgemeinern. Da die Notation dann etwas unübersichtlicher wird, beschränken wir uns auf den Fall von zwei Zufallsvariablen. Alle wichtigen Konzepte lassen sich auch gut in diesem Fall verstehen.

Eigenschaften der gemeinsamen Verteilungsfunktion:

  • FX,Y(x,y)=P(Xx,Yy) ist monoton steigend (aber nicht unbedingt streng monoton steigend) in x und y.

  • Es gilt limxFX,Y(x,y)=0 und limyFX,Y(x,y)=0.

  • Es gilt limzFX,Y(z,z)=1.

5.2 Gemeinsam diskrete Zufallsvariablen

Im univariaten Fall haben wir uns auf zwei Klassen von Zufallsvariablen beschränkt, nämlich diskrete und stetige Zufallsvariablen. Das lässt sich leicht auf den mehrdimensionalen Fall verallgemeinern.

Definition: Gemeinsam diskrete Zufallsvariablen

Zwei Zufallsvariablen X und Y heißen gemeinsam diskret (engl. jointly discrete), wenn es endlich viele oder abzählbar unendlich viele Werte x1,x2, und y1,y2, gibt, so dass jkpjk=1 mit pjk=P(X=xj,Y=yk).

Gemeinsam diskrete Zufallsvariablen haben eine gemeinsame Wahrscheinlichkeitsfunktion (engl. joint probability function), nämlich fX,Y(x,y)={pjkwenn x=xj und y=yk0sonst. Wenn die Zahl der unterschiedlichen möglichen Werte, die X und Y annehmen können, nicht allzu groß ist, dann kann man die gemeinsamen Wahrscheinlichkeiten übersichtlich in Form einer Wahrscheinlichkeitstabelle darstellen: XYy1yKx1p11p1KxJpJ1pJK

Zwei Würfel werden geworfen. Die gemeinsame Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen X: “kleinere Augenzahl” und Y: “größere Augenzahl” sieht als Wahrscheinlichkeitstabelle so aus: XY123456113623623623623623620136236236236236300136236236236400013623623650000136236600000136 Der Wert der gemeinsamen Verteilungsfunktion an der Stelle (x,y)=(5.3,2) gibt die Wahrscheinlichkeit an, dass X5 ist und gleichzeitig Y2. Diese Wahrscheinlichkeit ergibt sich, indem man alle Wahrscheinlichkeiten aus der Tabelle addiert, die in den ersten beiden Spalten (Y2) und in den ersten fünf Zeilen (X5.3) stehen. Man erhält FX,Y(5.3,2)=136+236+136=436=19.

5.3 Gemeinsam stetige Zufallsvariablen

Definition: Gemeinsam stetige Zufallsvariablen

Die Zufallsvariablen X und Y heißen gemeinsam stetig (engl. jointly continuous), falls es eine Funktion fX,Y gibt mit FX,Y(x,y)=yxfX,Y(u,v)dudv. Die Funktion fX,Y heißt gemeinsame Dichte oder Dichtefunktion (engl. joint density function) von X und Y.

Wenn die Verteilungsfunktion partiell differenzierbar ist, dann erhält man die Dichte, indem man die Verteilungsfunktion nach beiden Argumenten ableitet, fX,Y(x,y)=2xyFX,Y(x,y). Da die Verteilungsfunktion monoton steigend ist, kann die Dichte nie negativ sein (sie kann jedoch in einigen Bereichen 0 sein). Für x,yR gilt also fX,Y(x,y)0. Das gesamte Volumen unter der Dichte beträgt 1, fX,Y(x,y)dxdy=1. Die gemeinsame Dichte zweier Zufallsvariablen kann man sich als Gebirge mit einem Volumen von 1 vorstellen. Die Bereiche (x,y), in denen das Gebirge hoch ist, kommen mit einer höheren Wahrscheinlichkeit vor, als die Bereiche, in denen es niedrig ist.

Die verschiedenen Arten der grafischen Darstellung werden nun für eine konkrete gemeinsame Dichte vorgestellt. Die Dichte der beiden Zufallsvariablen X und Y sei für x,yR f(x,y)=2exy(1+ex+ey)3.

In der folgenden 3D-Abbildung, die Sie mit der Maus bewegen können (allerdings leider nicht auf einem Tablet), erkennt man, dass die Dichte um den Punkt (0,0) herum besonders hoch ist. Die gemeinsame Realisation von X und Y wird also mit hoher Wahrscheinlichkeit irgendwo in der Nähe des Nullpunkts liegen. Außerdem ist eine leichte Asymmetrie zu erkennen. Es ist sehr unwahrscheinlich, dass sowohl X als auch in Y beide größer als 3 sind. Hingegen kann es (wenn auch mit eher kleiner Wahrscheinlichkeit) passieren, dass beide Zufallsvariable kleiner als 3 sind.

R-Code zeigen
library(rgl)
x <- seq(-4, 4, length=101)
y <- seq(-4, 4, length=101)
f <- matrix(0, length(x), length(y))

for(i in 1:length(x)){
    for(j in 1:length(y)){
        f[i,j] <- (2*exp(-x[i])*exp(-y[j]))/
                  (1+exp(-x[i])+exp(-y[j]))^3
    }
}

persp3d(x, y, f, col="light green",
        xlab="x", ylab="y", zlab="f(x,y)")
rglwidget()
R-Code zeigen
close3d()

Weitere Möglichkeiten, ein Dichtegebirge grafisch darzustellen, sind Contour-Plots und Image-Plots. In einem Contour-Plot sieht man die Höhenlinien der Dichtefunktion wie auf einer normalen Landkarte. In einem Image-Plot werden die Höhen durch Farben repräsentiert.

Der Contour-Plot für die obige Dichte sieht so aus:

R-Code zeigen
# Die Vektoren x und y und die Matrix f wurden weiter oben berechnet.

contour(x, y, f,
        xlab="x", ylab="y")

Ein Vorteil des Contour-Plots besteht darin, dass man leicht erkennen kann, wo die Dichte hoch ist. Ein farbiger Image-Plot der gleichen Dichte zeigt folgendes Bild:

R-Code zeigen
# Die Vektoren x und y und die Matrix f wurden weiter oben berechnet.

filled.contour(x, y, f,
               xlab="x", ylab="y")

Wenn man sich für die Wahrscheinlichkeit interessiert, dass die Zufallsvariable in einem bestimmten Bereich landet, muss man das Volumen der Dichte über diesem Bereich berechnen. Für einen rechteckigen Bereich [a1,b1]×[a2,b2] berechnet man das Doppel-Integral P(a1<Xb1,a2<Yb2)=a2b2a1b1f(x,y)dxdy. Lässt man das Rechteck unendlich groß werden, ergibt sich das Gesamtvolumen 1. Die Herleitung des Doppelintegrals ist in vielen Fällen umständlich, in manchen Fällen sogar in geschlossener Form unmöglich. Numerische Verfahren erlauben jedoch eine approximative Berechnung der Wahrscheinlichkeit. In dem folgenden Beispiel ist die Dichte des Zufallsvektors von einer Form, die eine geschlossene Herleitung des Doppelintegrals erlaubt.

Der gemeinsam stetig verteilte Zufallsvektor (X,Y) hat die gemeinsame Dichtefunktion f(x,y)={x+y2 wenn 0x1.11963 und 0y10 sonst. Die obere Intervallgrenze (1.11963) für x ist gerundet, streng genommen lautet die Obergrenze (191)/3). Dieser Wert stellt sicher, dass das gesamte Volumen unter der Dichte 1 ergibt.

Wie groß ist die Wahrscheinlichkeit, dass X in dem Intervall [0.5,0.75] und gleichzeitig Y in dem Intervall [0.2,0.5] liegt? Diese Wahrscheinlichkeit ergibt sich als das Doppelintegral P(0.5<X0.75,0.2<Y0.5)=0.20.50.50.75(x+y2)dxdy. Zuerst bestimmen wir das innere Integral. Es ist 0.50.75(x+y2)dx=12x2+xy2|0.50.75=0.25y2+0.15625. Dieser Ausdruck wird nun in das äußere Integral eingesetzt. Man erhält 0.20.5(0.25y2+0.15625)dy=112y3+0.15625y|0.20.5=0.056625. Die Wahrscheinlichkeit, das die Realisation des Zufallsvektors in dem Rechteck [0.5,0.75]×[0.2,0.5] liegt, beträgt also 5.7 Prozent.

5.4 Randverteilungen

Alle Informationen über die gemeinsame Verteilung eines Zufallsvektors (X,Y) sind in der gemeinsamen Dichte oder der gemeinsamen Verteilungsfunktion enthalten. In manchen Situationen interessiert man sich jedoch gar nicht für die gemeinsame Verteilung, sondern nur für die Verteilung einer der beiden Variablen.

Definition: Randverteilung

Als Randverteilung (engl. marginal distribution) bezeichnet man die Verteilung einer Zufallsvariablen eines Zufallsvektors, wenn die restlichen Zufallsvariablen des Zufallsvektors ignoriert werden.

Die Randverteilungen lassen sich besonders einfach aus der gemeinsamen Verteilungsfunktion FX,Y(x,y) ableiten. Es gilt nämlich

FX(x)=FX,Y(x,)=limyFX,Y(x,y)FY(y)=FX,Y(,y)=limxFX,Y(x,y),

wobei FX und FY die Randverteilungsfunktionen von X und Y sind. Man erhält also die Randverteilungsfunktionen, indem man die jeweils andere Variable gegen unendlich gehen lässt.

Wenn X und Y gemeinsam diskret verteilt sind, ergeben sich die Randwahrscheinlichkeitsfunktionen aus der gemeinsamen Wahrscheinlichkeitsfunktion,

pj=P(X=xj)=kpjkpk=P(Y=yk)=jpjk.

Zwei Würfel werden geworfen. Die gemeinsame Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen X: “kleinere Augenzahl” und Y: “größere Augenzahl” sieht als Wahrscheinlichkeitstabelle so aus: XY123456113623623623623623620136236236236236300136236236236400013623623650000136236600000136 Die Zeilensummen ergeben die Randverteilung von X, die Spaltensummen die Randverteilung von Y. Die Wahrscheinlichkeiten sind: kP(X=k)P(Y=k)111/361/3629/363/3637/365/3645/367/3653/369/3661/3611/36

Wenn X und Y gemeinsam stetig verteilt sind, erhält man die Randdichten aus der gemeinsamen Dichte wie folgt.

fX(x)=fX,Y(x,y)dyfY(y)=fX,Y(x,y)dx.

Man sagt auch, dass man y “herausintegriert”, um die Randdichte von X zu erhalten, und umgekehrt.

Der gemeinsam stetig verteilte Zufallsvektor (X,Y) hat die gemeinsame Dichtefunktion fX,Y(x,y)={x+y2 wenn 0x1.11963 und 0y10 sonst. Wie sehen die beiden Randdichten aus? Die Randdichte von X erhält man, indem man y “herausintegriert”. Wenn x nicht in dem Interval [0,1.11963] liegt, ist die Randdichte offensichtlich 0. Wir betrachten darum nur den Fall, dass x in dem Intervall liegt. Dann gilt

fX(x)=fX,Y(x,y)dy=01(x+y2)dy=x+13y3|01=x+13.

Nun bestimmen wir die Randdichte von Y, indem wir über x integrieren.

fY(y)=fX,Y(x,y)dx=01.11963(x+y2)dx=1.11963y2+12x2|01.11963=1.11963y2+0.62679

für y[0,1]. Für y[0,1] ist die Dichte fY(y)=0.

5.5 Unabhängigkeit

Definition: Unabhängigkeit

Zwei Zufallsvariablen X und Y heißen stochastisch unabhängig oder unabhängig (engl. independent), wenn für alle x,yR gilt FX,Y(x,y)=FX(x)FY(y).

Wenn die Zufallsvariablen nicht unabhängig sind, nennt man sie abhängig. Sowohl bei abhängigen als auch bei unabhängigen Zufallsvariablen gilt, dass die Randverteilungen aus der gemeinsamen Verteilung hergeleitet werden können. Im Gegensatz dazu ist die Herleitung der gemeinsamen Verteilung aus den Randverteilungen nur möglich, wenn die Zufallsvariablen unabhängig sind.

Wenn X und Y gemeinsam diskret verteilt sind, dann gilt bei Unabhängigkeit für alle j und k pjk=pjpk.

Zwei Würfel werden geworfen. Die gemeinsame Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen X: “kleinere Augenzahl” und Y: “größere Augenzahl”. Sind X und Y unabhängig? Um diese Frage zu beantworten, betrachten wir die gemeinsame Wahrscheinlichkeit P(X=6,Y=1). Sie ist offensichtlich 0, denn die kleinere Augenzahl X kann niemals größer sein als die größere Augenzahl Y. Wir wissen aber bereits, dass P(X=6)>0 und P(Y=1)>0 sind. Damit ist die Bedingung für Unabhängigkeit verletzt und X und Y sind abhängig voneinander.

Wenn X und Y gemeinsam stetig verteilt sind, ergibt sich bei Unabhängigkeit die gemeinsame Dichte als Produkt der beiden Randdichten, fX,Y(x,y)=fX(x)fY(y).

Der gemeinsam stetig verteilte Zufallsvektor (X,Y) hat die gemeinsame Dichtefunktion fX,Y(x,y)={x+y2 wenn 0x1.11963 und 0y10 sonst. Sind X und Y unabhängig? Die beiden Randdichten wurden bereits weiter oben ermittelt. Wir werten sie an den beiden willkürlich ausgewählten Stellen x=2/3 und y=0.2 aus.

fX(2/3)=x+13=1fY(0.2)=1.119630.22+0.62679=0.67158.

Das Produkt ist also 0.67158. Setzt man x=2/3 und y=0.2 in die gemeinsame Dichte ein, erhält man f(2/3,0.2)=2/3+0.22=0.70667. Die beiden Werte sind nicht gleich. Die Zufallsvariablen X und Y sind also nicht unabhängig.

5.6 Bedingte Verteilungen

Wir betrachten wieder eine gemeinsame Verteilung von zwei Zufallsvariablen X und Y. Während man sich bei den Randverteilungen fragt, wie eine Zufallsvariable verteilt ist, wenn man die andere ignoriert, stellt man sich bei bedingten Verteilungen die Frage, wie eine Zufallsvariable verteilt ist, wenn man den Wert der anderen Zufallsvariable kennt (oder annimmt).

Definition: Bedingte Verteilung

Als bedingte Verteilung (engl. conditional distribution) bezeichnet man die Verteilung einer Zufallsvariable einer gemeinsamen Verteilung, wenn die andere Zufallsvariable auf einen bestimmten Wert fixiert wird.

Wie ist X (die bedingte Variable) verteilt, wenn man weiß (oder annimmt), dass Y (die bedingende Variable) den Wert y hat? Oder umgekehrt: Wie ist Y (bedingte Variable) verteilt, wenn man X kennt (bedingende Variable)? Bedingte Verteilungen sind deswegen in der Ökonomik wichtig, weil sie Informationsstände abbilden können. Die Bedingung gibt an, welche Information ein Agent hat.

Für gemeinsam diskrete Verteilungen mit pjk=P(X=xj,Y=yk) für j=1,,J und k=1,,K gilt: Die bedingte Verteilung von X gegeben Y=yk ist für j=1,,J P(X=xj|Y=yk)=P(X=xj,Y=yk)P(Y=yk). Es gibt also nicht nur eine bedingte Verteilung von X, sondern k (nämlich für jeden möglichen Wert von Y eine).

Vertauscht man die beiden Variablen, so ergeben sich die bedingten Verteilungen von Y gegeben X=xj. Sie sind für festes j und k=1,,K P(Y=yk|X=xj)=P(X=xj,Y=yk)P(X=xj).

Ein Blick auf die Wahrscheinlichkeitstabelle zeigt, dass die bedingte Verteilung sich aus einer Zeile oder Spalte der Tabelle ergibt, indem man diese Zeile oder Spalte durch den zugehörigen Wert der Randverteilung dividiert. Aus der fett markierten ersten Spalte erhält man beispielsweise die bedingte Verteilung von X gegeben Y=y1, indem man die Spalteneinträge durch p1 teilt. XYy1yKx1p11p1Kp1xJpJ1pJKpJp1pK

Für gemeinsam stetige Verteilungen mit der gemeinsamen Dichte fX,Y(x,y) gilt: Die bedingte Dichte von X gegeben Y=y ist fX|Y=y(x)=fX,Y(x,y)fY(y). Es gibt also wiederum nicht nur eine bedingte Verteilung von X, sondern nun sogar unendlich viele (nämlich für jeden Wert y aus dem Träger von Y eine).

Durch Vertauschen von X und Y erhält man die bedingte Verteilung von Y gegeben X=x. Die bedingte Dichte lautet fY|X=x(y)=fX,Y(x,y)fX(x).

Wenn X und Y unabhängig sind, dann sind alle bedingten Verteilungen gleich der Randverteilung. Das gilt sowohl für gemeinsam stetige als auch für gemeinsam diskrete Verteilungen. Die Herleitung ist einfach, wenn man die Definition der Unabhängigkeit berücksichtigt. Als Beispiel sehen wir uns den stetigen Fall an. Die bedingte Dichte von X gegeben Y=y ist fX|Y=y(x)=fX,Y(x,y)fY(y). Bei Unabhängigkeit gilt fX,Y(x,y)=fX(x)fY(y), so dass fX|Y=y(x)=fX(x)fY(y)fY(y)=fX(x). Unabhängigkeit bedeutet also mit anderen Worten, dass die Information Y=y keinen Einfluss auf die Form der Verteilung von X hat. Die Verteilung von X hängt bei Unabhängigkeit nicht davon ab, welchen Wert Y annimmt (und umgekehrt).

Der gemeinsam stetig verteilte Zufallsvektor (X,Y) hat die gemeinsame Dichtefunktion fX,Y(x,y)={x+y2 wenn 0x1.11963 und 0y10 sonst. Wie sieht die bedingte Dichte von Y gegeben X=0.8 aus? Für die Herleitung braucht man die Randdichte von X. Sie wurde bereits hergeleitet, fX(x)=x+13. Man erhält als bedingte Dichte von Y gegeben X=0.8

fY|X=0.8(y)=fX,Y(0.8,y)fX(0.8)=0.8+y20.8+1/3=0.8+y21.13333

für 0y1.

Bedingte Verteilungen sind univariate Verteilungen. Für jeden Wert der bedingenden Zufallsvariable ergibt sich eine univariate Verteilung. Im Allgemeinen sind sie alle unterschiedlich, aber das muss nicht unbedingt so sein. Wenn X und Y unabhängig sind, dann sind die univariaten bedingten Verteilungen alle gleich.

Für univariate Verteilungen kann man all die Parameter berechnen, die in eingeführt wurden, z.B. den Erwartungswert oder die Varianz. Man spricht dann von bedingten Erwartungswerten und bedingten Varianzen. Die gängige Notation ist E(X|Y=y) und Var(X|Y=y). Für jeden Wert der bedingenden Zufallsvariable (Y=y) erhält man einen bedingten Erwartungswert und eine bedingte Varianz. Es handelt sich quasi um Funktionen von y. Für gemeinsam stetige Zufallsvariablen berechnet man den bedingten Erwartungswert als E(X|Y=y)=xfX|Y=y(x)dx und die bedingte Varianz als Var(X|Y=y)=(xE(X|Y=y))2fX|Y=y(x)dx. Die Formeln sind vollständig analog zu den Formeln in und . Nur wird die Dichte durch die auf Y=y bedingte Dichte ersetzt (und im Fall der Varianz der Erwartungswert durch den bedingten Erwartungswert). Für gemeinsam diskret verteilte Zufallsvariablen geht man analog vor.

Der gemeinsam stetig verteilte Zufallsvektor (X,Y) hat die gemeinsame Dichtefunktion fX,Y(x,y)={x+y2 wenn 0x1.11963 und 0y10 sonst. Zur Berechnung des bedingten Erwartungswerts von Y gegeben X=x benötigt man die bedingte Dichte. Wir haben sie im letzten Beispiel hergeleitet. Sie ist für gegebenes x

fY|X=x(y)=fX,Y(x,y)fX(x)=x+y2x+1/3

für 0y1. Damit ergibt sich der bedingte Erwartungswert

E(Y|X=x)=yfY|X=x(y)dy=01yx+y2x+1/3dy=xx+1/301ydy+1x+1/301y3dy=xx+1/312+1x+1/314=2x4x+4/3+14x+4/3=2x+14x+4/3=6x+312x+4.

Für jeden Wert von x in dem Intervall [0,1.11963] erhält man einen anderen bedingten Erwartungswert für Y. Grafisch lässt sich das so darstellen:

x <- seq(from=0, to=1.11963, length=200)
plot(x, (6*x+3)/(12*x+4), 
     type="l",
     xlab="x", 
     ylab="E(Y|X=x)",
     main="Bedingte Erwartungswerte von Y")

Der Erwartungswert von Y ist also bei kleinen Werten von x größer als bei großen Werten. Wenn bekannt ist, dass X den Wert 1 annimmt, dann erwartet man für Y im Mittel ungefähr den Wert 0.55. Ist X dagegen nur knapp über 0, dann erwartet man im Mittel für Y fast 0.75.