6 Matrizen (III)

6.1 Spezielle Matrizen

6.1.1 Einsen-Matrix

Eine \((m\times n)\)-Matrix, die nur aus Einsen besteht, schreibt man meist als \(\mathbf{1}_{mn}\) oder \(\mathbf{J}_{mn}.\) Die Indizes entfallen, wenn die Dimensionen klar sind. Nützlich sind vor allem Zeilen- oder Spaltenvektoren aus Einsen. Mit ihnen kann man leicht die Zeilen- oder Spaltensummen von Matrizen ermitteln.

Beispiel: Sei
\[ \mathbf{A}=\left[ \begin{array}{ccc} 1 & 4 & 7\\ 2 & 5 & 8\\ 3 & 6 & 9 \end{array} \right]. \] Mit \(\mathbf{\iota}_3=\mathbf{J}_{3,1}\) bezeichnen man häufig den Spaltenvektor aus drei Einsen. Der Zeilenvektor aus drei Einsen ist dann \(\mathbf{\iota}_3'\), also der transponierte Spaltenvektor.

A <- matrix(1:9, 3, 3)
iota <- matrix(1, 3, 1)

Dann ist

t(iota) %*% A

     [,1] [,2] [,3]
[1,]    6   15   24

der Zeilenvektor der Spaltensummen und

A %*% iota

     [,1]
[1,]   12
[2,]   15
[3,]   18

der Spaltenvektor der Zeilensummen.

Manchmal begegnet man in ökonometrischen Texten dem Ausdruck \(\mathbf{\iota}_n'\mathbf{\iota}_n\). Dieser Ausdruck entspricht schlicht und einfach dem Skalar \(n\), denn \[ \left[ \begin{array}{cccc} 1 & 1 & \ldots & 1 \end{array} \right] \left[ \begin{array}{c} 1 \\ 1 \\ \vdots \\ 1 \end{array} \right]= 1\cdot 1+1\cdot 1+\ldots+1\cdot 1=n. \]

In R ist es sehr einfach, Einsenmatrizen zu erzeugen, z.B.

J <- matrix(1, nrow=2, ncol=4)
J

     [,1] [,2] [,3] [,4]
[1,]    1    1    1    1
[2,]    1    1    1    1

6.1.2 Nullen-Matrix

Eine \((m\times n)\)-Matrix aus Nullen schreibt man meist als \(\mathbf{0}_{mn}\). Wenn die Dimension sich klar aus dem Kontext ergibt, kann der Subindex entfallen. Addiert man eine Nullenmatrix zu einer beliebigen Matrix \(\mathbf{A}\) passender Dimensionen, so erhält man wieder \(\mathbf{A}\). In R werden Nullenmatrizen auf die gleiche Weise wie Einsenmatrizen generiert.

6.1.3 Permutationsmatrizen

Ordnet man die Spalten (oder Zeilen) einer Einheitsmatrix in einer anderen Reihenfolge an, dann erhält man eine Permutationsmatrix. Permutationsmatrizen heißen so, weil sie die Elemente eines Vektors permutieren (d.h. in eine andere Reihenfolge bringen). Das folgende Beispiel zeigt das für eine \((4\times 4)\)-Matrix. \[ \left[\begin{array}{cccc} 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1\\ 1 & 0 & 0 & 0\\ 0 & 1 & 0 & 0 \end{array} \right] \left[ \begin{array}{c} x_1\\ x_2\\ x_3\\ x_4 \end{array} \right]= \left[ \begin{array}{c} x_3\\ x_4\\ x_1\\ x_2 \end{array} \right]. \]

6.1.4 Diagonalmatrizen

Eine Matrix, bei der alle Nichtdiagonalelemente Null sind, nennt man Diagonalmatrix. Beispielsweise sind Einheitsmatrizen Diagonalmatrizen. Die Funktion diag, die wir schon zum Erzeugen von Einheitsmatrizen kennen gelernt haben, dient auch zum Erzeugen von allgemeinen Diagonalmatrizen. Wenn das Argument ein Vektor der Länge \(n\) ist, dann erhält man eine \((n\times n)\)-Diagonalmatrix mit den Vektorelementen auf der Diagonale.

Beispiel:

v <- c(1,3,5,7,9)
diag(v)

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    0    0    0    0
[2,]    0    3    0    0    0
[3,]    0    0    5    0    0
[4,]    0    0    0    7    0
[5,]    0    0    0    0    9

6.1.5 Dreiecksmatrizen

In einer oberen Dreiecksmatrix sind alle Elemente unterhalb der Diagonale Null. In einer unteren Dreiecksmatrix sind die Elemente über der Diagonalen Null. Bei Dreiecksmatrizen ist die Determinante das Produkt aller Diagonalelemente. Wenn \(\mathbf{A}\) eine (\(n\times n\))-Dreiecksmatrix ist, dann gilt also \[ \det(\mathbf{A})=\prod_{i=1}^n a_{ii}. \] Da Diagonalmatrizen ein Spezialfall von Dreiecksmatrizen sind, gilt das natürlich auch für Diagonalmatrizen.

Beispiel:

A <- diag(c(1,3,5,7))
det(A)

[1] 105

6.1.6 Orthogonale Matrizen

Eine \((n\times n)\)-Matrix \(\mathbf{A}\) heißt orthogonal, wenn \[ \mathbf{A}'\mathbf{A}=\mathbf{A}\mathbf{A}'=\mathbf{I}. \] Bei einer orthogonalen Matrix ist also die Transponierte die Inverse.

Wählt man zwei beliebige unterschiedliche Spalten (oder Zeilen) einer orthogonalen Matrizen, dann ist deren inneres Produkt 0, d.h. sie sind rechtwinklig (orthogonal) zueinander. Das innere Produkt einer Spalte mit sich selber ist 1. Die Spalten haben also die Norm 1. Die \((2\times 2)\)-Rotationsmatrizen, die wir in Abschnitt 3.1 kennen gelernt haben, sind ein Beispiel für orthogonale Matrizen. Lineare Transformationen mit einer orthogonalen Matrix verändern folglich weder die Winkel noch führen sie zu einer Streckung oder Stauchung.

Bei der numerischen Überprüfung auf Orthogonalität müssen mögliche Rundungsfehler berücksichtigt werden.

Beispiel:

Die 35-Grad-Rotationsmatrix

M <- matrix(c(cos((35/180)*pi),sin((35/180)*pi),-sin((35/180)*pi),cos((35/180)*pi)),2,2)

ist orthogonal. Wenn man jedoch mit der all-Funktion nachprüft, ob \(\mathbf{M}'\mathbf{M}=\mathbf{I}\) ist, dann erhält man das falsche Ergebnis:

all(t(M) %*% M == diag(2))

[1] FALSE

Das liegt an Rundungsfehlern. Das Tükische ist, dass R dennoch die Einheitsmatrix ausgibt, wenn man die zugehörige Transponierte von links an die 35-Grad-Rotationsmatrix multipliziert.

t(M) %*% M

     [,1] [,2]
[1,]    1    0
[2,]    0    1

Das liegt daran, dass R standardmäßig nur 6 Nachkommastellen ausgibt. Erst wenn man die Anzahl der auszugebenden Nachkommastellen auf (z.B) 16 Stellen erhöht, sieht man die Rundungsfehler.

options(digits=16)
t(M) %*% M

                   [,1]               [,2]
[1,] 0.9999999999999999 0.0000000000000000
[2,] 0.0000000000000000 0.9999999999999999

options(digits=6)

Die Rundungsfehler sind zwar extrem klein, aber die Ergebnismatrix ist offenbar nicht exakt gleich der Einheitsmatrix. Durch Runden auf (z.B.) 12 Stellen nach dem Komma ergibt sich aber das richtige Ergebnis,

all(round(t(M) %*% M, 12) == diag(2))

[1] TRUE

6.1.7 Idempotente Matrizen

Wenn für eine quadratische \((n\times n)\)-Matrix \(\mathbf{A}\) gilt \[ \mathbf{A}=\mathbf{AA}, \] dann heißt \(\mathbf{A}\) idempotent. Da die Determinante eines Matrixprodukt dem Produkt der beiden Determinanten entsprechen muss, können die Determinanten von idempotenten Matrizen nur 0 oder 1 sein.

6.2 Partitionierte Matrizen

In der Ökonometrie gibt es Situationen, in denen Matrizen in einzelne Blöcke unterteilt werden. Man spricht dann von partitionierten Matrizen. Das sieht z.B. so aus: \[ \mathbf{A}=\left[ \begin{array}{cc} \mathbf{A}_{11} & \mathbf{A}_{12}\\ \mathbf{A}_{21} & \mathbf{A}_{22} \end{array} \right] \] Die Blöcke müssen geeignete Dimensionen haben. Zum Beispiel könnte \(\mathbf{A}_{11}\) eine \((m_1\times n_1)\)-Matrix sein, \(\mathbf{A}_{12}\) eine \((m_1\times n_2)\)-Matrix, \(\mathbf{A}_{21}\) eine \((m_2\times n_1)\)-Matrix und \(\mathbf{A}_{22}\) eine \((m_2\times n_2)\)-Matrix. Dann ist \(\mathbf{A}\) von den Dimensionen \(((m_1+m_2)\times (n_1+n_2))\).

Partitionierte Matrizen bieten eine elegante Möglichkeit, komplexe Daten strukturiert zu bearbeiten.

Für viele Matrixoperationen können die Blöcke so ähnlich behandelt werden wie normale Matrixelemente. Beispielsweise gilt für die Transponierte \[ \mathbf{A}'=\left[ \begin{array}{cc} \mathbf{A}_{11}' & \mathbf{A}_{21}'\\ \mathbf{A}_{12}' & \mathbf{A}_{22}' \end{array} \right]. \] Und für die Summe von geeignet partitionierten Matrizen gilt \[ \mathbf{A}+\mathbf{B}=\left[ \begin{array}{cc} \mathbf{A}_{11}+\mathbf{B}_{11} & \mathbf{A}_{12}+\mathbf{B}_{12}\\ \mathbf{A}_{21}+\mathbf{B}_{21} & \mathbf{A}_{22}+\mathbf{B}_{22} \end{array} \right]. \] Wenn die Dimensionen der Blöcke alle zueinander passen, gilt für die Matrizenmultiplikation \[ \mathbf{AB}=\left[ \begin{array}{cc} \mathbf{A}_{11}\mathbf{B}_{11}+\mathbf{A}_{12}\mathbf{B}_{21} & \mathbf{A}_{11}\mathbf{B}_{12}+\mathbf{A}_{12}\mathbf{B}_{22}\\ \mathbf{A}_{21}\mathbf{B}_{11}+\mathbf{A}_{22}\mathbf{B}_{21} & \mathbf{A}_{21}\mathbf{B}_{12}+\mathbf{A}_{22}\mathbf{B}_{22} \end{array} \right]. \] Wenn in einer partitionierten Matrix \(\mathbf{A}\) alle Blöcke außer den Diagonalblöcken Nullmatrizen sind, und wenn die Diagonalblöcke außerdem invertierbar sind, dann gilt \[ \mathbf{A}^{-1}=\left[ \begin{array}{cc} \mathbf{A}_{11}^{-1} & \mathbf{0}\\ \mathbf{0} & \mathbf{A}_{22}^{-1} \end{array} \right]. \]

6.3 Tensoren

In der Machine-Learning-Literatur spielen Vektoren und Matrizen eine extrem wichtige Rolle. Im Bereich des Machine-Learnings wird jedoch meistens eine bequeme Verallgemeinerung von Matrizen, Vektoren und Skalaren benutzt, nämlich Tensoren. Ein Tensor der Dimension 0 (auch 0-Tensor oder 0D-Tensor) ist ein Skalar. Ein 1-Tensor oder 1D-Tensor ist ein Vektor. Ein 2-Tensor oder 2D-Tensor ist eine Matrix. Man kann Tensoren nun für noch höhere Dimensionen definieren. Bei einem 3D-Tensor sind die Daten nicht nur in Form eines Rechtecks angeordnet (wie bei einer Matrix), sondern man hat noch eine weitere Dimension. Die Daten liegen quasi in Würfelform vor, die das folgende Bild skizziert, in dem die Daten eines 3D-Tensors der Dimensionen \((5\times 4\times 3)\) gezeigt werden (Sie können das Bild mit der Maus bewegen):

Hier liegen quasi drei Matrizen geschichtet hintereinander. Die ersten beiden Indizes geben die Position innerhalb der Matrizen an, der dritte Index gibt an, um welche Schicht es sich handelt.

Tensoren können analog auch für noch höhere Dimensionen definiert werden, sind dann aber nicht mehr anschaulich darstellbar. Für Tensoren lässt sich die Matrixmultiplikation verallgemeinern, aber darauf gehen wir in diesem Kurs nicht ein.

Noch ein Hinweis zum Begriff “Dimension”: Eine Matrix ist ein 2D-Tensor, weil sie aus Zeilen und Spalten besteht. Sind die Daten in Würfelform angeordnet, handelt es sich um einen 3D-Tensor mit Zeilen, Spalten und Schichten. Der Begriff “Dimension” bezeichnet also die Struktur eines Tensors. In diesem Kurs verwenden wir den Begriff “Dimension” jedoch, um die Länge eines Vektors oder die Zeilen- und Spaltenzahl einer Matrix zu bezeichnen.