Documento 6 Cuestion 2

Crea un .Rmd (cuestion2.Rmd) con los comandos necesarios para responder a las siguientes preguntas.

Primero importa el dataset landdata-states.csv del CV.

landdata.states <- read.csv("datasets/landdata-states.csv")

Calcula el máximo, mínimo y media de la columna Home.Value.

maximo <- max(landdata.states$Home.Value)
maximo

## [1] 862885

minimo <- min(landdata.states$Home.Value)
minimo

## [1] 18763

media <- mean(landdata.states$Home.Value)
media

## [1] 135312.6

Elimina la última columna. Elimina la segunda fila del dataset.

landdata_states <- landdata.states[ , -ncol(landdata.states)]
landdata.states <- landdata.states[-2, ]

Explica con ejemplos la diferencia entre usar [] o [[]] para acceder a elementos del data frame.

Es la diferencia entre seleccionar el contenedor con su contenido incluido ([]) y solo seleccionar el contenido ([[ ]]).

test <- list(a = 5, b = 6)

test['a']

## $a
## [1] 5

test[1]

## $a
## [1] 5

test[['a']]

## [1] 5

test[[1]]

## [1] 5

Mira la clase y la estructura de la segunda y tercera columna. Di de que tipo es cada una y su longitud.

str(landdata.states)

## 'data.frame':    7802 obs. of  11 variables:
##  $ State           : Factor w/ 51 levels "AK","AL","AR",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ region          : Factor w/ 4 levels "Midwest","N. East",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Date            : num  2010 2010 2010 2008 2008 ...
##  $ Home.Value      : int  224952 225820 224994 234590 233714 232999 232164 231039 229395 227421 ...
##  $ Structure.Cost  : int  160599 163791 161787 155400 157458 160092 162704 164739 165424 165048 ...
##  $ Land.Value      : int  64352 62029 63207 79190 76256 72906 69460 66299 63971 62373 ...
##  $ Land.Share..Pct.: num  28.6 27.5 28.1 33.8 32.6 31.3 29.9 28.7 27.9 27.4 ...
##  $ Home.Price.Index: num  1.48 1.49 1.48 1.54 1.54 ...
##  $ Land.Price.Index: num  1.55 1.49 1.52 1.88 1.82 ...
##  $ Year            : int  2010 2009 2009 2007 2008 2008 2008 2008 2009 2009 ...
##  $ Qrtr            : int  1 3 4 4 1 2 3 4 1 2 ...

class(landdata.states[[2]])

## [1] "factor"

class(landdata.states[[3]])

## [1] "numeric"

str(landdata.states[[2]])

##  Factor w/ 4 levels "Midwest","N. East",..: 4 4 4 4 4 4 4 4 4 4 ...

str(landdata.states[[3]])

##  num [1:7802] 2010 2010 2010 2008 2008 ...

length(landdata.states[[2]])

## [1] 7802

length(landdata.states[[3]])

## [1] 7802

De la columna Year cambia todos los años menores del 2000 por NA.

landdata.states$Year[landdata.states$Year < 2000] <- NA
#landdata.states

Cambia - traduciendo el nombre de las columnas del dataset (si alguna columna tiene nombre extraño que no sabemos significado - simplemente coloca primera letra del nombre de inglés y un número).

names(landdata.states) <- c("Estado", "Region", "Fecha", "Casa.Valor", "Estructura.Coste", "Tierra.Valor", "LS.Pct", "Indice.Precio.Casa", "Indice.Precio.Tierra", "Año", "Cuatrimestre")

names(landdata.states)

##  [1] "Estado"               "Region"               "Fecha"               
##  [4] "Casa.Valor"           "Estructura.Coste"     "Tierra.Valor"        
##  [7] "LS.Pct"               "Indice.Precio.Casa"   "Indice.Precio.Tierra"
## [10] "Año"                  "Cuatrimestre"