2 Aspectos básicos de `R`

Fecha última actualización: 2025-08-28

Instalación/carga librerías utilizadas

if (!require(fpp3)) install.packages('fpp3') 
library(fpp3)
if (!require(utils)) install.packages('utils') 
library(utils)
if (!require(tidyverse)) install.packages('tidyverse') 
library(tidyverse)

2.1 Tipos y estructuras de datos

El operador de asignación en R es el símbolo = o más comúnmente <-. Por ejemplo a <- 5 asigna a a el valor 5. Los operadores = y <- producen en la mayoría de los casos el mismo resultado, pero no son idénticos y en ciertas ocasiones usar uno en lugar de otro puede producir un error.

Si se realiza mediante código cualquier operación o llamada a una función y no se asigna a ninguna variable, el resultado se imprime y no se almacena. Un error, de principiante, muy común, es pensar que hemos actualizado algo, por ejemplo, una tabla, cuando realmente lo que hemos hecho es una operación en ella que solo se imprime pues no la hemos asignado a nada.

Tipos de datos

Tipo	Ejemplos
character	`"mi texto"`
factor	`as.factor("Europe")`
numeric	`5` `as.numeric("5")`
logical	`TRUE` `FALSE`
dato no disponible	`NA`
date	`as.Date("2022-12-31")`

La coerción nos permite cambiar los tipos de los datos. Por ejemplo as.Date("2022-12-31") pasa el campo de texto “2022-12-31” a un dato tipo fecha. Otros ejemplos de funciones de coerción son as.numeric(), as_factor(), o as.character().

Cuando leemos los datos de una tabla, debemos prestar especial atención a examinar los tipos asignados a los campos y comprobar, en particular, que los campos con números y fechas se han identificado como tales. En caso contrario, lo primero que hay que hacer es convertir los datos a los tipos deseados (especialmente las fechas).

El tipo factor se utiliza para clasificar, y se asocia, a las denominadas variables categóricas. Por ejemplo, en una tabla con datos de población por países, edad y sexo, el valor observado sería el dato de población y el valor de las variables categóricas, país, edad y sexo, determinan/identifican a que corresponde a dicha observación.

Para acelerar su gestión, las variables tipo factor se almacenan internamente como una mezcla entre caracteres y números (los números se comparan entre si mucho más rápido que los strings), y por tanto no son lo mismo que las variables tipo character y esto puede ocasionar algún problema al comparar ambos tipos de variables.

Manipulación de strings

Un caso especialmente importante de tipo de datos son los strings de caracteres que con frecuencia tenemos que manipular para obtener los resultados que necesitamos. Por ello vamos a ver a continuación algunos procesos básicos en la manipulación de strings.

Función `paste` y `paste0`

La función paste permite combinar texto y variables para construir un string

a <- 5   
paste("la velocidad es",a, "km2")

## [1] "la velocidad es 5 km2"

La función paste inserta espacios blancos entre los strings o variables que combina. paste0 hace lo mismo que paste pero sin insertar espacios en blanco.

Extraer un trozo de un string

s <- "esto es un string"  
# extraemos las posiciones de la 3 a 14
substr(s,3,14)

## [1] "to es un str"

Extraer una palabra de un string

Cuando nuestro string es una frase con palabras separadas por espacios en blanco, la función word de la librería tidyverse nos permite extraer la palabra que ocupa una posición determinada en la frase. Por ejemplo, el siguiente código extrae la tercera palabra del string s declarado antes.

word(s,3)

## [1] "un"

Comparación de `strings`

s1 <- "ABC"  
s2 <- "abc"
#comparación literal
s1==s2

## [1] FALSE

#comparación pasando todo a minúsculas
tolower(s1)==tolower(s2)

## [1] TRUE

#detectar si un string es parte de otro 
str_detect("UNITED NATIONS","NAT")

## [1] TRUE

Distancia entre `strings` con `adist()`

En ocasiones, tenemos que comparar strings que son parecidos pero no idénticos. Por ejemplo, podemos querer que se reconozcan como similares los strings “Antonio”, “San antonio” y “S. Antonio”. La función adist de la librería utils nos permite calcular una distancia entre dos strings que vale cero cuando son idénticos y que va siendo mayor cuanto más difieran. Esta función tiene diversos parámetros para ajustar como queremos comparar los strings. Utilizaremos en el futuro esta función para obtener, dado un string, el más cercano a él en un vector de strings.

# comparación literal
adist("Antonio","San antonio")

##      [,1]
## [1,]    5

adist("S. Antonio","San antonio")

##      [,1]
## [1,]    3

# comparación ignorando minúsculas/mayúsculas
adist("Antonio","San antonio",ignore.case=TRUE)

##      [,1]
## [1,]    4

# comparación del primer string con un trozo del segundo
adist("Antonio","S. antonio",ignore.case=TRUE,partial=TRUE)

##      [,1]
## [1,]    0

# con la opción partial=TRUE, el orden de los strings afecta al resultado
adist("S. antonio","Antonio",ignore.case=TRUE,partial=TRUE)

##      [,1]
## [1,]    3

Manejo de fechas

Las fechas son un tipo particular de dato que manejamos constantemente al analizar datos. Por ello es importante entender como se manejan y transforman. Mostraremos a continuación algunos ejemplos básicos de manejo de formato de fechas:

as.Date("2022-12-25") # Coerción a fecha usando el formato de fecha estándar

## [1] "2022-12-25"

as.Date("25/12/2022",format = "%d/%m/%Y") # lectura formato fecha no estándar

## [1] "2022-12-25"

# extraer información fecha
format(as.Date("2022-12-25"),"%A, %B, %d, %y")

## [1] "domingo, diciembre, 25, 22"

format(as.Date("2022-12-25"),"%a, %b, %d, %Y, día dentro de la semana: %u")

## [1] "do., dic., 25, 2022, día dentro de la semana: 7"

format(as.Date("2022-12-25"),"Nº semana del año: %W, día del año : %j")

## [1] "Nº semana del año: 51, día del año : 359"

Para más información sobre los formatos de fecha ejecutar en la consola ??strptim y elegir la opción base::format.POSIXct.

Hay programas que codifican las fechas como números a partir de una fecha de referencia (Por ejemplo en EXCEL la fecha de referencia es “1899-12-30”). Podemos pasar esta codificación numérica al formato fecha con la instrucción:

# convertir el número 0 en fecha
as.Date(0, origin = "1899-12-30")

## [1] "1899-12-30"

# convertir el número 45000 en fecha
as.Date(45000, origin = "1899-12-30")

## [1] "2023-03-15"

En ocasiones, las fechas asociadas a los datos vienen dadas por meses, por ejemplo “2008-02” o por trimestres, por ejemplo “2008 Q2”. Para manejar fechas de esta manera la librería lubridate suministra algunas herramientas útiles. Veamos algunos ejemplos:

ym("2008-02") # la función ym() devuelve como fecha el primer día del mes del string "2008-02"

## [1] "2008-02-01"

ceiling_date(ym("2008-02"),"month")-1 # último día del mes

## [1] "2008-02-29"

ym("2008/02") #el argumento de ym() admite  varios formatos

## [1] "2008-02-01"

ym("200802") #el argumento de ym() admite  varios formatos

## [1] "2008-02-01"

my("02/2008") #si el mes va delante del año podemos usar my()

## [1] "2008-02-01"

yq("2008 Q2") # la función yq() devuelve como fecha el primer día del trimestre "2008 Q2"

## [1] "2008-04-01"

ceiling_date(yq("2008 Q2"),"quarter")-1 # último día del trimestre

## [1] "2008-06-30"

yq("2008Q2") # el argumento de yq() admite varios formatos

## [1] "2008-04-01"

Cuando manejamos datos asociados a diferentes fechas a lo largo del tiempo (esto se denominan series temporales), un aspecto fundamental es, cada cuanto tiempo tenemos una observación. Las opciones habituales son tener observaciones cada día, semana, mes, trimestre o año. Si, por ejemplo, tenemos datos mensuales y utilizamos la función ym anterior para manejarlo como fecha, lo convierte en un dato diario y perdemos la información de que son datos mensuales, lo cual puede generar errores al procesar la serie temporal. Para resolver esta cuestión la librería fpp3 que usamos para manejar series temporales tiene unos tipos especiales para manejar fechas que se mueven por meses, trimestres, etc.. A continuación vemos algunos ejemplos

ym("2008-02")+1 # periodo siguiente a "2008-02" cuando usamos ym() para pasarlo a fecha

## [1] "2008-02-02"

yearmonth("2008-02")+1 # periodo siguiente a "2008-02" cuando usamos yearmonth() de la librería fpp3 para pasarlo a fecha

## <yearmonth[1]>
## [1] "2008 mar."

yq("2008-Q2")+1 # periodo siguiente a "2008-Q2" cuando usamos yq() para pasarlo a fecha

## [1] "2008-04-02"

yearquarter("2008-Q2")+1 # periodo siguiente a "2008-Q2" cuando usamos yearquarter() de la librería fpp3 para pasarlo a fecha

## <yearquarter[1]>
## [1] "2008 Q3"
## # Year starts on: January

yearweek("2008-W2")+1 # periodo siguiente a la segunda semana del 2008, "2008-W2", cuando usamos yearweek() de la librería fpp3 para pasarlo a fecha

## <yearweek[1]>
## [1] "2008 W03"
## # Week starts on: Monday

yearweek("2008-W52")+1 # periodo siguiente a la semana 52 del 2008, "2008-W52", cuando usamos yearweek() de la librería fpp3 para pasarlo a fecha

## <yearweek[1]>
## [1] "2009 W01"
## # Week starts on: Monday

Vectores

Creación de un vector concatenando valores

v <- c(1,7,9)   
paste("el segundo elemento de v es : ",v[2])

## [1] "el segundo elemento de v es :  7"

Creación de un vector repitiendo valores

v <- rep(1,6)
v

## [1] 1 1 1 1 1 1

paste("la longitud del vector es : ",length(v))

## [1] "la longitud del vector es :  6"

Creación de un vector usando números consecutivos

3:7

## [1] 3 4 5 6 7

Creación de un vector con valores descendentes

seq(7, 3, by = -1)

## [1] 7 6 5 4 3

Creación de un vector con tamaño asignado pero sin rellenar

numeric(5)  # vector de números de tamaño 5

## [1] 0 0 0 0 0

character(5)  # vector de strings de tamaño 5

## [1] "" "" "" "" ""

Creación de un vector usando fechas consecutivas

as.Date("2022-12-31")+0:3

## [1] "2022-12-31" "2023-01-01" "2023-01-02" "2023-01-03"

Con frecuencia es necesario crear un vector de fechas espaciadas por meses, semanas, etc.. Esto lo podemos conseguir con la función seq. Por ejemplo, veamos como se construye un vector con los primeros seis meses del año 2023

seq(as.Date("2023-01-01"), as.Date("2023-06-01"), by = "months")

## [1] "2023-01-01" "2023-02-01" "2023-03-01" "2023-04-01" "2023-05-01"
## [6] "2023-06-01"

Esto mismo se puede hacer de forma más directa usando el tipo yearmonth:

yearmonth("2023-01")+ 0:5

## <yearmonth[6]>
## [1] "2023 ene." "2023 feb." "2023 mar." "2023 abr." "2023 may." "2023 jun."

Eliminar elementos de un vector

x <- c(2,3,2,3,5)
x[-2] # eliminamos la segunda posición

## [1] 2 2 3 5

x[-(2:3)] # eliminamos la segunda y tercera posición

## [1] 2 3 5

x[! x %in% c(2,5)]  #eliminamos todos los 2 y 5 existentes

## [1] 3 3

Reemplazar elementos de un vector

Vamos a usar la función gsub para reemplazar elementos de un vector.

x <- c("my book", "my car","your car")
gsub('my','your',x)

## [1] "your book" "your car"  "your car"

gsub('car','tree',x)

## [1] "my book"   "my tree"   "your tree"

Encontrar la posición de un valor en un vector

Vamos a usar la función which para encontrar las posiciones donde aparece un elemento en un vector

x <- c("my book", "my car","your car","my car")
which(x=='my car')

## [1] 2 4

Si nos interesa la posición de la primera vez que encuentra el elemento haríamos

which(x=='my car')[1]

## [1] 2

Extraer los elementos sin repetir de un vector

Con frecuencia, cuando leemos una tabla con variables categóricas, necesitamos saber los valores posibles de dichas variables (sin repetir). Para ello usamos la función unique que nos devuelve los elementos sin repetir de un vector:

unique(c("rojo","rojo","rojo","azul","azul"))

## [1] "rojo" "azul"

`Dataframes` y `Tibbles`

Un dataframe es una matriz que puede combinar diferentes tipos de datos, por ejemplo fechas y valores numéricos. La estructura tibble es una versión mejorada de dataframe que se encuentra en la librería tidyverse. En este curso utilizaremos principalmente esta estructura de datos para manejar tablas. De hecho, salvo indicación de lo contrario, cuando hablemos en el curso de tablas, nos estaremos refiriendo a estructuras tibbles. Cuando hablemos de campos o variables nos estaremos refiriendo a las columnas (col) de la tabla y cuando hablemos de registros, nos estaremos refiriendo a las filas (row) de la tabla.

2.1.0.1 Creación manual de un `tibble`

tb <- tibble(
  date=as.Date("2022-12-31")+0:5,
  value=c(9,6,1,7,5,8))
tb # impresión por consola de tb

## # A tibble: 6 × 2
##   date       value
##   <date>     <dbl>
## 1 2022-12-31     9
## 2 2023-01-01     6
## 3 2023-01-02     1
## 4 2023-01-03     7
## 5 2023-01-04     5
## 6 2023-01-05     8

paste("El segundo valor del campo date del tibble es ",tb$date[2])

## [1] "El segundo valor del campo date del tibble es  2023-01-01"

paste("El tercer valor del campo value del tibble es ",tb$value[3])

## [1] "El tercer valor del campo value del tibble es  1"

paste("El tercer valor del campo value del tibble es ",tb[3,2])

## [1] "El tercer valor del campo value del tibble es  1"

2.1.0.2 Acceso primeros y últimos valores del`tibble`

head(tb,3) # primeras 3 filas de tb

## # A tibble: 3 × 2
##   date       value
##   <date>     <dbl>
## 1 2022-12-31     9
## 2 2023-01-01     6
## 3 2023-01-02     1

tail(tb,4) # últimas 4 filas de tb

## # A tibble: 4 × 2
##   date       value
##   <date>     <dbl>
## 1 2023-01-02     1
## 2 2023-01-03     7
## 3 2023-01-04     5
## 4 2023-01-05     8

Manejo básico de filas y columnas

nrow(tb)    # número de filas

## [1] 6

ncol(tb)    # número de columnas

## [1] 2

tb[1:3,] # selección de las 3 primeras filas

## # A tibble: 3 × 2
##   date       value
##   <date>     <dbl>
## 1 2022-12-31     9
## 2 2023-01-01     6
## 3 2023-01-02     1

tb[,2:2] # selección de la segunda columna

## # A tibble: 6 × 1
##   value
##   <dbl>
## 1     9
## 2     6
## 3     1
## 4     7
## 5     5
## 6     8

tb[1:3,2:2] # selección combinada

## # A tibble: 3 × 1
##   value
##   <dbl>
## 1     9
## 2     6
## 3     1

colnames(tb) # nombres de las columnas

## [1] "date"  "value"

tb2 <- set_names(tb,c("date_new","value_new")) # cambiamos los nombres de las columnas  
tb2

## # A tibble: 6 × 2
##   date_new   value_new
##   <date>         <dbl>
## 1 2022-12-31         9
## 2 2023-01-01         6
## 3 2023-01-02         1
## 4 2023-01-03         7
## 5 2023-01-04         5
## 6 2023-01-05         8

2.1.0.3 Añadir un registro (fila) a un `tibble`

add_row(tb,date = as.Date("2023-01-25"),value=11)

## # A tibble: 7 × 2
##   date       value
##   <date>     <dbl>
## 1 2022-12-31     9
## 2 2023-01-01     6
## 3 2023-01-02     1
## 4 2023-01-03     7
## 5 2023-01-04     5
## 6 2023-01-05     8
## 7 2023-01-25    11

Concatenar los registros de varios `tibbles`

La función rbind() nos permite concatenar los registros de varios tibbles que tengan los mismos campos. Veamos un ejemplo:

tb1 <- tibble(
  date=as.Date("2022-12-31")+0:2,
  value=c(9,6,1))
tb2 <- tibble(
  date=as.Date("2022-12-31")+3:5,
  value=c(7,5,8))
rbind(tb1,tb2)

## # A tibble: 6 × 2
##   date       value
##   <date>     <dbl>
## 1 2022-12-31     9
## 2 2023-01-01     6
## 3 2023-01-02     1
## 4 2023-01-03     7
## 5 2023-01-04     5
## 6 2023-01-05     8

2.1.0.4 Añadir un campo (columna) a un `tibble`

Para añadir un campo a untibblebasta crear un vector del tamaño del numero de filas deltibbley añadir el campo altibble. Si el valor asignado es constante, podemos asignar directamente el valor

tb$new_value <- 1:nrow(tb)
tb$country <- "Spain"
tb

## # A tibble: 6 × 4
##   date       value new_value country
##   <date>     <dbl>     <int> <chr>  
## 1 2022-12-31     9         1 Spain  
## 2 2023-01-01     6         2 Spain  
## 3 2023-01-02     1         3 Spain  
## 4 2023-01-03     7         4 Spain  
## 5 2023-01-04     5         5 Spain  
## 6 2023-01-05     8         6 Spain

Cambiar un valor en todo el tibble

tb[tb==5] <- NA
tb

## # A tibble: 6 × 4
##   date       value new_value country
##   <date>     <dbl>     <int> <chr>  
## 1 2022-12-31     9         1 Spain  
## 2 2023-01-01     6         2 Spain  
## 3 2023-01-02     1         3 Spain  
## 4 2023-01-03     7         4 Spain  
## 5 2023-01-04    NA        NA Spain  
## 6 2023-01-05     8         6 Spain

2.1.0.5 Seleccionar registros usando `slice`

slice(tb,2:4)

## # A tibble: 3 × 4
##   date       value new_value country
##   <date>     <dbl>     <int> <chr>  
## 1 2023-01-01     6         2 Spain  
## 2 2023-01-02     1         3 Spain  
## 3 2023-01-03     7         4 Spain

Hacer una operación en todos los elementos de campos seleccionados

Vamos a convertir en tipo character todos los valores de los campos valuey new_value

tb %>% mutate(across(value:new_value,as.character))

## # A tibble: 6 × 4
##   date       value new_value country
##   <date>     <chr> <chr>     <chr>  
## 1 2022-12-31 9     1         Spain  
## 2 2023-01-01 6     2         Spain  
## 3 2023-01-02 1     3         Spain  
## 4 2023-01-03 7     4         Spain  
## 5 2023-01-04 <NA>  <NA>      Spain  
## 6 2023-01-05 8     6         Spain

la función mutate pertenece a la librería dplyr y se verá en detalle más adelante

Eliminar un registro de un `tibble`

# Eliminación segundo registro del tibble
tb %>%
   filter( row_number()!=2)

## # A tibble: 5 × 4
##   date       value new_value country
##   <date>     <dbl>     <int> <chr>  
## 1 2022-12-31     9         1 Spain  
## 2 2023-01-02     1         3 Spain  
## 3 2023-01-03     7         4 Spain  
## 4 2023-01-04    NA        NA Spain  
## 5 2023-01-05     8         6 Spain

2.1.0.6 Imprimir información de un `tibble`

Además de ejecutar el nombre del tibble en la consola, otras formas de obtener información sobre el tibble por consola son:

print(tb,n=3) # imprime las 3 primeras filas

## # A tibble: 6 × 4
##   date       value new_value country
##   <date>     <dbl>     <int> <chr>  
## 1 2022-12-31     9         1 Spain  
## 2 2023-01-01     6         2 Spain  
## 3 2023-01-02     1         3 Spain  
## # ℹ 3 more rows

str(tb) # imprime la estructura del tibble

## tibble [6 × 4] (S3: tbl_df/tbl/data.frame)
##  $ date     : Date[1:6], format: "2022-12-31" "2023-01-01" ...
##  $ value    : num [1:6] 9 6 1 7 NA 8
##  $ new_value: int [1:6] 1 2 3 4 NA 6
##  $ country  : chr [1:6] "Spain" "Spain" "Spain" "Spain" ...

summary(tb) # presenta un resumen de valores estadísticos del tibble

##       date                value       new_value     country         
##  Min.   :2022-12-31   Min.   :1.0   Min.   :1.0   Length:6          
##  1st Qu.:2023-01-01   1st Qu.:6.0   1st Qu.:2.0   Class :character  
##  Median :2023-01-02   Median :7.0   Median :3.0   Mode  :character  
##  Mean   :2023-01-02   Mean   :6.2   Mean   :3.2                     
##  3rd Qu.:2023-01-03   3rd Qu.:8.0   3rd Qu.:4.0                     
##  Max.   :2023-01-05   Max.   :9.0   Max.   :6.0                     
##                       NA's   :1     NA's   :1

Cuando queremos imprimir algo dentro de un bucle, usaremos la función print.

Listas

Una lista es una colección de objetos que pueden tener estructuras y tamaños distintos. Nosotros no haremos mucho uso de las listas en este curso dado que nuestra principal fuente de información van a ser tablas de datos que vamos a manejar con tibbles. Típicamente, usaremos listas cuando definamos funciones que queremos que retornen varias cosas.

li <- list("date"=as.Date("2022-12-25"), "value1"= 1:3,"value2"=1:4) # creación lista
li

## $date
## [1] "2022-12-25"
## 
## $value1
## [1] 1 2 3
## 
## $value2
## [1] 1 2 3 4

Si queremos acceder al contenido del segundo elemento de la lista haremos:

li[[2]]

## [1] 1 2 3

2.2 Funciones en `R`

Las funciones permiten simplificar y organizar el desarrollo de software empaquetando código para ser utilizado posteriormente de forma compacta y sencilla. En R, las funciones se suelen escribir en ficheros con extensión .R. Para poder usar las funciones creadas en un fichero .R desde cualquier código R hay que poner al principio de dicho código R la instrucción

source("NombreFichero.R")

En general, las funciones poseen unos parámetros de entrada, realizan algún tipo de operación y devuelven algo. La forma general de definir una función es

NombreFuncion <- function(parámetro 1, parámetro 2, ...){
  lineas código 
  .....
  return(resultado)
}

A continuación crearemos una función para sumar 2 números y la utilizaremos para calcular 2+3

suma <- function(x,y){
  z <- x+y  
  return(z)
}
suma(2,3)

## [1] 5

La mayor parte de las funciones de las librerías estándar como paste, as.Date, etc.., cuando reciben como argumento un vector, devuelven otro vector aplicando la función a cada elemento del vector. Por ejemplo:

d <- c("2008-01","2014-10","2023-12")
paste("la función ym() convierte",d,"en",ym(d))

## [1] "la función ym() convierte 2008-01 en 2008-01-01"
## [2] "la función ym() convierte 2014-10 en 2014-10-01"
## [3] "la función ym() convierte 2023-12 en 2023-12-01"

De la misma manera, cuando la función recibe 2 argumentos, si estos argumentos son vectores, entonces la función puede devolver un dataframecon el resultado de aplicar la función a cada combinación de los elementos de ambos vectores. Veamos un ejemplo con la función adist para comparar strings:

adist(c("Teror","Galdar"),c("Telde","Arucas","San Mateo"))

##      [,1] [,2] [,3]
## [1,]    3    6    9
## [2,]    4    5    7

Esta capacidad de las funciones para actuar en función del tipo de argumento que recibe depende de como se haya implementado la función.

Estructuras de control

Las siguientes estructuras de control permiten controlar el flujo de ejecución de un código:

if - else permite control el flujo a través de una condición.
for genera un bucle con un iterador
while genera un bucle con una condición de parada
break fuerza la terminación de un bucle
next fuerza el paso a la siguiente iteración de un bucle.

Operadores lógicos

== idéntico
x | y x OR y
x & y x AND y
!x not x
isTRUE(x) comprueba si x es TRUE
is.na(x) comprueba si x es NA

Ejemplos de funciones

Vamos a implementar una función que calcule la media de un vector de números dejando fuera los posibles valores no disponibles NA

MiMedia <- function(V){
  suma=0
  Nvalores=0
  for(i in 1:length((V))){
    if(is.na(V[i])==TRUE) next
    suma=suma+V[i]
    Nvalores=Nvalores+1
  }
  return(suma/Nvalores)
}
V <- c(1.,NA,2.,3.)
MiMedia(V)

## [1] 2

Este mismo resultado se puede obtener llamando a la función mean pero previamente omitiendo los NA del cálculo.

mean(na.omit(V))

## [1] 2

La función na.omit se usa mucho cuando queremos hacer cálculos numéricos en vectores que pueden contener NA.

Vamos ahora a implementar una función para calcular la primera posición en un vector de strings, sV donde se encuentra el string s. Si no se encuentra el string se devuelve NA

FindString <- function(s,sV){
  i=1
  result<-NA
  while(i<=length(sV)){
    if(s==sV[i]){
      result <- i
      break
    }
    i=i+1
  }
  return(result)
}
sV <- c("abc","cde","efg")
FindString("cde",sV)

## [1] 2

FindString("cd",sV)

## [1] NA

Este mismo resultado se puede obtener directamente usando la función which, con la salvedad de que si no encuentra el string devuelve un cero en lugar de NA:

which(sV=="cde")

## [1] 2

which(sV=="cd")

## integer(0)

El ámbito de las funciones

Las funciones en cualquier lenguaje son la base para compartir código y funcionalidades entre programas y usuarios. En un primer nivel las funciones en R se almacenan en ficheros con extensión .R. Por ejemplo nosotros hemos creado el fichero utilidades.R donde hemos implementado algunas funciones que necesitaremos usar. Para usar en mi código las funciones implementadas en utilidades.R pongo antes de usar las funciones la instrucción :

source("utilidades.R")

En un segundo nivel las funciones se empaquetan en librerías que podemos compartir con otros usuarios, habitualmente a través de un repositorio personal usando GitHub o del repositorio CRAN. Hay miles de librerías en R y un problema que surge con cierta frecuencia es que varias librerías que usamos al mismo tiempo tienen funciones que se llaman igual pero hacen cosas distintas. Normalmente, por defecto, la función que usa el código es la de la última librería que se ha cargado, pero a veces, la última que se cargó no es la que nos interesa utilizar en ese momento. Por ejemplo la librería dplyr tiene funciones como filter() o rename() que entran fácilmente en conflicto con funciones llamadas igual creadas por otras librerías. Estos conflictos generan fácilmente errores en la ejecución de los scripts. Cuando esto se produce, lo que hay que hacer es especificar en la llamada a la función la librería que queremos usar. Por ejemplo, cuando llamamos a la función dplyr::filter() estaremos especificando que queremos usar la función filter() de la librería dplyr. De esta forma evitamos estos posibles conflictos. Lo ideal sería en cualquier llamada a una función, especificar la librería usada, pero esto no se suele hacer porque alarga mucho la escritura de código. Pero si queremos publicar nuestro código en el repositorio CRAN nos obligarán a hacerlo para evitar conflictos entre las librerías. Lo normal es cargar las librerías en orden inverso a sus importancia. Por ejemplo tidyverse es muy importante y debe ser de las últimas en cargar.

Cuando nos encontramos conflictos con las funciones, otra forma de arreglarlo es poner un chunk al principio del código donde declaramos explicitamente los paquetes asociados a las funciones que nos han dado algún problema en el pasado:

# asociamos funciones a determinadas librerías para evitar posibles errores 
select <- dplyr::select
mutate <- dplyr::mutate
filter <- dplyr::filter
group_by <- dplyr::group_by
summarise <- dplyr::summarise
selectInput <- shiny::selectInput

Hay tanta gente que trabaja en R que, con frecuencia, nos encontramos que la misma funcionalidad está implementada en varias librerías. Para decidir que librería utilizar podemos combinar dos criterios: el primero es el número de descargas que ha tenido la librería en CRAN y el segundo es si la librería ha sido actualizada recientemente.

La forma más inmediata de obtener ayuda sobre el uso de una función es ejecutar en la consola el comando help(NombreFuncion)

La familia de funciones apply

Supongamos que hemos implementado una función que no está diseñada para trabajar con vectores pero queremos aplicarla a todos los elementos de un vector. Esto se podría hacer con un bucle, pero los bucles en R son muy lentos cuando trabajamos con vectores grandes. La familia de funciones apply están diseñadas justamente para ejecutar de manera rápida y eficiente una función sobre todos los elementos de un vector. Veamos un ejemplo: vamos a implementar la función asignar_grupo_edad() que, a partir de una edad cualquiera asigna un string con el grupo de edad que le corresponde:

asignar_grupo_edad <- function(edad){
  if(edad<26) return("0-25 años")
  if(edad<51) return("25-50 años")
  if(edad<76) return("50-75 años") 
  return("76 años o más")
}

Ahora vamos a aplicar esta función a un vector de edades usando sapply

edades <- c(5,20,40,60,70,90)
sapply(edades,asignar_grupo_edad)

## [1] "0-25 años"     "0-25 años"     "25-50 años"    "50-75 años"   
## [5] "50-75 años"    "76 años o más"

Veamos otro ejemplo: supongamos que tenemos 2 vectores de strings, sV1 y sV2 que queremos comparar usando la función FindString(s,sV). Las funciones sapply y lapply se pueden usar para hacer un bucle aplicando la función FindString(s,sV). La diferencia entre ellas es que lapply devuelve una lista y sapply un vector. Veamos como se aplica sapplypara aplicar, con una sola instrucción, la función FindString(s,sV) a todos los elementos de sV1

sV1 <- c("abc","cde","efg")
sV2 <- c("efg","abc","cde")
sapply(sV1,FindString,sV=sV2)

## abc cde efg 
##   2   3   1

Los parámetros de sapply() son : (1) el vector sV1, (2) la función FindString que actúa sobre los elementos de sV1 y (3) sV=sV2 el segundo argumento de la función FindString.

Las funciones de la familia apply permiten hacer operaciones más complejas que no vamos a estudiar en este curso.

El operador de pila (pipe) `%>%` o `|>`

Algunos paquetes de R tienen implementado el operador de pila (pipe) %>% (también denotado por |>) que permite concatenar las llamadas a funciones de forma más clara y sin necesidad de usar paréntesis anidados. Es decir, si normalmente escribimos la concatenación de funciones como

función2(función1(x)))

usando el operador pipe %>, la misma llamada se escribiría como:

` x %>% función1() %>% función2()`

Como veremos, en muchas ocasiones, esta forma de escribir la llamada a las funciones concatenando la salida de una operación con la entrada de la siguiente, resulta más práctica y natural que la forma habitual que presenta el problema de que lo último que hacemos (la llamada a la última función) es lo primero que tenemos que escribir, es decir, escribimos en el orden opuesto al que vamos haciendo las operaciones. En general, resulta mucho más práctico cuando añadimos, al resultado obtenido, una nueva operación, escribirla al final del todo y no al principio de cuando empiezan a hacerse las operaciones. Haremos un uso intensivo de este operador de pila a partir del siguiente tema.

Referencias

[Bo] Juan Bosco Mendoza. R para principiantes.

[Pe15] Roger D. Peng. R Programming for Data Science, Lulu, 2015.

2 Aspectos básicos de R