2  Introducción a R

El uso de este compendio requiere la instalación de R y RStudio. Todos los ejercicios planteados aquí están pensados para resueltos con R dentro de la interfaz del IDE RStudio.

2.1 ¿Qué es R?

R es un lenguaje y un entorno de de programación creado especialmente para el computo estadístico orientado a objetos. R es una derivación del lenguaje S que fue desarrollado en Bell Laboratories (antes AT&T) por John Chambers y sus colegas. Sin embargo, R se distribuye bajo una licencia GNU (General Public License) por lo que puede utilizarse sin costo (Hui 2019).

R es un lenguaje estadístico extremadamente poderoso ya provee una amplia variedad de técnicas estadísticas entre las que se incluyen: modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series de tiempo, clasificación, agrupamiento. Además, R se utiliza ampliamente para la creación de gráficos. Puede ver algunos ejemplos de gráficos creados en R aquí (R Core Team 2016). Por si esto no fuera poco, en R podemos hacer presentaciones, reportes, libros (como este compendio), análisis bioiformáticos, análisis genómicos, Machine learning, Dashboards, entre otras cosas.(2023) ¿Hay algo que R no pueda hacer?

Puede encontrar algunos ejemplos de lo que se puede hacer en R aquí y algunos ejemplos de libros

2.2 ¿Por que usar R?

Existen múltiple razones para utilizar R, se enlistan algunas de las más importantes:

  1. R se distribuye de forma gratuita. R es un lenguaje gratuito, se puede instalar, usas, actualizar, clonar y modificar libremente. R es gratis para todos, se puede instalar en distribuciones de Linux, MacOS y Windows.

  2. Actualizaciones continuas. Comparado con otros paquetes estadísticos R se actualiza con mayor frecuencia. Además, la mayoría de los paquetes estadísticos solo brindan “soporte” para las más recientes. En la mayoría de las ocasiones se debe pagar cada cierto tiempo.

  3. R es un lenguaje muy utilizado. En el contexto académico R se está convirtiendo en un estándar. R se utiliza cada vez con más frecuencia en la mayoría de las universidades y en la mayoría de las investigaciones. En PUBMED utilizando los términos de búsqueda (r software) OR (r project) podemos observar un crecimiento importante de los artículos indexados en está base de datos. La cantidad de artículos publicados en PUBMED pasaros de 3,846 en 2018 a 11,504 en 2022. En cambio, con estos mismos términos de búsqueda en Google Scholar podemos encontrar cerca de 68,100 publicaciones para el año 2022.

  4. R es un lenguaje con excelente soporte. A pesar de ser un lenguaje gratuito, R cuenta con una comunidad académica encargada del desarrollo, de crear tutoriales y resolver dudas. Resolver cualquier duda de R es muy sencillo. Solo basta con realizar un búsqueda en internet. Algunos de los foros más importantes para la resolución se pueden encontrar en StackOverflow (SO) o R-bloggers.

  5. R es un lenguaje poderoso. Utilizando R se pueden hacer todo tipo de análisis estadísticos y gráficos. Desde estadística descriptiva e inferencial, hasta regresiones, series de tiempo, ciencia de datos, análisis de clusters, genómica, análisis de citometría, análisis bioinformáticos etc. Y no solo eso, utilizando el paquete adecuado, se pueden generar informes, presentaciones, un libro o un compendio. Algunos ejemplos

2.3 Instalación de R

R está disponible para la mayoría de los sistemas operativos, se puede descargar para Linux, Windows y MacOS. Para descargar R por primera vez diríjase a: https://www.r-project.org. A continuación de clic en el apartado de descarga (download R) y seleccione cualquiera de los repositorios del CRAN que ahí se enlistan. El CRAN es el The Comprehensive R Archive Network, una red en la que se archivan todas las versiones de R base, así como todos los paquetes para R que han pasado por un proceso de revisión riguroso, realizado por el CRAN Team, que se encarga de asegurar su correcto funcionamiento. Aunque la instalación de R en cualquiera de los sistemas operativos es sencilla e intuitiva se describen alguna peculiaridades a continuación.

2.3.1 Instalar R en Windows

Para utilizar R en Windows solo basta con descargar la versión más reciente del CRAN. El archivo que se de descargará será un un archivo .exe. En la medida de lo posible trate de instalar la versión más reciente de R. A la fecha de escritura de este compendio, 4.1.2. la versión más reciente es la. Por otro lado, si se pregunta que versión instalar de 32 o 64 bits. Actualmente, la mayoría de los equipos de computo tienen un procesador de 64 bits. Si usted está utilizando Windows 10 o Windows 11, es casi un hecho de que su procesador es de 64 bits. El siguiente enlace debería descargar la versión más reciente de R para Windows. Una vez descargado, siga los pasos del asistente de instalación. De momento, instale la configuración predefinida.

2.3.2 Instalar R en MacOS

En el caso de MacOS el procedimiento es muy similar a Windows, sin embargo en este caso descargamos un archivo binario. Actualmente existen dos versiones de R para MacOS: Una para arquitectura x86 para computadoras con procesador de Intel y otra para arquitecturas ARM para computadoras con Chip M1 o más actual. Si usted cuenta con una computadora con arquitectura ARM puede ejecutar cualquiera de las versiones, pero es altamente recomendable utilizar la versión que corresponde, para correr R de forma nativa. Si su computadora utiliza procesadores con arquitectura x86 descargue R aquí. En cambio si su computadora posee un procesador con arquitectura ARM descargue R aquí. Una vez descargado, siga los pasos del asistente de instalación. De momento, instale la configuración predefinida.

2.3.3 Instalar R en Linux

En Linux usted puede descargar R desde el CRAN para la algunas de las distribuciones de Linux. Se encuentran archivos para Debian, Fedora, Redhat, Suse y Ubuntu. Sin embargo, R se puede instalar para la mayoría de las distribuciones desde consola. Si usted, utiliza Linux no deberá tener problema para instalar R, es el menor de sus problemas.

2.4 RStudio

RStudio es un entorno de desarrollo integrado (IDE) para R. Incluye una consola, un editor de resaltado de sintaxis que admite la ejecución directa de código, así como herramientas para el trazado, el historial, la depuración y la gestión del espacio de trabajo(2021).

Utilizar un IDE puede facilitar mucho su trabajo y la creación de código. Un IDE ayuda a que la programación sea mucho más fácil y productiva. Entre otras cosas, la sintaxis de su código se resalta con distintos colores lo que facilita su lectura y escritura. Puede previsualizar los colores de sus gráficos. Además RStudio, puede completar su código de forma mucho más intuitiva y sin necesidad de memorizar todas las funciones que utiliza. Una comparación de la consola de R y RStudio utilizando el mismo código se muestra en las Figura 2.1 y Figura 2.2.

Código utilizando la consola de R
Figura 2.1: Código utilizando la consola de R
Código utilizando la consola de R
Figura 2.2: Código utilizando la consola de R pero en RStudio

Actualmente RStudio pertenece a la compañía Posit. Aunque existen versiones de pago, si el uso que le damos a RStudio es académico podemos utilizar la versión gratuita de este IDE. Puede instalar RStudio según su sistema operativo desde aquí. La instalación es sencilla, solo siga las instrucciones. El único requisito que necesita es tener R instalado.

2.5 Estructura de RStudio

En la resolución de estos ejercicios y en los restantes del compendio trabajaremos directamente en RStudio y no en la consola de R. Cuando usted abre por primera vez Rstudio estará observando algo muy similar a lo mostrado en el figura Figura 2.3.

Código utilizando la consola de R
Figura 2.3: Visualización de RStudio primera apertura

En el apartado B de la figura Figura 2.3 se encuentra la consola de R que corresponde al entorno computacional de este lenguaje (donde se interpretan las ordenes). En la consola podemos escribir código, se realizará la interpretación y nos dará un resultado.

En el apartado C se encuentra entre otras cosas el ambiente de trabajo. Es aquí donde se irán mostrando los objetos, data frame, listas ect. que vayamos creando. En este apartado, otra de las pestañas también podrá encontrar el historial de nuestro código. Finalmente, en el apartado D, se muestran los archivos que tenemos en nuestra computadora para poder acceder a ellos. Otras pestañas muestran la previsualización de los gráficos que se crean en R (Plots), el listado de los paquetes (Packages), la ayuda de la funciones y paquetes (Help) y un visulizador htlm (Viewer).

Una de las ventajas de utilizar un IDE (RStudio) es que podemos utilizar scripts para correr nuestro código. Un script, es un archivo de texto en el que podemos crear nuestro código para que después sea interpretado por la consola de R. Los scripts tienen la extensión .R por ejemplo mi_primer_script.R. En la figura Figura 2.4 se muestra como crear un script.

Figura 2.4: Creación de un Script en RStudio

Ahora su RStudio lucirá como lo muestra la figura . En el que el apartado A se incluye los Scripts. Esta es la versión con la que trabajaremos en el resto de este compendio. El resto de los apartados es igual a lo descrito en la figura Figura 2.3).

Figura 2.5: Visualización de RStudio con cuatro apartados

En el siguiente capitulo realizaremos algunos ejercicios que nos permitirán comprender algunos fundamentos básicos de R.