Introducción

Si queremos convertirnos en Data Scientists tenemos que ser muy conscientes que implica ser un profesional multi-disciplinario. Esto es, alguien con una comprensión de estadística, negocios, minería de datos, visualización de datos, machine learning, entre otros.

Cuando hablamos de multidisciplinario hablamos realmente de más de 2 disciplinas:

En este libro resolveremos ejercicios que involucran a varias de estas disciplinas mediante casos prácticos. Para ello utilizaremos el software R. Aprenderás R y data science simultáneamente. Así, tus habilidades para manejar R irán aumentando gradualmente. En cada capítulo se explicará algún caso inspirado en la vida real y luego se comenzará a desarrollar la teoría para poder aplicarla en el caso.

¿Por qué R?

R es un lenguaje de programación creado por estadísticos con el principal objetivo de poder contar con una plataforma enfocada enteramente al análisis de datos. Esta es la principal diferencia con C o Java, los cuales fueron desarrollados por ingenieros de software para el desarrollo de aplicaciones. R hace muy sencillo la exploración de datos, característica indispensable en data science para el éxito en el campo. Sin embargo, hay que tener en cuenta que al no ser creada por ingenieros de software no sigue muchas de las convenciones conocidas en la creación de software. Con un poco de paciencia podremos aprender este lenguaje y apreciar el poder de R para el análisis de datos y visualización.

Instalando R

Puedes descargar R desde la Red Integral de Archivos R (CRAN por sus siglas en inglés).

  1. Busca CRAN en google:

  1. Una vez en la página de CRAN selecciona la versión de tu sistema operativo: Linux, Mac OS X, o Windows:

Aquí se muestran los pasos para Windows, pero los pasos son los mismos para Linux o Mac OS X.

  1. Una vez en la página web de CRAN necesitamos instalar base que incluye todos los paquetes básicos que necesitas para empezar. Luego, en los siguientes capítulos veremos cómo instalar otros capítulos directamente desde R y no desde esta web.

  1. Click en el primer link para obtener la versión más reciente:

Luego, abre el instalador que acabas de descargar para instalar R y dale “siguiente” a todos los mensajes que te aparezcan hasta acabar con la instalación.

Instalando RStudio

Aun cuando ya podrían empezar a utilizar R en modo consola, vamos a instalar RStudio, un entorno de desarrollo integrado (IDE por sus siglas en inglés), el cual nos facilitará el trabajo con R.

  1. Busca RStudio en google:

  1. Deberías de ver la web como aparece líneas abajo. Una vez ahí ve al menú superior derecha y click en DOWNLOAD

  1. Luego ve hasta abajo hasta que encuentres las opciones de descarga. Seleccionemos la opción RStudio Desktop Free.

  1. Les mostrará el botón para descargar según su sistema operativo. También pueden descargar del listado más abajo del botón Download.

Una vez descargado el instalador ábranlo y click en Siguiente en todas las pantallas.

Secciones de RStudio

Cuando inicias RStudio por primera vez verás 3 secciones:

Una de las grandes ventajas de R por sobre softwares de análisis del tipo apuntar-y-clickear es que podemos guardar nuestros trabajos como Scripts.

Para crear un nuevo Script puedes clickear en File, luego New File y luego en R Script.

De esta forma tendremos las 4 secciones, o panes (paneles en inglés) dentro de RStudio:

  • Code editor: El editor de código de Scripts donde podemos guardar nuestros Scripts.
  • R console: La consola de R donde veremos el resultado de la ejecución de nuestros Scripts.
  • Environment/History: Acá veremos principalmente las variables/funciones conforme vayamos creandolas.
  • Other panes: Finalmente una sección con pestañas adicionales. Acá veremos nuestros gráficos creados, por ejemplo.

Testeando RStudio

Para probar que hemos instalado correctamente dirígete a la sección de consola y calcula cuánto es el 13 multiplicado por 265. Click en la sección consola, digita en la consola y luego presiona Enter

Te debería de haber salido como resultado 3445 de la misma forma en que observas líneas arriba. Con la differencia del símbulo ##. Este símbolo en este libro servirá para diferenciar el resultado que arroja nuestros Scripts en R. Así, si no ves el símbolo ## se trata de código R, y lo que esté con ## simula el resultado visto en consola.

También verás antes del número 3445 el número 1 entre corchetes: [1]. Esto es porque cada Script puede arrojar un conjunto de soluciones/resultados Entre corchetes te indica qué número de solución te muestra. En este caso la solución es única, pero más adelante veremos cuando hay más resultados de tu Script.

Puedes obtener el mismo resultado si es que escribes en la sección de Scripts, y no en la consola, eso te permitirá hacer varios cálculos. Por ejemplo, por un lado puedo hacer 28 * 27 y luego puedo calcular una suma 65 + 35

Para ejecutar desde la sección de scripts podemos seleccionar todas las líneas y luego dar click en Run en la parte superior derecha o presionar Ctrl + Enter. Tener en cuenta que el signo # hace que esa línea sea un comentario.

Prueba seleccionando todo el texto, luego seleccionando solo la línea de la suma y click en Run. Verás que solo ejecuta lo que seleccionas.

Ya estás listo(a) para poder empezar a aprender R.