Introducción
Uno de los grandes retos de hoy es tener la capacidad de transformar los datos en conocimiento útil. Esto rige para todas las áreas del conocimiento, incluidas las ciencias naturales. El creciente ritmo de generación y la abundante disponibilidad de datos, en términos de volumen, velocidad y variedad, obliga a quienes trabajamos en ciencia a disponer de herramientas apropiadas para accederlos, manipularlos, analizarlos y aprovecharlos al máximo. Es pertinente que podamos transformar datos en información, en un primer paso, y en conocimiento, posteriormente. Este libro se basa en el material de un curso sobre el tema en la Universidad de Costa Rica y tiene por objetivo brindar fundamentos teóricos sobre algunas de las principales técnicas que se utilizan en ciencia de datos así como ejemplos del uso de las respectivas implementaciones informáticas. Se espera ampliar la formación de estudiantes y profesionales de las ciencias naturales en el cada vez más importante mundo de la ciencia de datos. Aunque la mayor parte de los ejemplos de uso de herramientas de análisis serán en el entorno de programación R, también se presentan implementaciones análogas en el lenguaje Python.
Instrucciones generales
El presente libro contiene 11 capítulos sobre los fundamentos teóricos y ejercicios prácticos sobre diversas herramientas utilizadas en ciencia de datos, con especial énfasis en su posible aplicación en el campo de la ciencias naturales.
El libro es provisto en una versión en línea como un archivo con formato html que puede ser abierto con cualquier navegador de internet. También se puede conseguir como un archivo en formato pdf o como una versión impresa.
Se ha considerado escribir este libro de la manera más similar a un tutorial de trabajo, de manera que las personas puedan ir leyendo y aprendiendo sobre los fundamentos teóricos de las diferentes técnicas y a la vez ejecutando código de ejemplo.
Es importante aclarar que el libro fue elaborado por un profesional en ciencias naturales y no un experto en computación, por lo que tiene un mayor foco en la perspectiva del usuario, donde además se tomaron y adaptaron ejemplos de una gran cantidad de fuentes.
A continuación algunas instrucciones básicas sobre la dinámica de trabajo:
- Para empezar a correr los ejercicios es necesario abrir en Rstudio un Nuevo Proyecto, elegir una carpeta de trabajo y asignarle un nombre apropiado. Luego, se debe abrir un nuevo R Script o un R Notebook, donde poco a poco iremos copiando, pegando y corriendo el código de cada capítulo.
- A lo largo del libro se estarán utilizando una gran cantidad de paquetes de R. Se asume que la persona tiene un dominio básico de este entorno. Es importante que se utilice el comando
install.packages()
para instalar todos los paquetes nuevos que el usuario no tenga instalados previamente, los cuales posteriormente serán llamados con el comandolibrary()
. - Se presentarán una gran cantidad de ejercicios y ejemplos, sin embargo, se mostrarán las funciones principales de cada programa sin el ánimo de ser excesivamente exhaustivos. Cada quien podrá explorar, de manera individual, otras funcionalidades de los programas según sus intereses particulares.
- Habrá un capítulo particular sobre introducción a la ciencia de datos en el leguaje Python. Este capítulo tendrá otras instrucciones particulares para cargar y correr los ejemplos prácticos, que serán detallados en el apartado correspondiente.
- El idioma de este tutorial es el español latinoamericano, donde tal vez aparezcan algunos modismos de Costa Rica. Se ha tratado de traducir del inglés la mayor cantidad de términos técnicos, sin embargo, es posible que alguna terminología se mantenga en el lenguaje de origen.
¿Cómo citar este libro?
Rojas-Jimenez, K. 2022. Ciencia de Datos para Ciencias Naturales. https://bookdown.org/keilor_rojas/CienciaDatos/