5 Conclusiones
Hablemos sobre el capítulo 1, podemos concluir que la importancia de los data frame en el entorno de R es crucial porque va más allá de ser simplemente una estructura de datos. Estos componentes representan una pieza central en el análisis de datos y la programación estadística, ofreciendo una forma organizada y flexible de trabajar con información.
La estructura tabular de los dataframes, que organiza los datos en filas y columnas, proporciona una representación intuitiva que refleja la organización común de los conjuntos de datos en la realidad. Esta disposición facilita la visualización y comprensión de los datos, contribuyendo a una experiencia analítica más intuitiva. Esto lo podemos ver evidencia en el primer capítulo de este trabajo de investigación.
Ahora sobre el capítulo 2, gracias a este capítulo poder entender la relevancia que tiene el manejo correcto y el dominio sobre los datos missing y outliers. Con respecto a los datos missing es esencial para mantener la integridad y la confiabilidad de nuestros análisis. La presencia de valores faltantes puede afectar negativamente la precisión de nuestros resultados, introduciendo sesgos y distorsionando las conclusiones que extraemos de los datos. Al ignorar o tratar de manera insuficiente los datos missing, corremos el riesgo de obtener interpretaciones incorrectas o sesgadas. Por lo tanto, la identificación y gestión adecuada de estos valores faltantes son pasos críticos en cualquier análisis de datos. Existen diversas estrategias para abordar datos missing tanto para su identificación como su manejo que se vieron en este trabajo investigativo.
Sobre los datos outliers debemos tener en cuenta que la identificación y gestión de datos atípicos son pasos críticos para garantizar la integridad y la fiabilidad de cualquier análisis de datos. Los outliers, al ser valores que se apartan significativamente del patrón general de los datos, tienen el potencial de distorsionar estadísticas descriptivas, sesgar modelos predictivos y afectar la validez de las conclusiones extraídas. El reconocimiento temprano de la presencia de outliers es esencial para abordarlos de manera efectiva y dentro de este trabajo investigativo se abordo como identificar, eliminar y majenar los datos outliers.
El tercer capítulo trata sobre la visualización de datos. Dentro de este capítulo se dividieron los gráficos en cuatro categorías, visualización de datos univariados, visualización de datos bivariados, visualización de datos bivariados multivariados y visualización de datos avanzados (imágenes). En general se elaboraron una cantidad de gráficos considerable y se puede concluir que, la visualización de datos en R no es simplemente una herramienta para que se vean mejor los datos; es un componente esencial en el análisis exploratorio, en la presentación de resultados y en visualizar datos complejos. La capacidad de representar gráficamente información compleja facilita la comprensión de patrones, tendencias y relaciones en los datos.
Del capítulo 4 podemos finalizar diciendo que en R, la manipulación de datos no estructurados se beneficia de la flexibilidad y la variedad de paquetes disponibles. Desde la lectura inicial hasta el análisis exploratorio, podemos concluir que R ofrece herramientas poderosas para extraer información valiosa de datos no estructurados, proporcionando así una plataforma versátil para científicos de datos y analistas.