Capítulo 1 Introducción

Las organizaciones de todo tipo, hace mucho tiempo que han reconocido la necesidad de almacenar datos y transformarlos en información. Esta información debe ser administrada, planificada, controlada y tratada como un activo. Este activo debe ser manipulado en forma efectiva y eficiente.

La tarea de las disciplinas de Inteligencia de Negocios (Business Intelligence), Analisis de Datos (data Analytics) y Ciencia de Datos (Data Science) es tomar unos ciertos datos y transformarlos en información para describir, pronosticar y generar conocimiento a partir de ellos. Para finalmente tomar decisiones basados en esos datos.

Sin embargo, para lograr estas metas se deben tener las capacidades de diseñar en forma correcta los datos a capturar para esa generación de conocimiento. ¿Se deben colectar todos los datos?, ¿cómo discriminar aquellos relevantes? ¿cómo muestrear adecuadamante si no dispongo del universo de datos? ¿cuando se debe efectuar métodos de imputación de datos?.

Pirámide de la información.

1.1 Datos

Información concreta sobre hechos, elementos, etc., que permite estudiarlos, analizarlos o conocerlos.

“los datos del censo; el análisis aportó datos de gran interés respecto a la génesis de esta fobia; cada ficha contiene los datos comerciales, fiscales y estadísticos de cada proveedor; estos datos configuran una densidad de población débil, aunque ello no descarta que haya núcleos muy poblados y muchas regiones vacías”

Cifra, letra o palabra que se suministra a la computadora como entrada y la máquina almacena en un determinado formato.

“al introducir palabras o números en una hoja de cálculo, la computadora los procesa y los almacena como datos en código binario”

Es una descripción o imagen relacionados con un hecho, evento, personas, objetos u otras entidades del mundo real. El significado del dato cambia dependiendo dentro del contexto en que se encuentre.

  • Considere el número 25…

  • Ahora… 25 “Kilos”

  • Y ahora… 25 “kilos” de “papas”

  • Finalmente… 25 “kilos” de “papas” en “mercado” de “Concepción”

1.2 Contexto

La búsqueda de datos para la generación de información se da dentro de cierto ámbito dentro de toda organización.

Posición de base de datos dentro de la organización. En este nuevo contexto de alta dependencia de datos (eficientes y de calidad) se crean nuevos perfiles profesionales que suman a los ya tradicionales existentes en décadas pasadas.

1.2.1 Director de Datos (CDO)

El CDO (Chief Data Officer) (Soares 2014) es un nuevo rol dentro de aquellas organizaciones1 con una alta especialización y valoración de los datos. Es un puente entre el área comercial estratégica y el área TI que combina capacidades tecnológicas, estadísticas y gerenciales entre otras:

  • Entiende los datos y las necesidades de la empresa respecto a los datos.
  • Decide qué datos deben almacenarse en la base de datos.
  • Establece políticas para mantener y gestionar los datos almacenados.
  • Gestiona los datos como valor estratégico de la organización.
  • Establece las bases para el aseguramiento de la calidad de los datos.

El conocimiento a cabalidad del área de negocios de la organización es fundamental para este perfil, ya que es quién guía a traves de todo el proceso de generación de información. Define los objetivos para la generación de valor del negocio respecto de la información y hace parte la analítica dentro del objetivo de negocio.

El rol fundamental del CDO se enfoca en sustentar la “visión del negocio” con información.

También dentro de su área de acción se encuentra la gobernanza de los datos y el establecimiento de las políticas de uso de la información. Pasan de un rol de administrador a uno más estratégico e innovador que permite responder a los cambios tecnológicos cambiando sus ambiente de datos en la nuevas áreas de big data, automatización y aprendizaje de máquinas.

El CDO dentro de la gobernanza de datos asesora en la implementación de políticas y coordina tanto lo requisitos como el control de la información sobre los restantes actores.

Roles en el gobierno de datos.
Data owner Data Steward Data Architect Business user

Precisión y exactitud de información propia

Define reglas

Identifica errores

Niveles de calidad propia

Captura, almacena y retiene información

Calidad y disponibilidad

Seguridad

Modelo de datos segun reglas de negocio

Modelo conceptual, lógico y físico

Integridad de información

Repositorio de metadatos

Las areas de un CDO pueden variar segun el tipo de organización2

1.2.2 Director de Sistemas de Información (CIO)

El CIO (Chief information Officer) …

1.2.3 Ingeniero de Datos (Data Engineer)

… El trabajo del ingeniero de datos es “la representación y el movimiento de datos para que sean consumibles y utilizables”, dijo Pope. Si eres un ingeniero de datos, debes tomar los datos sin procesar, limpiarlos, moverlos a una base de datos, etiquetarlos y, en general, asegurarte de que estén listos para la siguiente etapa del proceso Apache Spark, Scala, Docker, Java, Hadoop Podríamos decir que el perfil de ingeniero de datos es el más técnico en el ámbito del Big Data. Los ingenieros de datos se encuentran entre los desarrolladores de aplicaciones y los científicos de datos (Data Scientists). Se encargan de diseñar, construir y gestionar los datos y la infraestructura necesaria para almacenarlos y procesarlos. Construyen la base tecnológica para que los científicos de datos y analistas puedan realizar sus tareas. Por lo tanto, son los responsables de mantener sistemas escalables, con alta disponibilidad y rendimiento, integrando nuevas tecnologías y desarrollando el software necesario. Deben conocer el stack de tecnologías Big Data, entender cómo se integran sus tecnologías y las formas de procesar, transformar y tratar los datos con herramientas de ingesta y ETL. Además, deben saber cómo mover datos hacia y desde el ecosistema Hadoop, implementar y configurar herramientas y bases de datos como Hive o HBase. Entre sus funciones también se encuentra dar apoyo y facilitar el trabajo a analistas y científicos de datos, así como a negocio. Esta es la razón de que las habilidades de comunicación tengan una gran importancia. Conocimientos Básicos Linux Logo Entre los conocimientos básicos debe estar Linux. La mayoría de cargas y despliegues Cloud y Big Data se realizan sobre este sistema operativo. Al menos debes sentirte cómodo usando la terminal para editar ficheros, ejecutar comandos y navegar por el sistema.

Automatización y scripting con algún lenguaje de programación como Python. Este punto incluye la capacidad de interaccionar con APIs y otras fuentes de datos de manera simple y directa.

Por definición, el Big Data suele tener lugar en sistemas distribuidos, que es otro de los conocimientos fundamentales para un buen ingeniero de datos. Estos sistemas tienen numerosas particularidades en torno a la replicación de datos, consistencia, tolerancia a fallos, particionado y concurrencia. En este punto se englobarían tecnologías como HDFS, Hadoop o Spark.

Habilidades Fundamentales Tecnologías y servicios Cloud. La demanda de estas tecnologías no para de crecer, y es que cada vez es más frecuente iniciar proyectos de migración a la nube en las empresas. Un buen ingeniero de datos debe conocer y tener experiencia en el uso de servicios cloud, sus ventajas, desventajas y sus aplicación en proyectos Big Data. Al menos debería estar familiarizado con una plataforma como Azure o AWS ya que son las más extendidas. Además, debe conocer buenas prácticas en cuanto a seguridad de los datos y virtualización. Recuerda que estas tecnologías han venido para quedarse e invertir tiempo en formarse es siempre una buena idea.

Elefante Hadoop Aprender Big Data Los Ingenieros de Datos también deben conocer el funcionamiento y uso de las bases de datos. También las diferencias que existen entre bases de datos relacionales y NoSQL. El lenguaje básico para interactuar con estas bases de datos es SQL, por lo que también debe estar familiarizado con escribir consultas de lectura y manipulación de datos. Además, debe entender la diferencia entre los tipos de bases de datos NoSQL y los casos de uso para cada uno de ellos.

Uno de los roles principales de los ingenieros de datos es crear pipelines de datos con tecnologías ETL y frameworks de orquestación. En esta sección podríamos enumerar muchas tecnologías pero el ingeniero de datos debría conocer o sentirse cómodo con algunas de las más conocidas como puede ser NiFi o Airflow.

1.2.4 Analista de Datos (Data Analyst)

1.2.5 Científico de Datos (Data Scientist)

1.2.6 Administrador de Base de datos (DBA)

El DBA (Data Base Admininistrator) es el profesional informático encargado de la administración de una o varias bases de datos gestionando su uso y funcionamiento. Es responsable por el diseño de la base de datos y la gestión de ella, fijando normas que resguardan tanto la seguridad como la integridad de ellas.

Funciones

  • Crea la base de datos.
  • Implementa los controles necesarios para que se respeten las políticas establecidas por el administrador de datos.
  • Es el responsable de garantizar que el sistema obtenga las prestaciones deseadas. Presta servicios técnicos.
  • Mantener la base de datos disponible y actualizada.
  • Realizar los respaldos de seguridad. Define políticas de seguridad y de respaldo.
  • Disponer del accesos a los datos desde las aplicaciones.
  • Mantener la seguridad de los datos.
  • Diseñar y administrar la estructura de los datos.
  • Monitorear la actividad de los datos.
  • Se asegura de que la comunicación del sistema con la base de datos sea expedita.

Los Administradores de Bases de Datos son responsables del manejo, mantenimiento, desempeño y de la confiabilidad de bases de datos. Asimismo, están a cargo de la mejora y diseño de nuevos modelos de las mismas. Manejar una base de datos implica recolectar, clasificar y resguardar la información de manera organizada, por ello, estos profesionales velan por garantizar que la misma esté debidamente almacenada y segura, además de que sea de fácil acceso cuando sea necesario.

1.2.7 Desarrollador de Base de Datos

Personas como analistas de sistemas y programadores que diseñan nuevos programas de aplicación para los usuarios finales.

Los programadores de sistemas informáticos escriben programas para controlar el funcionamiento interno de los ordenadores, lo que implica diseñar programas que sean eficientes, rápidos y versátiles. Dedican mucho tiempo a probar los programas, y también puede instalar, personalizar y dar soporte a estos sistemas operativos.

El profesional que debiera asumir este rol es:

  • Ingeniero en informática
  • Programador
  • Analista programadorpoiudsaAZ>

1.2.8 Usuario

Personas que utilizan datos de la base de datos para su trabajo cotidiano no necesariamente del área de la informática. Normalmente no utilizan la base de datos directamente, sino aplicaciones creadas para ellos a fin de facilitar la manipulación de los datos. Estos usuarios sólo acceden a ciertos datos.

1.3 Información

Información son datos que han sido organizados o preparados en una forma adecuada para apoyar la toma de decisiones: Por ejemplo una lista de productos y su stock sin ningún orden son datos, pero un lista de productos ordenados por stock (de menor a mayor) representa información para el encargado de compras de un supermercado.

Los datos por si solos no conducen a información.

1.4 Discusión

¿Puede en un momento dado un objeto considerarse como dato y en otro momento como información? ¿Por qué?

¿Es capaz de presentarse a sí mismo sin entregar información sino solo datos?

References

Soares, Sunil. 2014. The Chief Data Officer Handbook for Data Governance. 1st ed. MC Press Online.