Disponibilidad, fragmentación y heterogeneidad del dato

El primer punto a abordar en cualquier proyecto big data es revisar nuestras fuentes de datos, ya sean propios o de proveedores externos es importante conocer la naturaleza, granularidad y volumen del dato. En este punto del proceso el ingeniero de datos es el que debe hacer las preguntas adecuadas que consoliden la hipótesis que sustenta el proyecto para identificar los datos que necesitamos y cómo los necesitamos.

Modelado unificado de datos

Los datos son la unidad mínima de información y mediante su análisis podemos extraer información muy relevante para la toma de decisiones. Debemos tener en cuenta dos aspectos para poder modelar los datos de forma estructurada:

·       Análisis cualitativo o cuantitativo generado por la interacción humana, ya sea en el registro o en el momento de validación del dato. Este aspecto implica una fuente de valores incorrectos o inconexos derivados de su propia naturaleza y que dificultan el tratamiento posterior.

·       Inexistencia de criterios universales para alinear la granularidad del dato, ya que la información puede representarse de muchas maneras y no tener un criterio único o universal dispersa la información.

En este punto, nuevamente recurrimos a la figura del ingeniero de datos, que se encarga de poner orden en el caos de los datos, para unificarlos, categorizarlos y prepararlos para los algoritmos de Inteligencia Artificial puedan tratarlos.

Funciones del ingeniero de datos

La captura de grandes volúmenes de datos, tanto internos, como extornos y su procesamiento para unificarlos y depurarlos es el eje de cualquier proyecto big data. Este proceso ocupa gran parte del tiempo destinado al proyecto y es fundamental para garantizar el éxito. Destacamos las siguientes funciones de Ingeniero de Datos:

·       Garantizar la calidad de las conclusiones extraídas ante la mutabilidad del dato en el origen.

·       Aprovisionamiento constante de datos al Data Lake a través de la elaboración de procesos productivos.

·       Diseño y desarrollo del software de tratamiento de datos, así como evolutivos y/o correctivos.

·       Diseño e implementación de API´s que permitan explotar los insights obtenidos tras el procesamiento de datos.