Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Nacional Mayor de San Marcos
Abstract
Aborda sobre el diseño e implementación de un Data Lake, en una entidad
del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la
obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La
implementación se realiza en la nube pública de Microsoft Azure. Se emplean recursos como
Azure Databricks, Data Factory, Data Lake Storage Gen2 para el frente de infraestructura. La
lógica de procesamiento se desarrolla en el lenguaje Scala sobre el framework de Apache Spark.
Así mismo, el Unity Catalog de Databricks para la gestión de metadatos y control de acceso.
Como resultado, se obtiene un Data Lake conformado por cuatro capas: LandingLayer,
IngestionLayer, ProcessLayer y FunctionLayer. En cada una de las capas se realiza un
tratamiento específico, de manera secuencial, a la data. Cara al usuario final se dispone de un
modelo de datos, cuya estructura responde a definiciones de gobierno, al cual pueden acceder
mediante los sandbox. En conclusión, se diseña e implementa un Data Lake provisto de
funcionalidades que responden a las necesidades del negocio. El tiempo y esfuerzo de
construcción de workflows de ingesta y procesamiento de datos son de bajo costo. Realizar la
exploración y trazabilidad de los datos es amigable cara al usuario final.
Description
Keywords
Microfinanzas, Datos masivos
Citation
Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM.