Por Àlex Ginés, BI & BA Business Manager
Entrados los 2000, se empezó escuchar la palabra Data Lake y aparecieron las primeras menciones a tecnologías como MapReduce, Hadoop, Spark e incluso Hive, y con todas estas tecnologías aparecen también un montón de palabras ininteligibles para la gente de a pie.
¿Qué tienen de bueno los Data Lake? Los Data Lakes ofrecen una clara ventaja en flexibilidad y capacidad para gestionar datos no estructurados y semi-estructurados. Sin embargo, la contrapartida principal consiste en la organización de estos datos, ya que suelen almacenarse en archivos que pueden resultar difíciles de gestionar.
Y entonces…¿qué es un Data Lakehouse? Es juntar lo mejor de los dos mundos: la potencia para tratar datos de todo tipo junto a las características analíticas habituales de tener un Data Warehouse.
Para desplegar este tipo de soluciones, necesitamos nuevas herramientas y metodologías. Por ejemplo, los llamados Data Lakehouse se suelen estructurar en tres capas llamadas Bronze, Silver y Gold:
- Bronze: datos en estado original y sin procesado
- Silver: datos procesados y limpios, pero de manera básica
- Gold: datos procesados con lógica de negocio aplicada y listos para ser explotados.
Una arquitectura típica para ejemplificar este ecosistema, en este caso dentro de Azure y bajo el paraguas de Microsoft, sería la siguiente:
Cada pieza de esta arquitectura cumple una función importante:
- Azure Data Lake: repositorio dónde residirá nuestro Data Lakehouse
- Azure Data Factory: integrador de datos de los orígenes al Data Lake
- Azure Databricks: motor de procesado de datos y encargado de ejecutar las transformaciones de datos
- Azure Key Vault & DevOps: securización de credenciales y control de código
- Power BI: herramienta de Business Intelligence que nos permitirá analizar los datos de una manera ágil y visual
Al final del día, lo que buscamos son resultados y tomar decisiones en el momento oportuno. Para ello, plataformas como la anterior son excelentes porque se ajustan a nuestras necesidades en tiempo real. La nube juega un papel clave al ser un catalizador de la innovación.
En próximas entradas del blog, os explicaremos más en detalle cómo funciona esta arquitectura y cada una de sus piezas y os daremos consejos para que le saquéis el máximo partido.
Si estás interesado en conocer más sobre las últimas tendencias en análisis de datos o si te gustaría probar la tecnología Data Lakehouse con un caso práctico, no dudes en ponerte en contacto con nosotros