Cómo implementar un Data Lakehouse en Azure

Blog ABAST

Cómo implementar un Data Lakehouse en Azure

11 de juny de 2024

Por Àlex Ginés, BI & BA Business Manager

Continuamos la serie iniciada con el artículo “Cómo modernizar tu arquitectura de Business Intelligence con Data Lakehouse”.

En el anterior artículo hablamos de manera general de la arquitectura de datos que podríamos desplegar en Azure para analizar nuestros datos. Y bien, ¿por qué en Azure?

Como cualquier otro proveedor de cloud público, se dispone de servicios escalables para garantizar un rendimiento óptimo e intentar reducir los costes operativos. Pero no solo eso, sino que Microsoft está constantemente introduciendo nuevas características y servicios en Azure para ayudar a las organizaciones a mantenerse al día con las últimas tendencias y tecnologías en análisis de datos.

Es por eso por lo que desde ABAST creemos firmemente en el poder que tiene esta plataforma, no solo para desplegar soluciones IaaS, si no también PaaS, como es el caso que nos ocupa. Y a la vez, nos permite añadir o probar nuevas herramientas que van apareciendo en la plataforma cloud.

En el anterior artículo planteábamos la siguiente arquitectura para construir nuestro ecosistema de datos:

Hoy, vamos a hablar de las piezas que asientan nuestra arquitectura: Azure Data Factory, Azure Key Vault y Azure DevOps.

Azure Data Factory

En el artículo anterior, mencionábamos que Data Factory era el “integrador de datos de los orígenes al Data Lake”. Y esa es su función principal, conectarse a los orígenes de datos, sean del tipo que sean y volcar los datos en nuestro Data Lake. Pero para el caso que nos ocupa, no haremos ningún tipo de transformación ni manipulación, solo guardaremos los datos tal cual fueron creados en origen.

En la imagen a nuestra derecha se puede ver una muestra de los tipos de conectores que ofrece Data Factory de manera nativa. Y, adicionalmente, muchos más:

Oracle
Cualquier tipo de SQL Server
Snowflake
Dynamics
Prácticamente cualquier servicio de Azure
Muchos otros conectores para soluciones SaaS

A continuación, vemos un ejemplo de cómo se vería un flujo de copia de datos en Data Factory. En este caso, en primer lugar, copiamos todas las tablas que tengamos en la base de datos y las guardamos en un Data Lake. A continuación, iniciamos un Notebook de Databricks para realizar algunos trabajos adicionales (los detalles de esto los veremos en próximos artículos)

En ocasiones, Data Factory también puede funcionar como orquestador de datos. Esto es crear toda una serie secuencial o paralela de flujos de datos. Se le puede delegar este trabajo a Data Factory o realizarlo con otras herramientas como Databricks.

Azure Key Vault

Cuando en Data Factory nos conectamos a los orígenes de datos, siempre necesitamos hacerlo con unas credenciales concretas. Por ejemplo, para volcar datos en nuestro Data Lake, Data Factory nos pide siempre un método de autenticación:

Esta autenticación puede realizarse a través de una “Storage account key”, que tendría que ser introducida a mano y cuando se renovara nos quedaríamos sin acceso y esto implicaría que todas las cargas fallarían. O, utilizando el servicio de “Azure Key Vault” que nos permite guardar secretos y contraseñas de manera segura y delegar la autenticación a todo el motor de seguridad embebido dentro de Azure.

Esto funciona dotando de permisos al servicio de Data Factory para que pueda leer los secretos que le pertenecen dentro de nuestro Key Vault.

Key Vault nos proporciona una gestión muy detallada de los permisos, asegurando que nuestras contraseñas y secretos estén siempre protegidos y nunca circulen en texto plano por la organización.

Azure DevOps

Los servicios que utilizaremos de Data Factory y Databricks se sustentan gracias al código que se crea por debajo de la aplicación. Esto quiere decir que todo lo que sea código es susceptible a pasar por un programa de control de versiones. Y en esencia, es lo que permite Azure DevOps, tener todo el control de versionado del código de la manera más cómoda posible gracias a Git:

Se puede realizar toda operación que esperaríamos de una herramienta así: pull requests, merges, commits, blames, etc.

No solo eso, si no que también nos permitiría poder gestionar el desarrollo del proyecto con la parte de organización de proyecto nativa de DevOps:

Y con estas tres piezas cerramos esta entrada. Más adelante profundizaremos en cómo se construye ese Lakehouse con las diferentes capas y su estructura, así como nos explayaremos en el funcionamiento de Azure Databricks y todas sus utilidades asociadas.

Si estás interesado en conocer más sobre las últimas tendencias en análisis de datos o si te gustaría probar la tecnología Data Lakehouse con un caso práctico, no dudes en ponerte en contacto con nosotros a través de nuestro formulario web.

Conoce más sobre nuestra área de Business Intelligence / Analytics

Últims posts publicats al Blog d'ABAST

UiPath Communications Mining: Transformant la Comunicació Empresarial

UiPath Communications Mining ens ajudarà a comprendre i actuar amb rapidesa sobre cada missatge que rebem, per a millorar l'experiència dels nostres clients.

Cómo implementar un Data Lakehouse en Azure

Continuamos la serie iniciada con el artículo “Cómo modernizar tu arquitectura de Business Intelligence con Data Lakehouse”. En el anterior artículo hablamos de manera general…

La Llei Antifrau: Impactes en la Gestió de Comptabilitat i Facturació

La lluita contra el frau fiscal és un tema recurrent a les agendes governamentals de molts països. En aquest context, la Llei Antifrau i el…

Ver todos

Resumen de privacidad

Este sitio web utiliza cookies para mejorar su experiencia mientras navega por el sitio web. Fuera de estas cookies, las cookies que se clasifican como necesarias se almacenan en su navegador, ya que son esenciales para el funcionamiento de las funcionalidades básicas del sitio web. También utilizamos cookies de terceros que nos ayudan a analizar y comprender cómo utiliza este sitio web. Estas cookies se almacenarán en su navegador solo con su consentimiento. También tiene la opción de optar por no recibir estas cookies. Pero la exclusión voluntaria de algunas de estas cookies puede afectar su experiencia de navegación.

Necessàries

Sempre habilitat

Les galetes necessàries són absolutament essencials perquè el lloc web funcioni correctament. Aquesta categoria només inclou galetes que garanteixen funcionalitats bàsiques i característiques de seguretat del lloc web. Aquestes cookies no emmagatzemen cap informació personal.

Cookie	Duració	Descripció
_GRECAPTCHA	179 días	Google estableix aquesta galeta. A més de certes galetes estàndard de Google, reCAPTCHA estableix una galeta necessària (_GRECAPTCHA) quan s'executa amb la finalitat de proporcionar la seva anàlisi de risc.
_icl_current_language	23 hours 59 minutes	Aquesta galeta és emmagatzemada pel complement WPML WordPress. El propòsit de la galeta és emmagatzemar l'idioma actual.
_icl_visitor_lang_js	1 days 23 hours 59 minutes	Aquesta galeta és emmagatzemada pel complement WPML WordPress. El propòsit de la galeta és emmagatzemar l'idioma redirigit.
AWSALB	6 days 23 hours 59 minutes	AWSALB és una galeta generada pel equilibrador de càrrega de l'aplicació en els serveis web d'Amazon. Funciona de forma lleugerament diferent a AWSELB.
AWSALBCORS	6 days 23 hours 59 minutes	AWSALB és una galeta generada pel equilibrador de càrrega de l'aplicació en els serveis web d'Amazon. Funciona de forma lleugerament diferent a AWSELB.
cookielawinfo-checkbox-necessary	11 months	Aquesta galeta està configurada pel complement de consentiment de cookies de GDPR. Les galetes s'utilitzen per emmagatzemar el consentiment de l'usuari per a les galetes en la categoria "Necessàries".
cookielawinfo-checkbox-non-necessary	11 months	Aquesta galeta està configurada pel complement de consentiment de cookies de GDPR. Les galetes s'utilitzen per emmagatzemar el consentiment de l'usuari per a les galetes en la categoria "No necessàries".
interdigital_last_visit	1 any	Cookie pròpia funcional, que guarda l'última visita d'l'usuari que no ha acceptat les galetes no necessàries
JSESSIONID	de sesión	Utilitzat per llocs escrits en JSP. Galetes de sessió de plataforma de propòsit general que s'utilitzen per mantenir l'estat dels usuaris en les sol·licituds de pàgina.
viewed_cookie_policy	11 months	La galeta està configurada pel complement de consentiment de cookies de GDPR i s'utilitza per emmagatzemar si l'usuari ha donat el seu consentiment o no per a l'ús de cookies. No emmagatzema cap dada personal.
wpml_browser_redirect_test	de sesión	Esta cookie está configurada por el complemento WPML WordPress y se utiliza para probar si las cookies están habilitadas en el navegador.

No necessàries

Les cookies que poden no ser particularment necessàries perquè el lloc web funcioni i s'utilitzen específicament per recopilar dades personals de l'usuari a través d'anàlisi, anuncis i altres continguts incrustats s'anomenen galetes no necessàries. És obligatori obtenir el consentiment de l'usuari abans d'executar aquestes cookies al seu lloc web.

Cookie	Duració	Descripció
__tad	9 years 11 months 27 days 23 hours 59 minutes	Aquesta galeta és establerta pel proveïdor de contingut de Cnet. La galeta permet al visitant veure el contingut relacionat amb els productes.
_abck	11 months 29 days 23 hours 59 minutes	Aquesta galeta és necessària per a la funció de memòria cau d'Akamai. El lloc web utilitza un cau per optimitzar el temps de resposta entre el visitant i el lloc web. El cau generalment s'emmagatzema en el navegador d'al visitant. Els resultats de l'ample de banda dels usuaris s'emmagatzemen dins d'aquesta galeta per ajudar a garantir que la prova d'ample de banda no es repeteixi per al mateix usuari repetidament per a la funcionalitat de memòria cau d'Akamai. lidad de caché de Akamai.
_ga	2 años	Cookie gestionada per Google Analytics, s'utilitza per calcular les dades de visitants, sessions, campanyes i fer un seguiment de l'ús de el lloc per a l'informe d'anàlisi de el lloc. Les cookies emmagatzemen informació de forma anònima i assignen un nombre generat aleatori per identificar visitants únics.
_gat_UA-203232-1	de sesión	Cookie gestionada per Google Analytics, s'utilitza per limitar la quantitat de dades registrades per Google en llocs web d'alt volum de trànsit.
_gcl_au	3 meses	Cookie de tercers gestionada per Google Adsense, s'utilitza per experimentar amb l'eficiència publicitària a través de les webs usant els seus serveis.
_gid	1 día	Cookie gestionada per Google Analytics, s'utilitza per emmagatzemar informació sobre com els visitants fan servir un lloc web i ajuda a crear un informe analític de com està funcionant el lloc web. Les dades recopilades, inclòs el nombre de visitants, la font d'on provenen i les pàgines, es mostren de forma anònima.
1P_JAR	15 días	Cookie que transfereix dades a Google per fer la publicitat més atractiva.
ak_bmsc	1 hours 59 minutes	Akamai utilitza aquesta galeta per optimitzar la seguretat de el lloc a l'distingir entre humans i brossa
bm_mi	de sesión	Aquesta galeta és necessària per a la funció de memòria cau d'Akamai. El lloc web utilitza un cau per optimitzar el temps de resposta entre el visitant i el lloc web. El cau generalment s'emmagatzema en el navegador d'al visitant. Els resultats de l'ample de banda dels usuaris s'emmagatzemen dins d'aquesta galeta per ajudar a garantir que la prova d'ample de banda no es repeteixi per al mateix usuari repetidament per a la funcionalitat de memòria cau d'Akamai.
bm_sz	3 hours 59 minutes	Aquesta galeta és necessària per a la funció de memòria cau d'Akamai. El lloc web utilitza un cau per optimitzar el temps de resposta entre el visitant i el lloc web. El cau generalment s'emmagatzema en el navegador d'al visitant. Els resultats de l'ample de banda dels usuaris s'emmagatzemen dins d'aquesta galeta per ajudar a garantir que la prova d'ample de banda no es repeteixi per al mateix usuari repetidament per a la funcionalitat de memòria cau d'Akamai.
cke46235	4 years 11 months 29 days 23 hours 59 minutes	No description
cli_user_preference	de sesión	Cookie gestionada pel complement de consentiment de cookies de GDPR, s'utilitza per registrar si l'usuari ha consentit o no l'ús de cookies. No emmagatzema cap dada personal.
GPS	29 minutes	Aquesta galeta és establerta per Youtube i registra una identificació única per rastrejar als usuaris en funció de la seva ubicació geogràfica.
IDE	1 years 23 days 23 hours 59 minutes	Utilitzat per Google DoubleClick i emmagatzema informació sobre com l'usuari utilitza el lloc web i qualsevol altre anunci abans de visitar el lloc web. S'utilitza per presentar als usuaris anuncis que són rellevants per a ells d'acord amb el perfil de l'usuari.
Murloc1E7F499A22BCB76895D3CFC1457841158C13EBD14AE0BB07A4D5EF203CBB3636	23 hours 59 minutes	No description
Murloc723601D66500E59EAFB5DA564D9EDAA8CCCA08083202D9F03D3337E2E060F39A	23 hours 59 minutes	No description
Murloc96EC2C7E0763D4B77B331D042ED23A0AEE9E9649B853D8FB3A6C96912E608487	23 hours 59 minutes	No description
MurlocBA924E8D84880532A8CAC14F070B41719FEFC3E86213E634EEBA66EA72E5D54C	23 hours 59 minutes	No description
NID	6 meses	Cookie gestionada per Google, conté un ID únic que Google utilitza per recordar preferències i altra informació com l'idioma preferit i així crear un perfil en funció de l'interès de l'usuari.
obtga_paso	de sesión	Creada per guardar preferències sobre ús de cookies analítiques de google. Guarda un «Yes» o «No» per saber si has donat permís per guardar i fer servir altres galetes o no vols fer-ho.
SiteMapId	de sesión	No description
SWLOCALE	29 years 11 months 22 days 23 hours 59 minutes	Preferència de configuració regional seleccionada pel visitant.
SWSESSIONID	de sesión	ID visitante en preferencia de configuración regional.
t_rnd2	30 days 23 hours 59 minutes	Aquesta galeta és establerta pel proveïdor de contingut de Cnet. La galeta permet al visitant veure el contingut relacionat amb els productes.
t_sid	de sesión	Aquesta galeta és establerta pel proveïdor de contingut de Cnet. La galeta permet al visitant veure el contingut relacionat amb els productes.
test_cookie	11 months	Cookie de tercers gestionada per DoubleClick de Google, s'utilitza per verificar si el navegador d'el visitant accepta cookies.
VISITOR_INFO1_LIVE	5 months 26 days 23 hours 59 minutes	Youtube estableix aquesta galeta. S'utilitza per rastrejar la informació dels vídeos de YouTube incrustats en un lloc web.
YSC	de sesión	Aquestes cookies són establertes per Youtube i s'utilitzen per rastrejar les vistes de vídeos incrustats.

Cómo implementar un Data Lakehouse en Azure

Blog ABAST

Cómo implementar un Data Lakehouse en Azure

11 de juny de 2024

Por Àlex Ginés, BI & BA Business Manager

Azure Data Factory

Azure Key Vault

Azure DevOps

Últims posts publicats al Blog d'ABAST

UiPath Communications Mining: Transformant la Comunicació Empresarial

Cómo implementar un Data Lakehouse en Azure

La Llei Antifrau: Impactes en la Gestió de Comptabilitat i Facturació

Seguir creixent junts

No has trobat el que cercaves? Fes servir el cercador.

Contacta amb nosaltres:

FORMULARI DE CONTACTE

Abast

Solucions i Serveis

Recursos

Legal

Cómo implementar un Data Lakehouse en Azure

Blog ABAST

Cómo implementar un Data Lakehouse en Azure

11 de juny de 2024

Por Àlex Ginés, BI & BA Business Manager

Azure Data Factory

Azure Key Vault

Azure DevOps

Últims posts publicats al Blog d'ABAST

UiPath Communications Mining: Transformant la Comunicació Empresarial

Cómo implementar un Data Lakehouse en Azure

La Llei Antifrau: Impactes en la Gestió de Comptabilitat i Facturació

Seguir creixent junts

No has trobat el que cercaves? Fes servir el cercador.

Contacta amb nosaltres:

FORMULARI DE CONTACTE

Abast

Solucions i Serveis

Recursos

Legal

Please Login

Registration

Forgotten Password?