Per Àlex Ginés, BI & BA Business Manager
Entrats els 2000, es va començar escoltar la paraula Data Lake i van aparèixer les primeres mencions a tecnologies com MapReduce, Hadoop, Spark i fins i tot Hive, i amb totes aquestes tecnologies apareixen també un munt de paraules inintel·ligibles per a la gent corrent.
Què tenen de bo els Data Lake? Els Data Lakes ofereixen un clar avantatge en flexibilitat i capacitat per gestionar dades no estructurades i semi-estructurades. Tot i això, la contrapartida principal consisteix en l’organització d’aquestes dades, ja que solen emmagatzemar-se en fitxers que poden resultar difícils de gestionar.
I llavors… què és un Data Lakehouse? És ajuntar el millor dels dos mons: la potència per tractar dades de tota mena juntament amb les característiques analítiques habituals de tenir un Data Warehouse.
Per desplegar aquest tipus de solucions, necessitem noves eines i metodologies. Per exemple, els anomenats Data Lakehouse se solen estructurar en tres capes anomenades Bronze, Silver i Gold:
- Bronze: dades en estat original i sense processament
- Silver: dades processades i netes, però de manera bàsica
- Gold: dades processades amb lògica de negoci aplicada i llestos per ser explotats.
Una arquitectura típica per exemplificar aquest ecosistema, en aquest cas dins d’Azure i sota el paraigua de Microsoft, seria la següent:
Cada peça daquesta arquitectura compleix una funció important:
- Azure Data Lake: repositori on residirà el nostre Data Lakehouse
- Azure Data Factory: integrador de dades dels orígens al Data Lake
- Azure Databricks: motor de processament de dades i encarregat d’executar les transformacions de dades
- Azure Key Vault & DevOps: securització de credencials i control de codi
- Power BI: eina de Business Intelligence que ens permetrà analitzar les dades de manera àgil i visual
Al final del dia, el que busquem són resultats i prendre decisions al moment oportú. Per això, plataformes com l’anterior són excel·lents perquè s’ajusten a les nostres necessitats en temps real. El núvol juga un paper clau en ser un catalitzador de la innovació.
En properes entrades del bloc, us explicarem més detalladament com funciona aquesta arquitectura i cadascuna de les seves peces i us donarem consells perquè li traieu el màxim partit.
Si estàs interessat a conèixer més sobre les darreres tendències en anàlisi de dades o si t’agradaria provar la tecnologia Data Lakehouse amb un cas pràctic, no dubtis a posar-te en contacte amb nosaltres