W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.Transient Loading Zone Jest to pierwsza warstwa do której trafiają dane do naszego Data Lake-a. Mogą to być np.: pliki, logi, dane z baz, hurtowni, wyniki procesów ETL, stream-y i wyniki zapytań jakiegoś API. Warstwa ta odpowiada za kontrole jakości. Nikt nie chce śmieci w swojej bazie. Wadliwe dane lepiej odrzucić, jednostki sprowadzić do metrycznych (lub odwrotnie) i tak dal...
Architektura 1858 dni, 20 godzin temu 111 źrodło rozwiń