Właściwe zastosowanie Business Intelligence (BI) oraz wdrożenie hurtowni danych umożliwia drążenie danych organizacji i wyciąganie z nich wniosków służących do uzyskania przewagi konkurencyjnej na rynku. Pierwszym krokiem do osiągnięcia efektywnego BI jest dobrze zaprojektowana hurtownia danych. Projektowanie hurtowni danych to proces budowania rozwiązania do integracji danych z wielu źródeł, które obsługują raportowanie analityczne oraz analizę danych. Źle zaprojektowana hurtownia danych naraża na ryzyko podejmowanie decyzji strategicznych w oparciu o błędne wnioski.

W danym artykule przyjrzymy się na wysokim poziomie procesowi projektowania hurtowni danych, rozpoczynając od gromadzenia wymagań aż do samego wdrożenia. Również artykuł pomoże nie popełnić kluczowych błędów związanych z wdrożeniem hurtowni danych. Wdrożenie hurtowni danych wymaga odpowiedniego podejścia, wiedzy oraz planowania.

Zbieranie wymagań i planowanie projektu Business Intelligence

Zbieranie wymagań to pierwszy etap procesu projektowania hurtowni danych. Celem fazy jest określenie kryteriów pomyślnej implementacji hurtowni danych. Należy określić wymagania dotyczące analizy i raportowania, a także sprzęt, oprogramowanie, testowanie, wdrażanie i szkolenie użytkowników. Długofalowa strategia biznesowa organizacji powinna być równie ważna, jak obecne wymagania biznesowe oraz techniczne.

Po zdefiniowaniu strategii biznesowej i technicznej kolejnym krokiem jest określenie sposobu, w jaki organizacja będzie backupować hurtownię danych i jak odzyskiwać system w przypadku awarii. Opracowanie planu odzyskiwania po awaryjnego przy jednoczesnym gromadzeniu wymagań zapewnia gotowość organizacji do szybkiego reagowania na bezpośrednie i pośrednie zagrożenia utraty danych.

Określenie środowiska fizycznego do wdrożenia hurtowni danych

Kolejnym krokiem jest określenie fizycznego środowiska hurtowni danych. Co najmniej powinny istnieć oddzielne serwery aplikacji fizycznych i baz danych, a także oddzielne procesy ETL/ELT, OLAP i raporty skonfigurowane do rozwoju, testowania i produkcji. Budując oddzielne środowiska fizyczne, musimy upewnić się, że wszystkie zmiany można przetestować przed przeniesieniem ich na produkcję. Rozwój i testowanie powinno odbywać się bez zatrzymywania środowiska produkcyjnego, a jeśli integralność danych stanie się podejrzana, personel IT może zbadać problem bez negatywnego wpływu na środowisko produkcyjne.

Modelowanie danych

Po zdefiniowaniu wymagań i środowisk fizycznych, następnym krokiem jest określenie, w jaki sposób struktury danych będą dostępne, połączone, przetwarzane i przechowywane w hurtowni danych. Ten proces jest znany jako modelowanie danych. Podczas tej fazy projektowania hurtowni danych określa się źródła danych. Określenie źròdła danych i co równie ważne, dostępność tych danych ma kluczowe znaczenie dla powodzenia projektu. Po zidentyfikowaniu źródeł danych zespół hurtowni danych może rozpocząć budowanie logicznych i fizycznych struktur w oparciu o ustalone wymagania.

ETL w projekcie wdrożenie Hurtowni Danych

Celem ETL (Extract, Transform and Load) jest zapewnienie zoptymalizowanych procesów ładowania danych bez utraty jakości danych. Przy wdrożeniu Hurtowni Danych proces ETL zabiera najwięcej czasu i zużywa najwięcej czasu podczas implementacji. Identyfikacja źródeł danych podczas fazy modelowania danych może pomóc w zmniejszeniu czasu rozwoju ETL. Niepowodzenie na tym etapie procesu może prowadzić do niskiej wydajności procesu ETL i całego systemu hurtowni danych.

Projektowanie kostek OLAP

On-Line Analytical Processing (OLAP) to silnik, który zapewnia infrastrukturę dla zapytań ad-hoc i analiz wielowymiarowych. Wymagania dotyczące wymiarów i miar kostek OLAP muszą zostać określone na początku procesu projektowania hurtowni danych.

Poniżej są opisane trzy kluczowe elementy projektowania OLAP to:

  • Miary grupowania — wartości liczbowe, które chcemy analizować (takie jak: przychody, liczba klientów, liczba produktów zakupionych przez klientów lub średnia kwota zakupu).

  • Wymiary — uzupełniają i rozszerzają analizę miar do obszaròw takich jak region geograficzny, miesiąc lub kwartał.

  • Granulacja danych — najniższy poziom szczegółowości, który chcemy uwzględnić w zestawieniu danych OLAP.

Podczas developmentu trzeba upewnić się, że procesowanie kostki OLAP jest zoptymalizowane. Po aktualizacji hurtowni danych szybko powinna nastąpić aktualizacja kostek OLAP. Niezaktualizowanie żadnej z nich w odpowiednim czasie może spowodować obniżenie wydajności systemu. Poświęcenie czasu na zbadanie najbardziej wydajnej ścieżki generowania kostki OLAP może zmniejszyć lub usunąć problemy związane z wydajnością wydajnością po wdrożeniu hurtowni danych.

Development Front-End

Po zdefiniowaniu wymagań biznesowych, postawieniu środowisk fizycznych, zamodelowaniu danych oraz zaprojektowaniu procesów ETL następuje kolejny krok związany z wyborem sposobu i formy udostępniania danych zawartych w hurtowni danych. Wybór odpowiedniego front endu ma zapewnić sposób w jaki użytkownicy będą uzyskiwać dostęp do danych w celu analizy ad hoc, raportów predefiniowanych oraz dashboardów. Dostępne są różne opcje, w tym budowa części front-end in house własnymi siłami lub zakup produktu off-shelf.

Tak czy inaczej, należy pamiętać o wymaganiach ze strony użytkowników biznesowych aby zapewnić najlepszą jakość udostępnionych danych.Najważniejszym elementem całego procesu jest bezpieczny dostęp do danych z dowolnego urządzenia — komputera stacjonarnego, laptopa, tabletu lub telefonu. Narzędzie powinno umożliwić zespołowi programistów modyfikację struktury back endu w przypadku zmiany wymagań raportowania na poziomie przedsiębiorstwa. Powinno również zapewniać graficzny interfejs użytkownika (GUI), który umożliwia użytkownikom dostosowanie raportów. Silnik OLAP i hurtownia danych mogą być najlepsze w swojej klasie, ale jeśli użytkownicy nie będą w stanie korzystać efektywnie z danych, hurtownia danych staje się drogim i bezużytecznym repozytorium danych.

Development raportów

Większości użytkowników końcowych zazwyczaj korzysta z hurtowni danych wyłącznie w celu generowania raportów bądź dashboardów. Jak wspomniano w sekcji front-end development — umiejętność szybkiego i efektywnego wybierania kryteriów raportu jest istotną cechą generowania ich z hurtowni danych. Opcje dystrybucji są kolejnym ważnym czynnikiem. Oprócz otrzymywania raportów za pośrednictwem bezpiecznego interfejsu internetowego użytkownicy mogą potrzebować raportów wysłanych jako załącznik e-mail lub jako arkusz kalkulacyjny. Kontrolowanie przepływu i widoczności danych to kolejny aspekt opracowywania systemu raportującego. Rozwijanie grup użytkowników z dostępem do określonych segmentów danych powinno zapewniać bezpieczeństwo i kontrolę danych. Dobrze zaprojektowana hurtownia danych powinna być w stanie obsłużyć nowe żądania związana z raportowaniem i analizami ad hoc.

Tuning wydajności

W pierwszej części artykułu zalecano tworzenie osobnych środowisk programistycznych i testowych. Dzięki temu organizacje mogą zapewnić polepszenie wydajności systemu przy użyciu ETL, przetwarzanie zapytań i dostarczanie raportów bez przerywania pracy bieżącego środowiska produkcyjnego. Trzeba upewnić się, że środowiska programistyczne i testowe, sprzęt i aplikacje naśladują środowisko produkcyjne — dzięki czemu opracowane w fazie rozwoju ulepszenia wydajności będą działały na środowisku produkcyjnym bardziej wydajnie.

Testowanie

Po opracowaniu systemu hurtowni danych zgodnie z wymaganiami biznesowymi, następuje czas na przetestowanie go. Testowanie lub zapewnienie jakości jest krokiem, który nie powinien zostać pominięty, ponieważ pozwoli zespołowi hurtowni danych na ujawnienie i rozwiązanie problemów przed pierwszym wdrożeniem. Niewykonanie fazy testowania może doprowadzić do opóźnień w realizacji lub zakończeniu projektu hurtowni danych.

Wdrożenie Hurtowni Danych

Decyzja, czy system będzie dostępny dla wszystkich jednocześnie będzie zależała od liczby użytkowników końcowych i od sposobu, w jaki będą oni uzyskiwać dostęp do systemu hurtowni danych. Innym ważnym aspektem wdrożenia systemu, który często jest pomijany, jest szkolenie użytkowników końcowych. Szkolenie powinno zostać przeprowadzone niezależnie od tego na ile intuicyjne jest GUI z punktu widzenia zespołu hurtowni danych i programistów. Jeżeli narzędzie dla użytkowników końcowych będzie trudne w wykorzystaniu i “niezrozumiałe”, to w pewnym momencie przestaną oni z tego korzystać, pomijając wszystkie zalety systemu.

Rozumienie najlepszych praktyk w projektowaniu hurtowni danych

Projektowanie hurtowni danych to czasochłonne i wymagające przedsięwzięcie. Na każdym kroku pojawiają się dobre i złe aspekty. Jeśli jednak organizacja poświęci więcej czasu, aby na samym początku opracować solidne wymagania — to kolejne etapy procesu będą przebiegały bardziej płynnie i doprowadzą do udanej implementacji hurtowni danych.

Planning AI or BI project? Get an Estimate

Get a quick estimate of your AI or BI project within 1 business day. Delivered straight to your inbox.