Bardzo trudno jest znaleźć zwięzły artykuł zawierający kompleksowy przewodnik do wdrożenia projektu uczenia maszynowego bądź Data Science. Znajdujemy wiele artykułów informacyjnych online, które zawierają szczegółowe informacje na temat tego, jak musimy wdrożyć części projektu uczenia maszynowego / Data Science, ale czasami potrzebujemy tylko kroków wysokopoziomowych, pokazujące jasne wskazówki.

Projekty Data Science służą do odkrywania w danych wzorców, które napędzają biznes. W celu skutecznego przeprowadzenia projektu Data Science, jak i w każdym innym projekcie potrzebne jest odpowiednie zaplanowanie i profesjonalne podejście. Projekty Data Science bądź Big Data róż

Poniżej opisujemy 6 etapów, które pomogą w ustrukturyzowaniu projektów Data Science i doprowadzą Wasz projekt do skutecznego zakończenia.

1. Zrozumienie biznesu

Na tym etapie koncentrujemy się na zrozumieniu celów projektu i wymagań z perspektywy biznesowej, a następnie przekształcamy tą wiedzę w definicję problemu data science.

Ważne jest, aby liderzy biznesu i ich kierownicy projektów zaczęli spędzać czas na jasnym definiowaniu konkretnych problemów lub wyzwań, które chcieliby rozwiązać za pomocą Data Science. Im bardziej konkretny jest cel, tym większa szansa na sukces wdrożenia algorytmów uczenia maszynowego.

Na przykład stwierdzenie, że organizacja chciałaby „zwiększyć sprzedaż online o 10%”, nie jest wystarczająco szczegółowe. Zamiast tego, bardziej zdefiniowane stwierdzenie, takie jak „dążenie do zwiększenia sprzedaży online o 10% poprzez monitorowanie danych demograficznych osób odwiedzających witrynę”, jest znacznie bardziej przydatne w określaniu celu i zapewnieniu, że jest on zrozumiały dla wszystkich zainteresowanych stron.

2. Zrozumienie danych

Następnym krokiem, po jednoznacznym zdefiniowaniu przypadku użycia, jest zapewnienie, że już istniejące procesy i systemy są zdolne do przechwytywania i śledzenia danych potrzebnych do przeprowadzenia wymaganej analizy.

Dużo czasu i wysiłku poświęca się na zbieranie danych, więc organizacje muszą zapewnić, że odpowiednie dane są zbierane w wystarczających ilościach i przy użyciu odpowiednich zmiennych lub funkcji, takich jak wiek, płeć lub pochodzenie etniczne. Warto pamiętać, że ponieważ jakość danych jest tak samo ważna dla pomyślnego wyniku, jak ich wielkość, organizacje powinny nadać priorytet procedurom zarządzania danymi.

Celem etapu jest przygotowanie danych oraz ocena ich przydatności. Rozpoczyna się etap od wstępnego zgromadzenia danych i kontynuuje działania w celu zapoznania się z danymi, identyfikacji problemów z jakością danych, odkrycia pierwszego wglądu w dane lub wykrycia interesujących podzbiorów w celu sformułowania hipotez dotyczących ukrytych informacji.

3. Przygotowanie danych

Kuszące może być dla firmy, aby przeskoczyć na ćwiczenie związane z modelowaniem, ale ważne jest, aby po raz pierwszy przeprowadzili szybkie ćwiczenie eksploracji danych, w którym można zweryfikować założenia i zrozumienie danych. Pomoże to ustalić, czy dane opowiadają właściwą historię na podstawie wiedzy merytorycznej organizacji i świadomości biznesowej.

Takie ćwiczenie pomoże również organizacji zrozumieć, jakie znaczące zmienne lub funkcje powinny (lub mogą) być, oraz rodzaj kategoryzacji danych, które powinny zostać utworzone w celu wykorzystania ich jako danych wejściowych dla wszelkich potencjalnych modeli.

Faza przygotowania danych obejmuje wszystkie działania mające na celu zbudowanie ostatecznego zestawu danych z początkowych danych pierwotnych.

4. Modelowanie

Podczas danego etapu są budowane, wybierane i sprawdzane modele statystyczne. Ponieważ niektóre techniki, takie jak sieci neuronowe, mają określone wymagania dotyczące formy danych, może być potrzebny powrót do etapu przygotowania danych.

Należy tutaj zaangażować ekspertów biznesowych, ponieważ ich ciągłe informacje zwrotne mają kluczowe znaczenie dla walidacji i zapewnienia, że wszyscy interesariusze są na tej samej stronie. Istotnie, ponieważ sukces każdego modelu ML zależy od udanej inżynierii cech, ekspert merytoryczny zawsze będzie cenniejszy niż algorytm, jeśli chodzi o uzyskiwanie lepszych funkcji.

5. Ocena

Po zbudowaniu jednego lub większej liczby modeli, które mają wysoką jakość w oparciu o wybrane funkcje, należy je przetestować, aby upewnić się, że są one uogólnione oraz standaryzowane i że wszystkie kluczowe problemy biznesowe zostały w wystarczającym stopniu uwzględnione. Końcowym rezultatem jest wybór najbardziej trafnego(-ych) modelu(-i).

Definicja miar wydajności modelu pomoże w ocenie, porównaniu i analizie wyników z wielu algorytmów, co z kolei pomoże w udoskonaleniu określonych modeli. Dokładność klasyfikacji, na przykład, liczba poprawnych prognoz podzielonych przez całkowitą liczbę wykonanych prognoz i pomnożona przez 100, byłaby dobrą miarą wydajności przy pracy z przypadkiem użycia klasyfikacji.

Dane będą musiały zostać podzielone na dwa zestawy danych: zestaw szkoleniowy, na którym zostanie przeszkolony algorytm, oraz zestaw testów, na podstawie których będzie oceniany. W zależności od złożoności algorytmu może to być tak proste, jak wybranie losowego podziału danych, np. 60% dla szkolenia i 40% dla testowania, lub może to obejmować bardziej skomplikowane procesy próbkowania.

Podobnie jak w przypadku testowania hipotezy, eksperci biznesowi i domeny powinni być zaangażowani w walidację wyników i upewnienie się, że wszystko idzie w dobrym kierunku.

6. Wdrożenie

Po zbudowaniu i zatwierdzeniu modelu musi on zostać wdrożony do produkcji. Począwszy od ograniczonego wdrożenia przez kilka tygodni lub miesięcy, w którym użytkownicy biznesowi mogą dostarczać ciągłe informacje zwrotne na temat zachowania modelu i jego wyników, można go następnie rozpowszechnić wśród szerszej publiczności.

Odpowiednie narzędzia i platformy powinny zostać wybrane, aby zautomatyzować pobieranie danych, z systemami wprowadzonymi w celu rozpowszechniania wyników wśród odpowiednich odbiorców. Platforma powinna zapewniać wiele interfejsów w celu uwzględnienia różnych stopni wiedzy wśród użytkowników końcowych organizacji. Analitycy biznesowi mogą chcieć przeprowadzić dalszą analizę, na przykład na podstawie wyników modelu, podczas gdy zwykli użytkownicy końcowi mogą po prostu chcieć wchodzić w interakcje z danymi za pomocą pulpitów nawigacyjnych i wizualizacji.

Zasadniczo będzie to oznaczać wdrożenie kodu modelu do systemu operacyjnego w celu oceny lub kategoryzacji nowych niewiadomych danych w miarę ich powstawania oraz stworzenia mechanizmu wykorzystywania tych nowych informacji w rozwiązaniu pierwotnego problemu biznesowego. Co ważne, kod musi również obejmować wszystkie etapy przygotowania danych prowadzące do modelowania, aby model traktował nowe surowe dane w taki sam sposób, jak podczas opracowywania modelu.

Planning AI or BI project? Get an Estimate

Get a quick estimate of your AI or BI project within 1 business day. Delivered straight to your inbox.