Oto 4 argumenty
Dane to ropa XXI wieku. O ich potencjale gospodarczym i biznesowym świadczą dziś nie tyle możliwości samego gromadzenia zróżnicowanych danych, co umiejętne ich wykorzystanie w celu pozyskania rzetelnych,
adekwatnych i przydanych w danym momencie informacji. Na świecie rośnie więc znaczenie i zapotrzebowanie na kompetencje pozwalające wyciągać wielorakie wnioski z dostępnych zbiorów danych. W szczególności poszukiwani są „mistrzowie danych”. Jak zapewnić im efektywne środowisko pracy? Warto sięgnąć po możliwości oferowane
przez Apple MacBook Pro.
W każdym obszarze życia – od prywatnego, po zawodowe – generujemy i przetwarzamy gigabajty danych na sekundę. Co więcej, nie dotyczy to tylko nas, ludzi. Znaczące ilości danych tworzy i przetwarza dziś także coraz większa liczba otaczających nas urządzeń: lodówek, zabawek czy pojazdów. Nie dziwi więc, że na rynku pojawiają się nowe specjalizacje i zawody związane z gromadzeniem oraz wyciąganiem wniosków z dostępnych zbiorów danych. W szczególności dotyczy to szeroko rozumianego biznesu, który nauczył się doceniać walory wielowymiarowych analiz zróżnicowanych danych w procesach decyzyjnych – czy to na etapie planowania rozwoju działalności, czy też automatyzacji powtarzalnych operacji biznesowych. Do takich zawodów należy m.in. data scientist.
Naukowiec od danych
W praktyce data scientist to osoba zajmująca się obszarem nazwanym data science (dosłownie: nauka o danych), czyli interdyscyplinarną dziedziną naukową tworzącą mechanizmy, algorytmy i techniki wydobywania wzorców, spostrzeżeń, a finalnie użytecznej wiedzy z informacji pozyskanych z różnego rodzaju zbiorów danych. Mogą to być zarówno zbiory ustrukturyzowane (np. bazy i hurtownie danych), jak i nieuporządkowane (np. nagrania audio lub wideo, artykuły prasowe czy inne treści internetowe). Duża skala, zmienność i zróżnicowanie danych sprawiają, że mówimy wręcz o analityce Big Data.
Data scientist charakteryzuje się szerokim, interdyscyplinarnym zakresem kompetencji.
Z jednej strony dotyczą one typowych obszarów techniczno-informatycznych, w tym programowania, uczenia maszynowego – tradycyjnego i deep learning – przetwarzania języka naturalnego, SQL, wizualizacji danych oraz przygotowania obszernych prezentacji biznesowych. Z drugiej strony funkcja data scientist wymaga też tradycyjnej wiedzy, m.in. z zakresu matematyki i statystyki. Rola ta, jak żadna inna, łączy w sobie przeogromny „głód” nauki wraz z miłością do eksperymentów i poszukiwań wzorów na wszystko.
Poszukiwane kompetencje i narzędzia
Jak można się domyśleć, specjaliści z tego obszaru są dziś bardzo poszukiwani i dobrze opłacani. Aby jednak mogli wykonywać swoje obowiązki w efektywny i skuteczny sposób, potrzebują wydajnego i pojemnego pod kątem danych stanowiska pracy.
Jako osoba, która częściowo realizuje zadania data scientist, postawię tezę, że fundamentem efektywnej pracy z danymi jest posiadanie odpowiednio szybkiego i niezawodnego środowiska pracy. Środowiska, którego fundamentem musi być szybki, niezawodny i wygodny w obsłudze komputer osobisty.
Ja zdecydowałem się na MacBook Pro. W mojej ocenie jest to idealna platforma dla osoby wyspecjalizowanej w obszarze gromadzenia, przetwarzania, analizy i wizualizacji danych. Dlaczego?
Oto 4 argumenty za wykorzystaniem Apple MacBook Pro w pracy specjalisty od data scientist:
Argument 1: Bezpieczeństwo i niezawodność
Być może jest to nieco wyświechtany frazes, ale bezpieczeństwo i niezawodność działania narzędzi pracy mają fundamentalne znaczenie dla pracy mistrza danych, bo tak właśnie tłumaczona na język polski jest rola data scientist. W praktyce funkcja ta wiąże się z koniecznością przetwarzania gigabajtów danych. Zazwyczaj tylko niektóre z nich podlegają regulacjom branżowym lub przepisom RODO, jednak ich utrata – a tym bardziej dostanie się w niepowołane ręce (np. dane o sprzedaży, marży czy zyskach przedsiębiorstwa) to katastrofa dla każdej szanującej się organizacji.
Z tego powodu ogromnego znaczenia nabiera kwestia ochrony danych zgromadzonych na komputerze osobistym. Cenna jest też niezawodność, rozumiana jako bezawaryjność urządzeń Apple – zarówno w wymiarze sprzętowym, jak i aplikacyjnym. Dlatego mocne systemowe szyfrowanie dysków jest dziś koniecznością. Komputery osobiste Apple tego typu funkcjonalność posiadają w sposób natywny w formie usługi Apple FileVault – i to wraz ze sprzętową akceleracją. Oczywiście podobną funkcjonalność ochrony danych można osiągnąć na alternatywnych platformach, ale często są to mechanizmy mniej wydajne lub wymagające wykorzystania rozwiązań firm trzecich, które siłą rzeczy ustępują rozwiązaniom dostarczanym bezpośrednio przez producenta sprzętu. Jeżeli więc często zabierasz swojego laptopa w podróże i przechowujesz w jego pamięci dane wrażliwe z punktu widzenia przedsiębiorstwa, to funkcjonalność Apple FileVault staje się wręcz nieoceniona.
Argument 2: Wysoka wydajność i wsparcie dla zróżnicowanych narzędzi
Jak wspomniałem wcześniej, data scientist jest osobą, która musi w efektywny sposób łączyć kompetencje z różnych dziedzin .Jest to niejako człowiek renesansu, w którego rękach są programowanie, modelowanie danych, obsługa baz danych SQL, noSQL, a także dziedziny takie jak: machine learning (klasyfikatory, modele regresji), deep learning (np. przetwarzanie obrazu), web-scraping i NLP. W ślad za potrzebą posiadania ogromnej wiedzy idzie też konieczność wykorzystywania dużej ilości zróżnicowanych narzędzi. Setki zainstalowanych aplikacji, a do tego wirtualizacja i konteneryzacja, to naturalne środowisko pracy osób na tego typu stanowiskach. Nie każdy komputer osobisty będzie w stanie sprostać takim potrzebom w wymiarze wydajnościowym. Potrzebny jest wydajny sprzęt z systemem operacyjnym łączącym stabilne środowisko systemu UNIX i ergonomiczny graficzny interfejs z możliwością łatwego korzystania z potrzebnych aplikacji biznesowych. Taki właśnie jest macOS.
System ten należy do rodziny uniksowych środowisk operacyjnych, co nie tylko sprawia, że jest stabilny, ale też wspiera szereg poleceń znanych ze środowisk serwerowych. W ramach macOS mamy więc dostęp do menadżera pakietów oprogramowania o otwartym kodzie źródłowym (np. Homebrew), dzięki czemu możemy doposażyć możliwości MacBooka Pro np. o aplikacje typu OCR do zarządzania obrazami, dokumentami czy plikami PDF, a następnie łatwo uruchamiać je w tle, z linii poleceń, i otwierać w setkach odseparowanych wątków. Nasz laptop może zatem zamienić się w wysokowydajny węzeł obliczeniowy.
Głównym językiem programowania w pracy specjalisty data scientist jest obecnie Python, który często korzysta z baz danych (SQL lub NoSQL). W środowisku MacOS wszystkie te bazy można jednym poleceniem zainstalować lub uruchomić jako osobne kontenery. Oczywiście analogiczne środowisko pracy można również skonfigurować na alternatywnych platformach, jednak będziemy mieli w nich do czynienia z ograniczeniami tradycyjnych systemów uniksowych i stracimy dostęp do graficznych narzędzi biurowych albo wręcz przeciwnie, pakiety graficzne będą, ale stracimy możliwości serwera na poziomie terminala. W tym kontekście MacBook Pro zapewnia idealny kompromis pomiędzy graficznym GUI a czarnym terminalem.
Argument 3: Wielozadaniowość i wsparcie dla najpopularniejszych narzędzi biurowych
W obszarze podstawowych aplikacji biznesowych standardem są dziś narzędzia pakietu Microsoft Office. Z racji na swoje umocowanie w organizacji biznesowej oraz duża liczbę interakcji z zarządami i kluczowymi użytkownikami biznesowymi, data scientist musi również dysponować narzędziami, które pozwolą mu w łatwy sposób przedstawić wnioski z analiz i przekazać je innym pracownikom w czytelnej i łatwo dostępnej dla nich formie.
Wyłącznie platforma macOS zapewnia możliwość jednoczesnego trenowania modelu do analizy emocji (Python/scikit-learn/Spacy), wydobywania danych z połowy polskich serwisów e-commerce (Scrapy) i zapisywania wyników do uruchomionej w środowisku dockerowej platformy ElasticSearch oraz swobodnej pracy z dokumentami Worda czy PowerPointa. Wszystko pracuje stabilnie, zaś instalacja wszystkich wymienionych wyżej rozwiązań jest trywialna i sprowadza się do pojedynczych kliknięć lub komend w wierszu poleceń.
Argument 4: Integracja z innymi urządzeniami
Nieodłącznym elementem pracy na stanowisku data scientist jest nieustanne poszerzanie horyzontów, śledzenie trendów i pomysłów na nietypowe sposoby przetwarzania danych lub pozyskiwania ich z mało popularnych dotąd źródeł. Oznacza to, że wszelkiego rodzaju e-booki, artykuły branżowe czy webinary są „pochłaniane” przez mistrza danych w ilościach hurtowych o różnych porach dnia i nocy. Wiele osób na potrzeby pozyskiwania rozwoju kompetencji korzysta z dodatkowych urządzeń – głównie tabletów. Oczywiście takich, które zapewnią dobrą rozdzielczość, możliwość wygodnego pisania (zawsze dobrze jest wykonać jakiś szybki eksperyment na Google Collab), a przede wszystkim pełną integrację z komputerem przenośnym i podstawowym środowiskiem codziennej pracy. Wspólny schowek, przesyłanie dużej ilości danych, rozszerzenie MacBook Pro o dodatkowy ekran sprawiają, że – dzięki Sidecar – iPad staje się idealnym brakującym elementem stanowiska pracy mistrza danych. Naprawdę trudno taki duet stworzyć na alternatywnych środowiskach operacyjnych.
Mam nadzieję, że powyższe argumenty przekonują Państwa przynajmniej do wypróbowania duetu MacBook Pro i iPad w bardzo wymagającej pracy z danymi. Z drugiej strony, artykuł ten rozpoczyna cykl publikacji poradnikowych (tutoriali), za pośrednictwem których będziemy starali się na praktycznych przykładach pokazać, jak wykorzystać unikalne możliwości platformy Apple do poprawy efektywności pracy z danymi. Pokażemy m.in., jak zbudować Pythonowe środowisko pracy na komputerach Apple, jak stworzyć web-crawler, scraper i na podstawie tych danych zbudować klasyfikatory o wysokiej przydatności biznesowej, a także – jak stworzyć model pozwalający rozpoznawać osoby na zdjęciach lub firmie z wykorzystaniem kamery i drzemiącej wydajności w MacBook Pro. W praktyce rozwiniemy więc powyższe argumenty, aby udowodnić hipotezę, że MacBook Pro jest wymarzonym narzędziem dla pracowników ery informacji i sztucznej inteligencji.
Znajdziesz nasz także na: