Wprowadzenie: Azure Databricks jest doskonałą platformą do wykonania analiz , czy procesowania znacznej ilości danych tzw. Big Data. Jednak nie jest to jeszcze do końca dojrzała platforma. Przez co często pojawiają się problemy związane np. z procesem migracji danych/klastrów/jobów/kluczy/notebooków itp. do innych środowisk (takich jak Dev/Test/QA). Aby tego dokonać każdy... read more →
lut
18
lut
09
Głównym problemem usługi Azure Databricks jest brak odpowiedniego monitorowania zasobów (ich użycia Procesora/Pamięci/Dysku/Transferu sieciowego) , jest to możliwe per klaster w Spark UI jako snapshot działania drivera i nodów, brak jednak jednego zunifikowanego miejsca gdzie można wyżej wymienione statystyki obejrzeć dla wszystkich maszyn użytych w klastrze. Tym bardziej nie jest... read more →
lut
04
Pewnie spotkałeś/łaś się do tej pory z problemem wykonania operacji Undelete na Azure Storage Account w przypadku kiedy na kontenerze znajdują się miliony plików, i istotna część z nich została usunięta. Jeśli masz na odzyskanie tylko 7dni to może być to nie lada wyzwanie. Microsoft sugeruje użycie Azure Portal lub... read more →
lut
04
Platforma Azure Databricks Azure Databricks to zarządzana platforma Big Data oparta o koncepcję ekosystemu Hadoop, lecz nie wymusza na użytkowniku wysokiej wiedzy technicznej do jej utrzymania. Oparta jest o Sparka (w najnowszej wersji jest to spark przepisany z Javy na C++, zwany Photon). Databricks założyli twórcy Sparka na uniwersytecie UC... read more →
mar
24
Wprowadzenie: Przed Wami kolejny z serii artykułów poświęconych analizie środowisk w chmurze, takich jak Google, AWS, Azure pod kontem użyteczności w obróbce danych. Skupimy się w nim na środowisku Azure, a konkretnie na Azure Data Warehouse i usłudze Azure Storage wykorzystanej w celu analizy plików CDR (call detail record), (podobnie... read more →
mar
20
Wprowadzenie: W związku z rosnącą popularnością platform chmurowych, takich jak Google, AWS i Azure, postanowiliśmy stworzyć serię artykułów, w których omówimy podstawowe funkcjonalności tych środowisk na konkretnych przykładach użycia. Zacznijmy od Google oraz jednego z bardziej dojrzałych i użytecznych komponentów, czyli BigQuery. Będziemy również wykorzystywać Google Cloud Storage jako podstawowe miejsce przechowywania danych przetwarzanych w... read more →
mar
03
Wprowadzenie: Apache Hadoop jest otwartą platformą programistyczną stworzoną w języku Java. Platforma przeznaczona jest do przetwarzania dużych ilości danych w rozproszonym środowisku, skalowalnym i rozszerzalnym horyzontalnie. Hadoop składa się z wielu komponentów, których podstawą jest HDFS (Hadoop Distributed File System), Hadoop Common (biblioteki używane przez moduły), YARN (Yet Another Resource... read more →