Wprowadzenie: Azure Databricks jest doskonałą platformą do wykonania analiz , czy procesowania znacznej ilości danych tzw. Big Data. Jednak nie jest to jeszcze do końca dojrzała platforma. Przez co często pojawiają się problemy związane np. z procesem migracji danych/klastrów/jobów/kluczy/notebooków itp. do innych środowisk (takich jak Dev/Test/QA). Aby tego dokonać każdy... read more  →                    
        
                
        
    
    lut
    18
    lut
    09
                            Głównym problemem usługi Azure Databricks jest brak odpowiedniego monitorowania zasobów (ich użycia Procesora/Pamięci/Dysku/Transferu sieciowego) , jest to możliwe per klaster w Spark UI jako snapshot działania drivera i nodów, brak jednak jednego zunifikowanego miejsca gdzie można wyżej wymienione statystyki obejrzeć dla wszystkich maszyn użytych w klastrze. Tym bardziej nie jest... read more  →                    
        
                
        
    
    lut
    04
                            Pewnie spotkałeś/łaś się do tej pory z problemem wykonania operacji Undelete na Azure Storage Account w przypadku kiedy na kontenerze znajdują się miliony plików, i istotna część z nich została usunięta. Jeśli masz na odzyskanie tylko 7dni to może być to nie lada wyzwanie. Microsoft sugeruje użycie Azure Portal lub... read more  →                    
        
                
        
    
    lut
    04
                            Platforma Azure Databricks Azure Databricks to zarządzana platforma Big Data oparta o koncepcję ekosystemu Hadoop, lecz nie wymusza na użytkowniku wysokiej wiedzy technicznej do jej utrzymania. Oparta jest o Sparka (w najnowszej wersji jest to spark przepisany z Javy na C++, zwany Photon). Databricks założyli twórcy Sparka na uniwersytecie UC... read more  →                    
        
                
        
    
    mar
    24
                            Wprowadzenie: Przed Wami kolejny z serii artykułów poświęconych analizie środowisk w chmurze, takich jak Google, AWS, Azure pod kontem użyteczności w obróbce danych. Skupimy się w nim na środowisku Azure, a konkretnie na Azure Data Warehouse i usłudze Azure Storage wykorzystanej w celu analizy plików CDR (call detail record), (podobnie... read more  →                    
        
                
        
    
    mar
    20
                            Wprowadzenie: W związku z rosnącą popularnością platform chmurowych, takich jak Google, AWS i Azure, postanowiliśmy stworzyć serię artykułów, w których omówimy podstawowe funkcjonalności tych środowisk na konkretnych przykładach użycia. Zacznijmy od Google oraz jednego z bardziej dojrzałych i użytecznych komponentów, czyli BigQuery. Będziemy również wykorzystywać Google Cloud Storage jako podstawowe miejsce przechowywania danych przetwarzanych w... read more  →                    
        
                
        
    
    mar
    03
                            Wprowadzenie: Apache Hadoop jest otwartą platformą programistyczną stworzoną w języku Java. Platforma przeznaczona jest do przetwarzania dużych ilości danych w rozproszonym środowisku, skalowalnym i rozszerzalnym horyzontalnie.  Hadoop składa się z wielu komponentów, których podstawą jest HDFS (Hadoop Distributed File System), Hadoop Common (biblioteki używane przez moduły), YARN (Yet Another Resource... read more  →                    
        
                
        
    
 
                 
                 
                 
                 
                