Platforma Azure Databricks
Azure Databricks to zarządzana platforma Big Data oparta o koncepcję ekosystemu Hadoop, lecz nie wymusza na użytkowniku wysokiej wiedzy technicznej do jej utrzymania. Oparta jest o Sparka (w najnowszej wersji jest to spark przepisany z Javy na C++, zwany Photon). Databricks założyli twórcy Sparka na uniwersytecie UC Berkeley w 2013, czyli już 8 lat na rynku. Databricks na szeroką skalę rozwija Sparka i jest jednym z największych kontrybutorów kodu.
Platforma oparta jest na podejściu że API jest rozwijane w pierwszej kolejności, następnie implementacja przenosi się na wyższe poziomy w tym CLI, GUI. Obecnie jest to dojrzała platforma dla Inżynierów Danych, Analityków, Data Scientist-ów, umożliwia pisanie kodu w aplikacji web, oraz poprzez integracje np. z IDE IntelliJ poprzez remote code execution. W niedługim czasie zostanie również uzupełniona o zarządzaną wersję Airflow do orkiestracji procesami oraz pipelinami.
Wspierane chmury
Obecnie Databricks dostępny jest w chmurach AWS, Azure, Google, Alibaba Cloud,
Jednak najbardziej zaawansowany rozwój dokonał się w AWS i Azure.
Wspierane języki
Obecnie platforma umożliwa korzystanie z następujących języków:
Python, R, Scala, SQL
Dostępne tryby działania
- SQL – platforma z uproszczonym interfejsem skupionym wokół zapytań SQL, widoku na tabele/widoki.
- Data Science & Engineering – bardziej rozbudowany interfejs, z możliwościa tworzenia i zarządzania klastrami, wykonywania notebooków lub jobów
- Machine Learning
Orkiestracja
Obecnie, Azure Databricks umożliwia tworzenie zadań w harmonogramie, zarządzanymi z poziomu platformy (w trybie Data Science & Engineering/Machine Learning w podejściu DAG (directed acyclic graphs). W niedługim czasie, Databricks udostępni zarządzana wersja Airflow w ramach usługi, która docelowo wyprze obecne rozwiązania orkiestracji zadań.
Użyteczne linki Azure Databricks
Poniżej znajduje się lista użytecznych linków/źródeł/narzędzi zanim zaczniecie „zabawę” z Databricks:
- AzureCLI – instalacja i konfiguracja
- DatabricksCLI – instalacja i konfiguracja
- DatabricksCLI – dokumentacja interfejsu
- Ustawienie Secret Scope
- Utworzenie Mount do Storage Account
- Używanie Repos
- Używanie Cluster Pools/Cluster Policies
Comments are closed.