SCRIPT FACTORY | BI BLOG SCRIPT FACTORY | BI BLOG
INTELIGENTNA PRZYSZŁOŚĆ ZACZYNA SIĘ TU
SCRIPT FACTORY | BI BLOG SCRIPT FACTORY | BI BLOG
lut 04

Jak rozpocząć pracę z Azure Databricks

  • 4 lutego 2022
  • Wojciech Zduniak
  • Azure, Databricks

Platforma Azure Databricks

Azure Databricks to zarządzana platforma Big Data oparta o koncepcję ekosystemu Hadoop, lecz nie wymusza na użytkowniku wysokiej wiedzy technicznej do jej utrzymania. Oparta jest o Sparka (w najnowszej wersji jest to spark przepisany z Javy na C++, zwany Photon). Databricks założyli twórcy Sparka na uniwersytecie UC Berkeley w 2013, czyli już 8 lat na rynku. Databricks na szeroką skalę rozwija Sparka i jest jednym z największych kontrybutorów kodu.

Platforma oparta jest na podejściu że API jest rozwijane w pierwszej kolejności, następnie implementacja przenosi się na wyższe poziomy w tym CLI, GUI. Obecnie jest to dojrzała platforma dla Inżynierów Danych, Analityków, Data Scientist-ów, umożliwia pisanie kodu w aplikacji web, oraz poprzez integracje np. z IDE IntelliJ poprzez remote code execution. W niedługim czasie zostanie również uzupełniona o zarządzaną wersję Airflow do orkiestracji procesami oraz pipelinami.

Wspierane chmury

Obecnie Databricks dostępny jest w chmurach AWS, Azure, Google, Alibaba Cloud,

Jednak najbardziej zaawansowany rozwój dokonał się w AWS i Azure.

Wspierane języki

Obecnie platforma umożliwa korzystanie z następujących języków:

Python, R, Scala, SQL

Dostępne tryby działania

  • SQL – platforma z uproszczonym interfejsem skupionym wokół zapytań SQL, widoku na tabele/widoki.
  • Data Science & Engineering – bardziej rozbudowany interfejs, z możliwościa tworzenia i zarządzania klastrami, wykonywania notebooków lub jobów
  • Machine Learning

Orkiestracja

Obecnie, Azure Databricks umożliwia tworzenie zadań w harmonogramie, zarządzanymi z poziomu platformy (w trybie Data Science & Engineering/Machine Learning w podejściu DAG (directed acyclic graphs). W niedługim czasie, Databricks udostępni zarządzana wersja Airflow w ramach usługi, która docelowo wyprze obecne rozwiązania orkiestracji zadań.

Użyteczne linki Azure Databricks

Poniżej znajduje się lista użytecznych linków/źródeł/narzędzi zanim zaczniecie „zabawę” z Databricks:

  • AzureCLI – instalacja i konfiguracja
  • DatabricksCLI – instalacja i konfiguracja
  • DatabricksCLI – dokumentacja interfejsu
  • Ustawienie Secret Scope
  • Utworzenie Mount do Storage Account
  • Używanie Repos
  • Używanie Cluster Pools/Cluster Policies

  • Facebook
  • LinkedIn

About The Author

BI zajmuję się kilkanaście lat, od Microsoft po Teradatę, od on-premise do cloud, od pojedyńczych serwerów po klastrów obliczeniowych. Temat jest tak szeroki i ciekawy że postanowiłem opisać po kolei wszystko co wiem i z czym się zetknąłem. Mam nadzieje że będzie Wam się podobać ta lektura :)

Related Posts

  • Data Warehouse i przetwarzanie plików24 marca 2019
  • BigQuery i przetwarzanie plików20 marca 2019

Comments are closed.

Kategorie

  • Apache Hadoop
    • Instalacja
  • Azure
    • Databricks
    • Log Analytics
    • SQL Data Warehouse
    • Storage
    • Synapse
  • DigitalOcena
  • Google
    • Big Query
    • Storage
  • Tricks & Tips

Najnowsze posty:

  • Migracja zasobów Azure Databricks cz. 1
  • Monitoring Azure Databricks
  • Undelete na dużej ilości plików
  • Jak rozpocząć pracę z Azure Databricks
  • Data Warehouse i przetwarzanie plików

Wyszukaj Wpis

© Copyright 2025 SCRIPT FACTORY | BI BLOG