BigQuery to jedna z usług dostępnych w Google Cloud. Umożliwia przechowywanie i procesowanie zestawów danych w chmurze, korzystając z bezpiecznej infrastruktury Google. Pozwala obsłużyć miliony zapytań i wykonać zaawansowaną analizę danych w języku SQL. Pracę z BigQuery możesz sobie ułatwić dzięki Google Dataform. O czym właściwie mowa i jakie są korzyści?
Co to jest Google Dataform?
Dataform to usługa w ramach Google Cloud Platform. Dzięki niej możesz zarządzać transformacjami danych w BigQuery, korzystając z języka SQL z dodatkowymi funkcjami. Oznacza to, że w pliku .sqlx znajduje się nie tylko kod SQL, ale również konfiguracja, która określa, jak ten kod ma być wykonywany.

Źródło: https://cloud.google.com/blog/products/data-analytics/introducing-dataform-in-ga
Dataform umożliwia przekształcanie i integrowanie danych z różnorodnych źródeł, doprowadzając je do spójnej, ostatecznej formy, odpowiedniej do dalszej wizualizacji lub analizy. W ramach tych transformacji kluczowym elementem jest możliwość normalizacji danych, co pozwala na ujednolicenie jednostek miary z różnych systemów, np. przez sprowadzenie wartości procentowych i promilowych do wspólnego mianownika. W ten sposób Dataform zapewnia jednolitą reprezentację danych niezależnie od ich pierwotnego formatu.
Zobacz również ten film:
https://youtube.com/shorts/R50ZsCstBe0?si=x39wTFgVPhEQozXT
Google podaje przykładowe opinie firm, które korzystają z usługi.
Lucas Rolim, dyrektor ds. danych i analiz w Hurb, powiedział, że:
Jako firma zatrudniająca ponad 1000 współpracowników borykaliśmy się z brakiem zasad zarządzania i standardów dotyczących danych BigQuery. Dataform zapewnia naszemu zespołowi ds. danych wspólny interfejs umożliwiający stosowanie najlepszych praktyk w zakresie tworzenia oprogramowania, takich jak wersjonowanie, przeglądanie kodu i historia zatwierdzeń.
Dataform działa w pewnym sensie jak analityk, który dostarcza zintegrowane dane z różnych źródeł, ale w wymaganej formie.
Praca z BigQuery – jakie przynosi korzyści?
BigQuery jest hurtownią danych w chmurze. Ma wbudowane mechanizmy uczenia maszynowego i mnóstwo zastosowań. Możesz prowadzić analizę danych pochodzących z wielu źródeł – aplikacji SaaS, Google Marketing Platform, Google Analytics czy YouTube. Mogą być importowane manualnie lub przekazywane automatycznie.
Z BigQuery na co dzień korzysta wiele firm. Przykładem jest UPS, która gromadzi ogromną ilość danych na temat przesyłek. Dzięki wykorzystaniu uczenia maszynowego i analizy jest w stanie załadować samochody dostawcze i kontenery z zachowaniem najwyższej efektywności, czyli po prostu optymalnie wykorzystywać dostępną powierzchnię. Natomiast Spotify wykorzystuje BigQuery do przygotowywania spersonalizowanych playlist. Po kilku godzinach możesz uzyskać kolejną utworzoną na podstawie wysłuchanych kawałków.
Dataform a praca BigQuery
Dataform ułatwia pracę z BigQuery pod wieloma względami:
- Automatyzacja tworzenia tabel i zarządzania widokami – możesz napisać SQL do transformacji, następnie Dataform wygeneruje obiekty BigQuery (np. tabele) i będzie dbać o ich zależność.
- Łatwe zarządzanie między tabelami – buduje graf zależności (rysowanie planu, w jakiej kolejności trzeba przetwarzać dane), określa prawidłową kolejność uruchamiania zapytań. Pilnuje, aby transformacje były wykonywane tylko wtedy, gdy wszystkie zależności są gotowe, tzn. wszystkie dane, których potrzebujesz do obliczenia kolejnej tabeli, jest już przygotowane.
- Automatyczne testy jakości danych – sprawdzanie czy dane w tabelach są poprawne bez konieczności ręcznej kontroli. Taka kontrola uruchamia się za każdym razem, kiedy przetwarzasz dane. Dzięki temu można wychwycić błędy, zanim dane trafią dalej.
- Zapewnienie czytelnych logów i podglądu wykonania – interfejs Dataform pozwala zobaczyć plan wykonania (schemat wszystkich operacji, jakie wykona), sprawdzić SQL generowany przez narzędzie, analizować logi z BigQuery.
Samo korzystanie z Dataform jest darmowe, ale możesz zapłacić za inne usługi. Dataform uruchamia zapytania w BigQuery w celu tworzenia nowych tabel, widoków i wykonywania innych poleceń SQL. Za uruchamianie tych zapytań zostaną naliczone opłaty za pośrednictwem BigQuery.
swój potencjał z
marketing działa.