Over 10 years we help companies reach their financial and branding goals. Engitech is a values-driven technology agency dedicated.

Gallery

Contacts

411 University St, Seattle, USA

engitech@oceanthemes.net

+1 -800-456-478-23

Hurtownia danych
Data Warehouse

Model wielowymiarowy

Często, gdy rozmawiamy o hurtowniach danych, zwłaszcza w kontekście podejścia Ralpha Kimballa, natrafiamy na pojęcie „modelu wielowymiarowego”. Co ono właściwie oznacza i dlaczego jest takie ważne?

Model wielowymiarowy (ang. Multidimensional Model) to sposób organizacji danych, który umożliwia ich efektywne przechowywanie i analizowanie. Dzięki temu można szybko i intuicyjnie wyciągać interesujące nas informacje. Warto podkreślić właśnie tę intuicyjność, ponieważ hurtownie danych oraz systemy raportowania są tworzone głównie z myślą o użytkownikach biznesowych – pracownikach działów zarządu, marketingu, finansów. Głównym celem takich systemów jest umożliwienie tym użytkownikom szybkiego dostępu do potrzebnych danych i generowania raportów, a nie zmuszanie ich do poruszania się po skomplikowanych strukturach danych.

Budowa modelu wielowymiarowego

Model wielowymiarowy składa się z dwóch elementów: tabeli faktów (fact table) i tabel wymiarów (dimension model).

Źródło: Hurtownia danych AdventureWorksDW2022

W przypadku powyżej, tabelą faktów jest FactInternetSales a tabele wymiarów to DimDate, DimProduct i DimCustomer.

Tabela faktów jest centralną tabelą i zawiera:

  • dane numeryczne lub zdarzenia, nazywane miarami (np. przychód, liczba sprzedanych produktów),
  • klucze obce do tabel wymiarów, które umożliwiają powiązanie faktów z odpowiednimi wymiarami,
  • każdy wiersz przedstawia konkretne zdarzenie lub transakcję (np. sprzedaż produktów).

Tabele wymiarów są tabelami opisowymi i zawierają:

  • atrybuty opisowe, takie jak data, produkt, lokalizacja czy klient,
  • umożliwiają analizę faktów z różnych perspektyw,
  • pozwalają na filtrowanie i grupowanie danych według konkretnych kryteriów, np. analiza sprzedaży w podziale na lata.

Warto w tym miejscu wspomnieć również o atrybutach. Atrybuty to cechy lub właściwości opisujące poszczególne wymiary w tabelach wymiarów. Pomagają one bardziej szczegółowo scharakteryzować dane i ułatwiają ich analizę.

Na przykład:

  • W wymiarze Produkt atrybutami mogą być nazwa produktu, kategoria, producent.
  • W wymiarze Klient atrybutami mogą być wiek, płeć, lokalizacja.
  • W wymiarze Czas atrybutami mogą być dzień, miesiąc, rok.

Atrybuty są wykorzystywane do filtrowania, wyszukiwania i grupowania danych, co pozwala na tworzenie bardziej precyzyjnych analiz, np. sprzedaży według kategorii produktów czy regionów.

Kostka danych

Kostka danych (ang. data cube) jest jedną z koncepcji używanych w modelowaniu wymiarowym, gdzie dane przedstawione są w formie wielowymiarowej struktury przypominającej kostkę, z osiami reprezentującymi wymiary, a komórkami zawierającymi miary. Taka struktura pozwala na łatwe analizowanie danych i wyciąganie informacji, na przykład: 'wartość sprzedanych produktów dla określonych klientów w określonym czasie’.

Typy modeli wielowymiarowych

Model gwiazdy (star schema):

  • To najprostszy model, w którym centralna tabela faktów jest otoczona tabelami wymiarów. Tabele wymiarów są bezpośrednio połączone z tabelą faktów. Przypomina to gwiazdę.
  • Jest to popularny model w hurtowniach danych, gdyż jest prosty i wydajny do zapytań analitycznych.
Źródło: Hurtownia danych AdventureWorksDW2022

Model płatka śniegu (snowflake schema):

  • Jest bardziej złożoną wersją modelu gwiazdy. Tabele wymiarów są znormalizowane (rozbite na dodatkowe podtabele), co tworzy bardziej rozbudowaną strukturę przypominającą płatek śniegu.
  • Zajmuje mniej miejsca w pamięci, ale wymaga bardziej złożonych zapytań.
Źródło: Hurtownia danych AdventureWorksDW2022

Model galaktyki (constellation schema):

  • Ten model zawiera kilka tabel faktów, które mogą dzielić wspólne tabele wymiarów. Jest to bardziej zaawansowana struktura, która pozwala na analizę wielu różnych procesów w jednym systemie.
Źródło: Hurtownia danych AdventureWorksDW2022

Podsumowanie

Model wielowymiarowy to sposób organizacji danych w hurtowniach danych, który ułatwia ich analizę z różnych perspektyw (wymiarów). Centralnym elementem tego modelu są tabele faktów (zawierające miary), które są powiązane z tabelami wymiarów (zawierającymi kategorie opisowe). Ten model umożliwia tworzenie zaawansowanych analiz, podsumowań i raportów na podstawie dużych zbiorów danych.

Leave a comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *