Utforska bearbetning av analytiska data
Analytisk databehandling använder vanligtvis skrivskyddade (eller mestadels läs-orienterade) system som lagrar mycket stora mängder historiska data eller affärsmått. Analyser kan baseras på en ögonblicksbild av data vid en viss tidpunkt eller en serie ögonblicksbilder.
Den specifika informationen för ett analysbearbetningssystem kan variera mellan lösningar, men en vanlig arkitektur för analys i företagsskala ser ut så här:
Driftdata extraheras, transformeras och läses in (ETL) till en datasjö för analys – eller extraheras och läses in först med transformeringar som tillämpas efteråt, ett mönster som kallas ELT som är vanligt i moderna sjöhus.
Data läses in i ett schema med tabeller – vanligtvis i ett Spark-baserat datasjöhus med tabellabstraktioner över filer i datasjön eller ett informationslager med en helt relationell SQL-motor.
Data i informationslagret kan aggregeras och läsas in i en OLAP-modell (Online Analytical Processing) – idag kallas det oftast för en semantisk modell (och historiskt sett en kub). Aggregerade numeriska värden (mått) från faktatabeller beräknas för skärningspunkter mellan dimensioner från dimensionstabeller. Försäljningsintäkter kan till exempel summeras efter datum, kund och produkt. Power BI semantiska modeller är det vanligaste exemplet du möter.
Data i datasjön, informationslagret och analysmodellen kan efterfrågas för att skapa rapporter, visualiseringar och instrumentpaneler.
Datasjöar är vanliga i storskaliga dataanalysbearbetningsscenarier, där en stor mängd filbaserade data måste samlas in och analyseras.
Informationslager är ett etablerat sätt att lagra data i ett relationsschema som är optimerat för läsåtgärder – främst frågor som stöder rapportering och datavisualisering.
Data Lakehouses är en nyare innovation som kombinerar flexibel och skalbar lagring av en datasjö med relationsfrågans semantik i ett informationslager. Tabellschemat kan kräva viss denormalisering av data i en OLTP-datakälla (vilket innebär att viss duplicering införs för att frågor ska köras snabbare).
En OLAP-modell (eller semantisk modell) är en aggregerad typ av datalagring som är optimerad för analytiska arbetsbelastningar. Dataaggregeringar finns i olika dimensioner på olika nivåer, så att du kan öka/minska detaljnivån för att visa aggregeringar på flera hierarkiska nivåer. till exempel för att hitta den totala försäljningen per region, efter stad eller för en enskild adress. Eftersom data är föraggregerade kan frågor som returnerar sammanfattningarna som de innehåller köras snabbt.
Olika typer av användare kan utföra dataanalysarbete i olika steg i den övergripande arkitekturen. Till exempel:
- Dataforskare kan arbeta direkt med datafiler i en datasjö för att utforska och modellera data.
- Dataanalytiker kan fråga tabeller direkt i informationslagret för att skapa komplexa rapporter och visualiseringar.
- Företagsanvändare kan använda föraggregerade data i en analysmodell i form av rapporter eller instrumentpaneler.
Moderna analysplattformar
Två "allt-i-ett"-analysplattformar dominerar på Azure. Microsoft Fabric sammanför OneLake (en enda delad datasjö), Fabric Lakehouse, Fabric Warehouse, Fabric Data Factory och Power BI på en enhetlig SaaS-arbetsyta. Azure Databricks är en molnanalysplattform som är byggd för storskalig datateknik och datavetenskap med **Delta Lake – Parquet plus en transaktionslogg som möjliggör versionshantering och ACID-transaktioner – som standardlagringsformat. Microsoft Purview ger enhetlig datasäkerhet, styrning och efterlevnad som hjälper dig att identifiera, klassificera, skydda och hantera data i alla dina datakällor.
Organisera data med medaljongarkitekturen
Ett vanligt mönster för att organisera data i ett sjöhus är arkitekturen medallion, som använder tre lager:
- Brons: rådata som matas in as-is från källsystem, utan att transformeringar tillämpas, vilket bevarar de ursprungliga posterna för ombearbetning.
- Silver: rensade och överensstämmande data, med dubbletter borttagna och datatyper standardiserade.
- Guld: aggregerade, affärsklara data modellerade för specifika rapporterings- och analysanvändningsfall.
Team använder det här mönstret eftersom det skapar tydliga kvalitetsgränser mellan varje lager, och du kan alltid bearbeta om data från de ursprungliga Bronze-posterna om kraven ändras.
Både Fabric och Databricks innehåller Copilot upplevelser som låter dig utforska data med naturligt språk.