Lakehouse SQL-analyse-endpoint brugstilfælde

SQL analytics-endpointet er en læseoptimeret, T-SQL-overflade over Delta-data i Microsoft Fabric. Denne artikel forklarer den Fabric datalager-arbejdsbelastning med Lakehouse's SQL-analyseendepunkt samt scenarier for brug af Lakehouse i datalager.

Hvad er et Lakehouse SQL Analytics-slutpunkt?

SQL-analyse-endpointet gør det muligt at forespørge data i Lakehouse ved at bruge T-SQL-sproget og TDS-protokollen.

  • SQL-analyse-endpointet eksponerer Delta-tabeller fra Lakehouse som SQL-tabeller, som du kan forespørge med T-SQL.
  • Hver deltatabel fra en Lakehouse repræsenteres som én tabel. Dataene skal være i deltaformat.
  • Hver Lakehouse har ét SQL Analytics-slutpunkt, og hvert arbejdsområde kan have mere end én Lakehouse. Antallet af SQL-analyseslutpunkter i et arbejdsområde svarer til antallet af Lakehouse-elementer.

Du behøver ikke oprette et SQL-analyse-endpoint i Microsoft Fabric. Der oprettes automatisk et SQL Analytics-slutpunkt for alle lakehouse-, database- eller spejlede databaser. Et SQL-analyse-endpoint fungerer som en letvægts datalagerkapacitet for deres overordnede elementer og supplerer lagerets lakehouse-arkitektur. Denne arkitektur tillader Spark- eller Fabric-spejling at kontrollere data i en mappestruktur i lakehouse, som SQL-analyse-endpointet kan se.

Bemærkning

Bag kulisserne bruger SQL-analyse-endpointet samme motor som Warehouse til at levere højtydende, lav-latenstid SQL-forespørgsler.

Automatisk metadataopdagelse

En sømløs proces læser Delta-loggene fra /Tables mappen og sikrer, at SQL-metadata for tabeller, såsom statistik, altid er opdateret. Der kræves ingen brugerhandling, og det er ikke nødvendigt at importere, kopiere data eller konfigurere infrastruktur. Du kan finde flere oplysninger under Automatisk genereret skema i SQL Analytics-slutpunktet.

Scenarier, som Lakehouse muliggør til datawarehousing

I Fabric tilbyder vi ét lager.

Lakehouse kan med sit SQL Analytics-slutpunkt, der drives af Warehouse, forenkle det traditionelle beslutningstræ i batch-, streaming- eller lambda-arkitekturmønstre. Lakehouse muliggør sammen med et lager mange scenarier med additive analyser. I dette afsnit udforskes det, hvordan du bruger en Lakehouse sammen med et lager for at få det bedste ud af en analysestrategi for racen.

Analyse med dit Fabric Lakehouse-guldlag

En velkendt strategi for lake data-organisering er medallionarkitektur. Denne strategi organiserer filer i rå (bronze), konsoliderede (sølv) og raffinerede (guld) lag. Du kan bruge et SQL-analyse-endpoint til at analysere data i det gyldne lag af medallion-arkitekturen, hvis filerne er gemt i Delta Lake-format, selvom de er lagret uden for Microsoft Fabric OneLake.

Brug OneLake genveje til at referere til guldmapper i eksterne Azure Data Lake lagringskonti, som Synapse Spark eller Azure Databricks motorer administrerer.

Du kan også tilføje lagre som fagområde- eller domæneorienterede løsninger til specifikke emner, der kan have skræddersyede analysekrav.

Hvis du vælger at beholde dine data i Fabric, er de altid åbene og tilgængelige via API'er, Delta-format og selvfølgelig T-SQL.

Forespørg som en tjeneste over dine deltatabeller fra Lakehouse og andre elementer fra OneLake

Analytikere, data scientists og data engineers kan have brug for at forespørge data inden for en data lake. I Fabric er denne end-to-end-oplevelse fuldstændig SaaSificeret.

OneLake er en enkelt, samlet og logisk datasø for hele organisationen. OneLake er OneDrive for data. OneLake kan indeholde flere arbejdsområder, f.eks. langs dine organisationsafdelinger. Hver eneste enhed i Fabric gør data tilgængelige via OneLake.

Data i et Microsoft Fabric Lakehouse gemmes fysisk i OneLake med følgende mappestruktur:

  • Mappen /Files indeholder rå og ukonsoliderede (bronze) filer, som dataingeniører bør behandle før analyse. Filerne kan være i forskellige formater såsom CSV, Parquet, forskellige typer billeder og mere.
  • Mappen /Tables indeholder raffinerede og konsoliderede (guld) data, der er klar til forretningsanalyse. De konsoliderede data er i Delta Lake-format.

Et SQL Analytics-slutpunkt kan læse data i mappen /tables i OneLake. Analyse er lige så enkelt som at forespørge om SQL Analytics-slutpunktet for Lakehouse. Sammen med Warehouse får du også krydsdatabaseforespørgsler og mulighed for problemfrit at skifte fra skrivebeskyttede forespørgsler til at bygge ekstra forretningslogik oven på dine OneLake-data med Fabric data warehouse.

Dataudvikler med Spark og Servering med SQL

Datadrevne virksomheder skal holde deres back end- og analysesystemer i næsten realtidssynkronisering med kundeorienterede programmer. Virkningen af transaktioner skal afspejles nøjagtigt via komplette processer, relaterede programmer og OLTP-systemer (online transaction processing).

I Fabric kan du bruge Spark Streaming eller Dataudvikler til at organisere dine data. Du kan bruge Sql Analytics-slutpunktet for Lakehouse til at validere datakvaliteten og for eksisterende T-SQL-processer. Dette kan gøres i en medaljonsarkitektur eller i flere lag af dit Lakehouse, der serverer bronze, sølv, guld eller midlertidig lagring, kuraterede og raffinerede data. Du kan tilpasse de mapper og tabeller, der oprettes via Spark, så de opfylder dine datatekniske og forretningsmæssige krav. Når du er klar, kan et lager betjene alle dine downstream-business intelligence-programmer og andre analyseanvendelser uden at kopiere data, bruge Visninger eller finjustere data ved hjælp af CREATE TABLE AS SELECT (CTAS), lagrede procedurer og andre DML/DDL-kommandoer.

Integration med dit Open Lakehouses guldlag

Et SQL-analyse-endpoint er ikke begrænset til dataanalyse i kun Fabric Lakehouse. Ved at bruge et SQL-analyse-endpoint kan du analysere sødata i ethvert lakehouse ved hjælp af Synapse Spark, Azure Databricks eller en anden lake-centreret data engineering-motor. Du kan gemme dataene i Azure Data Lake Storage eller Amazon S3.

Du kan altid få adgang til denne tætte, tovejsintegration med Fabric Lakehouse gennem enhver engine ved at bruge åbne API'er, Delta-formatet og selvfølgelig T-SQL.

Datavirtualisering af eksterne datasøer med genveje

Brug OneLake genveje til at referere til guldmapper i eksterne Azure Data Lake lagringskonti, som Synapse Spark eller Azure Databricks engines administrerer, samt enhver delta-tabel gemt i Amazon S3.

Du kan analysere enhver mappe, der refereres til via en genvej fra et SQL-analyse-endpoint, og oprette en SQL-tabel for de refererede data. Brug SQL-tabellen til at eksponere data i eksternt administrerede datalakes og aktiver analyse på dem.

Denne genvej fungerer som et virtuelt lager, som du kan udnytte fra et lager til yderligere downstream-analysebehov eller foretage direkte forespørgsler.

For at analysere data i eksterne datalake-lagringskonti skal følgende trin bruges:

  1. Opret en genvej, der refererer til en mappe i Azure Data Lake-lageret eller Amazon S3-konto. Efter du indtaster forbindelsesoplysninger og legitimationsoplysninger, vises en genvej i Lakehouse.
  2. Skift til SQL Analytics-slutpunktet for Lakehouse, og find en SQL-tabel, der har et navn, der svarer til genvejsnavnet. Denne SQL-tabel refererer til mappen i ADLS eller S3.
  3. Forespørg SQL-tabellen, der refererer til data i ADLS eller S3. Brug tabellen, som du ville bruge enhver anden tabel i SQL-analyse-endpointet. Du kan joinforbinde tabeller, der refererer til data i forskellige lagerkonti.

Bemærkning

Hvis SQL-tabellen ikke straks vises i SQL analytics-endpointet, så vent et par minutter. Den SQL-tabel, der refererer til data i en ekstern lagerkonto, oprettes med en forsinkelse.

Analyser arkiverede eller historiske data i en datalake

Datapartitionering er en velkendt teknik til optimering af dataadgang i datasøer. Gem partitionerede datasæt i hierarkiske mappestrukturer i formatet /year=<year>/month=<month>/day=<day>, hvor year, month, og day er partitioneringskolonnerne. Denne struktur holder historiske data logisk adskilt og gør det muligt for beregningsmotorer at læse dataene efter behov med performant filtrering, i stedet for at læse hele mappen og alle mapper og filer indeni.

Partitionerede data muliggør hurtigere adgang, hvis forespørgslerne filtreres på de prædikater, der sammenligner prædikatkolonner med en værdi.

Et SQL Analytics-slutpunkt kan nemt læse denne type data uden konfiguration påkrævet. Du kan f.eks. bruge et hvilket som helst program til at arkivere data i en data lake, herunder SQL Server 2022 eller Azure SQL Managed Instance. Efter du har partitioneret data og placeret dem i en sø til arkiveringsformål ved hjælp af eksterne tabeller, kan et SQL-analyse-endpoint læse partitionerede Delta Lake-tabeller som SQL-tabeller og lade din organisation analysere dem. Denne tilgang reducerer de samlede ejeromkostninger, reducerer datadubblering og lyser op for big data, AI og andre analysescenarier.

Du kan også bruge tidsrejseforespørgsler til hurtigt at forespørge tidligere versioner af data. Tidsrejser er en lavpris og effektiv mulighed for at forespørge tidligere datatilstande med T-SQL-forespørgsler. For et Lakehouse SQL-analyse-endpoint er tidsrejser begrænset af indstillinger for vakuumretention. For at komme i gang, se Sådan gør du: Forespørgsel ved hjælp af tidsrejser på sætningsniveau.

Datavirtualisering af Fabric-data med genveje

I Fabric giver arbejdsområder dig mulighed for at adskille data baseret på komplekse forretnings-, geografiske eller lovmæssige krav.

Et SQL Analytics-slutpunkt giver dig mulighed for at lade dataene være på plads og stadig analysere data i Warehouse eller Lakehouse, selv i andre Microsoft Fabric-arbejdsområder, via en problemfri virtualisering. Alle Microsoft Fabric Lakehouse gemmer data i OneLake.

Genveje giver dig mulighed for at referere til mapper på en vilkårlig OneLake-placering.

Alle Microsoft Fabric Warehouse gemmer tabeldata i OneLake. Hvis en tabel kun tilføjes, vises tabeldataene som Delta Lake-data i OneLake. Genveje giver dig mulighed for at referere til mapper i en Hvilken som helst OneLake, hvor warehouse-tabellerne vises.

Deling og forespørgsel på tværs af arbejdsområder

Arbejdsområder giver dig mulighed for at adskille data baseret på komplekse forretnings-, geografiske eller lovmæssige krav, men nogle gange er du nødt til at gøre det nemmere at dele på tværs af disse linjer til specifikke analysebehov.

Et Lakehouse SQL Analytics-slutpunkt kan gøre det nemt at dele data mellem afdelinger og brugere, hvor en bruger kan medbringe sin egen kapacitet og sit eget lager. Arbejdsområder organiserer afdelinger, forretningsenheder eller analytiske domæner. Ved at bruge genveje kan brugere finde data fra ethvert Warehouse eller Lakehouse. Brugerne kan straks udføre deres egne brugerdefinerede analyser fra de samme delte data. Ud over at hjælpe med afdelingsmæssige chargebacks og brugsfordeling, er denne tilgang en nulkopiversion af dataene.

SQL Analytics-slutpunktet gør det muligt at forespørge på en hvilken som helst tabel og nemt at dele. Du kan tilføje kontroller ved at bruge workspace-roller og sikkerhedsroller for at opfylde yderligere forretningskrav.

For at muliggøre dataanalyse på tværs af arbejdsområder, brug følgende trin:

  1. Opret en OneLake-genvej, der refererer til en tabel eller en mappe i et arbejdsområde, som du har adgang til.
  2. Vælg et Lakehouse eller Warehouse, der indeholder en tabel eller Delta Lake-mappe, som du vil analysere. Når du vælger en tabel eller mappe, vises en genvej i Lakehouse.
  3. Skift til SQL Analytics-slutpunktet for Lakehouse, og find den SQL-tabel, der har et navn, der svarer til genvejsnavnet. Denne SQL-tabel refererer til mappen i et andet arbejdsområde.
  4. Forespørg den SQL-tabel, der refererer til data i et andet arbejdsområde. Du kan bruge tabellen, som du ville bruge enhver anden tabel i SQL-analyse-endpointet. Du kan joinforbinde de tabeller, der refererer til data i forskellige arbejdsområder.

For mere information om sikkerhed i SQL-analyse-endpoints, se OneLake security for SQL analytics endpoints.

Bemærkning

Hvis SQL-tabellen ikke straks vises i SQL analytics-endpointet, så vent et par minutter. Den SQL-tabel, der refererer til data i et andet arbejdsområde, oprettes med en forsinkelse.

Analysér partitionerede data

Datapartitionering er en velkendt teknik til optimering af dataadgang i datasøer. Du gemmer opdelte datasæt i hierarkiske mappestrukturer i formatet /year=<year>/month=<month>/day=<day>, hvor year, month, og day er partitioneringskolonnerne. Partitionerede datasæt muliggør hurtigere dataadgang, hvis forespørgslerne bruger prædikater, der filtrerer data ved at sammenligne prædikatkolonner med en værdi.

Et SQL Analytics-slutpunkt kan repræsentere partitionerede Delta Lake-datasæt som SQL-tabeller og give dig mulighed for at analysere dem.

For mere information og eksempler på forespørgsel af eksterne data, se Forespørg eksterne data lake-filer ved at bruge Fabric data warehouse eller SQL analytics endpoint. For et eksempel og en brugsscenarie for forespørgsler af partitionerede parquet-filer, se Forespørgsel partitionerede data.

Analyser data i Lakehouse, Warehouse eller Eventhouse

Lakehouse- og Warehouse-hovedsiderne inkluderer Eventhouse-endpointet som en del af menuen Analyze data with . Eventhouse-endpointet leverer en Eventhouse-drevet forespørgselsoplevelse direkte oven på Lakehouse- og Warehouse-data uden dataduplikering eller manuel synkronisering.

Skærmbillede af Analyseér data med knappen udvidet for at se SQL-analyse-endpoint- og Eventhouse-endpoint-mulighederne.

Når du aktiverer Eventhouse-endpointet, oprettes en Eventhouse og en KQL-database automatisk som underenheder af kilde-Lakehouse eller Warehouse, med skema-synkronisering håndteret i baggrunden. Endepunktet afspejler altid det aktuelle skema for kildedataene, hvilket muliggør næsten realtids analytisk adgang.

Denne integration gør Eventhouse til en naturlig forlængelse af datakilden, snarere end et separat system, du skal opsætte og administrere. For mere information om Eventhouse Endpoint, se Enable Eventhouse endpoint for lakehouse og warehouse.