Skapa en modern dataplattformsarkitektur för små och medelstora företag med hjälp av Microsoft Fabric och Azure Databricks

Azure Data Lake

Azure Databricks

Microsoft Fabric

Dynamics 365

Azure Data Factory

Microsoft Purview

Lösningsidéer

I den här artikeln beskrivs en lösningsidé. Molnarkitekten kan använda den här vägledningen för att visualisera huvudkomponenterna för en typisk implementering av den här arkitekturen. Använd den här artikeln som utgångspunkt för att utforma en välkonstruerad lösning som överensstämmer med arbetsbelastningens specifika krav.

Den här artikeln beskriver hur små och medelstora företag kan skapa en modern dataplattformsarkitektur genom att kombinera befintliga investeringar i Azure Databricks med en fullständigt hanterad saaS-dataplattform (programvara som en tjänst), till exempel Microsoft Fabric. SaaS-dataplattformar är dataanalyslösningar från slutpunkt till slutpunkt som integreras med verktyg som Azure Machine Learning, Foundry Tools, Power Platform, Microsoft Dynamics 365 och andra Microsoft tekniker.

Förenklad arkitektur

Ladda ned en Visio-fil av den här arkitekturen.

Samverkan mellan Azure Databricks och Fabric ger en robust lösning som minimerar datafragmentering samtidigt som analysfunktionerna förbättras.

Fabric tillhandahåller en öppen och styrd datasjö, kallad OneLake, som den underliggande SaaS-lagringen. Både OneLake och Azure Databricks använder Delta Parquet-formatet. För att komma åt dina Azure Databricks data från OneLake kan du mirror Azure Databricks Unity Catalog i Fabric för att integrera data utan replikering eller dataförflyttning. Med den här integreringen kan du utöka dina Azure Databricks analyssystem med generativ AI ovanpå OneLake.

Du kan också använda Direct Lake-läge i Power BI på dina Azure Databricks data i OneLake. Direct Lake-läget förenklar serveringsskiktet och förbättrar rapportprestanda. OneLake stöder API:er för Azure Data Lake Storage och lagrar alla tabelldata i Delta Parquet-format.

Därför kan Azure Databricks-notebooks använda OneLake-slutpunkter för att komma åt lagrade data. Upplevelsen är densamma som att få tillgång till data genom ett Fabric-lager. Med den här integreringen kan du använda Fabric eller Azure Databricks utan att omforma dina data.

Arkitektur

Ladda ned en Visio-fil av den här arkitekturen.

Dataflöde

Följande dataflöde motsvarar föregående diagram:

Använd befintliga Azure Data Factory pipelines för att mata in strukturerade och ostrukturerade data från källsystem och landa dem i den befintliga datasjön.
Du kan använda Microsoft Dynamics 365 datakällor för att skapa centraliserade BI-instrumentpaneler på förhöjda datauppsättningar med hjälp av Azure Synapse Link eller Microsoft Fabric Link. Ta tillbaka de sammansvetsade, bearbetade data till Microsoft Dynamics 365 och Power BI för ytterligare analys.
Strömmande data kan matas in via Azure Event Hubs eller Azure IoT Hub, beroende på vilka protokoll som skickar dessa meddelanden.
I den kalla vägen kan du använda Azure Databricks för att föra in strömmande data i den centraliserade datasjön för vidare analys, lagring och rapportering. Dessa data kan sedan förenas med andra datakällor för batchanalys.
I direktflödet kan du analysera data i realtid och skapa instrumentpaneler i realtid med Microsoft Fabric Real-Time Intelligence.
Du kan använda befintliga Azure Databricks notebook-filer för att utföra datarensning, enande och analyser. Överväg att använda medallionarkitektur som:
- Bronze, som innehåller rådata.
- Silver, som innehåller rensade, filtrerade data.
- Gold, som lagrar aggregerade data som är användbara för affärsanalys.
För gyllene data eller ett informationslager fortsätter du att använda Azure Databricks SQL eller skapar en spegling av Azure Databricks Unity Catalog i Fabric. Om du vill aktivera rapportering och analys på en Fabric lakehouse skapar du en semantisk modell explicit och skapar Power BI instrumentpaneler med hjälp av Direct Lake eller DirectQuery för höga prestanda. Mer information finns i Semantiska modeller i Fabric.

Följande verktyg används för styrning, samarbete, säkerhet, prestanda och kostnadsövervakning.

Identifiera och styra:
- Microsoft Purview tillhandahåller dataidentifieringstjänster, klassificering av känsliga data och styrningsinsikter i dataegendomen.
- Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor.
Plattformsresurser:
- Microsoft Entra ID tillhandahåller enkel inloggning (SSO) för Azure Databricks användare. Azure Databricks stöder automatiserad användaretablering med Microsoft Entra-ID för att:
  - Skapa nya användare.
  - Tilldela varje användare en åtkomstnivå.
  - Ta bort användare och neka dem åtkomst.
- Microsoft Cost Management tillhandahåller finansiella styrningstjänster för Azure-arbetsbelastningar.
- Azure Key Vault hanterar hemligheter, nycklar och certifikat.
- Azure Monitor samlar in och analyserar Azure-resurstelemetri. Den här tjänsten maximerar prestanda och tillförlitlighet genom att proaktivt identifiera problem.
- Microsoft Defender för molnet tillhandahåller hantering av säkerhetsstatus och skydd mot hot för Azure resurser och arbetsbelastningar.
- Azure DevOps tillhandahåller kontinuerlig integrering och kontinuerlig distribution (CI/CD) och andra funktioner för integrerad versionskontroll.
- GitHub tillhandahåller funktioner för versionskontroll och samarbetsutveckling för hantering av kod- och distributionspipelines.

Komponenter

Data Lake Storage är en skalbar datalagringstjänst som är utformad för strukturerade och ostrukturerade data. I den här arkitekturen fungerar Data Lake Storage som den underliggande infrastrukturen för Delta Lake. Det är det primära lagringslagret för rådata och bearbetade data, vilket möjliggör effektiv datainmatning, lagring och hämtning för analys- och maskininlärningsarbetsbelastningar.
Data Factory är en molnbaserad dataintegreringstjänst som samordnar och automatiserar dataflytt och transformering. I den här arkitekturen skapar, schemalägger och samordnar Data Factory datapipelines som flyttar och transformerar data mellan olika datalager och tjänster.
Event Hubs är en datainmatningstjänst i realtid som kan bearbeta miljontals händelser per sekund från valfri källa. I den här arkitekturen samlar Event Hubs in och strömmar stora mängder data från olika källor för att möjliggöra realtidsanalys och händelsedriven bearbetning.
IoT Hub är en hanterad tjänst som förbättrar säkerheten och tillförlitlig kommunikation mellan IoT-enheter (Internet of Things) och molnet. I den här arkitekturen underlättar IoT Hub inmatning, bearbetning och analys av telemetridata från IoT-enheter för att tillhandahålla insikter i realtid och möjliggöra fjärrövervakning.
Microsoft Dataverse är en skalbar dataplattform som organisationer kan använda för att lagra och hantera data som företagsprogram använder på ett säkert sätt. I den här arkitekturen fungerar den som en datakälla som matar in i analyspipelinen via Azure Synapse Link eller Microsoft Fabric Link.
- Azure Synapse Link är en dataintegreringsfunktion som ansluter Dynamics-program med antingen Azure Synapse Analytics eller Data Lake Storage. I den här arkitekturen kopieras data nästan i realtid från Dataverse till Data Lake Storage.
- Microsoft Fabric Link är en dataintegreringsfunktion som ansluter Dynamics-program till Fabric. I den här arkitekturen replikeras data från Dataverse till Fabric nästan i realtid.
Azure Databricks är en Apache Spark-baserad analysplattform för stordatabearbetning, maskininlärning och datateknik. I den här arkitekturen utför den datarensning, transformering och analys med hjälp av medaljongarkitekturskikt.
- Delta Lake är ett lagringslager med öppen källkod som tillför ACID-transaktioner (atomicitet, konsekvens, isolering och varaktighet) till Spark- och stordataarbetslaster. I den här arkitekturen förbättrar Delta Lake datatillförlitligheten och prestandan i datasjön.
- Azure Databricks SQL är en SQL-baserad analystjänst som gör det möjligt för användare att köra SQL-frågor på data som lagras i Azure Databricks. I den här arkitekturen tillhandahåller Azure Databricks SQL ett kraftfullt SQL-gränssnitt för att fråga och analysera data, vilket möjliggör interaktiv analys.
- AI och maskininlärning omfattar en rad tekniker och tjänster som möjliggör utveckling, distribution och hantering av maskininlärningsmodeller. I den här arkitekturen skapar, tränar och distribuerar AI- och strojové učenie-tjänster förutsägelsemodeller. Med den här funktionen kan du fatta datadrivna beslut.
- Unity Catalog är en datastyrningslösning som tillhandahåller centraliserad åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks arbetsytor. I den här arkitekturen hjälper Unity Catalog till att säkerställa datastyrning och säkerhet genom att tillhandahålla detaljerade åtkomstkontroller, granskning och spårning av data härkomst.
Medallion lakehouse-arkitektur är ett dataarkitekturmönster som organiserar data i brons-, silver- och guldlager för effektiv databearbetning och analys. I den här arkitekturen strukturerar den arbetsflöden för databearbetning med hjälp av Data Lake Storage, Delta Lake och Azure Databricks för att stödja skalbar analys.
Fabric är en omfattande dataplattform som integrerar olika datatjänster och verktyg för att ge en sömlös datahanterings- och analysupplevelse. I den här arkitekturen ansluter och integrerar Fabric data från flera källor, vilket möjliggör omfattande dataanalys och insikter i hela organisationen.
- Real-Time Intelligence är en databehandlingsfunktion som gör det möjligt för organisationer att mata in, bearbeta och analysera data i realtid. Real-Time Intelligence bearbetar strömmande data från olika källor. I den här arkitekturen ger den insikter i realtid och möjliggör automatiserade åtgärder baserat på datamönster.
- OneLake-genvägar skapar en länk på plats mellan OneLake och andra datakällor. I den här arkitekturen förenklar de dataåtkomst och hantering och ger en enhetlig vy över data i hela organisationen.
- Fabric Copilot är en AI-baserad assistent som är integrerad i Fabric arbetsbelastningar. Den använder stora språkmodeller (LLM) för att hjälpa användare att interagera med data med hjälp av naturligt språk. Det förenklar uppgifter som att generera SQL, DAX och transformeringar och skapar rapporter eller instrumentpaneler. Copilot stöder konversationskontext, skapar visualiseringar och hjälper till att skapa analyspipelines. Det hjälper organisationer att påskynda datainsikter och optimera arbetsflöden utan att kräva djupkodningsexpertis.
- En Fabric-dataagent är en intelligent, LLM-baserad tjänst i Fabric som organisationer använder för att ställa frågor om och analysera data i flera källor, inklusive lakehouses, datalager, semantiska modeller, KQL-databaser och speglade databaser, via ett gemensamt gränssnitt. Den stöder komplexa frågor i flera steg, tillämpar anpassad logik via exempelfrågor och agent- eller datakällsinstruktioner och publicerar till Microsoft 365 Copilot eller Teams. Det ger företagsanvändare säker, styrd åtkomst till företagsdata på naturligt språk.
Power BI är en tjänst för affärsanalys som tillhandahåller interaktiva visualiseringar och BI-funktioner (Business Intelligence). I den här arkitekturen visualiserar Power BI data från Fabric och Azure Databricks med hjälp av Direct Lake-läget för bättre prestanda.
Microsoft Purview är en enhetlig datastyrningstjänst som hjälper organisationer att hantera och styra sina data mellan olika källor. I den här arkitekturen katalogiserar den data, spårar ursprung och framtvingar efterlevnad i dataegendomen. Du kan integrera Unity Catalog i Purview för att få åtkomst till Unity Catalog-metadata från Purview.
Microsoft Entra ID är en molnbaserad lösning för identitets- och åtkomsthantering som säkerställer säker inloggning och åtkomst till resurser som Microsoft 365, Azure och andra SaaS-program. I den här arkitekturen tillhandahåller Microsoft Entra-ID säker identitets- och åtkomsthantering för Azure-resurser. Den här funktionen möjliggör säker inloggning, hanterar användaridentiteter och säkerställer auktoriserad åtkomst till data och resurser.
Cost Management är en uppsättning FinOps-verktyg som organisationer kan använda för att analysera, övervaka och optimera Microsoft Cloud kostnader. I den här arkitekturen ger dessa verktyg ekonomisk styrning över Azure-resurser.
Key Vault är en molntjänst som lagrar och hanterar hemligheter, till exempel API-nycklar, lösenord, certifikat och kryptografiska nycklar. I den här arkitekturen kan Azure Databricks hämta hemligheter från Key Vault för att autentisera och komma åt Data Lake Storage, vilket garanterar säker integrering.
Azure Monitor är en övervakningstjänst som ger full stackobservabilitet för program, infrastruktur och nätverk. Med Azure Monitor kan användare samla in, analysera och agera på telemetridata från sina Azure- och lokala miljöer. I den här arkitekturen säkerställer Azure Monitor prestanda och tillförlitlighet genom att proaktivt identifiera problem.
Defender för molnet är en molnbaserad programskyddsplattform som tillhandahåller hantering av säkerhetsstatus och skydd mot hot i Azure- och hybridmiljöer och miljöer med flera moln. I den här arkitekturen skyddar Defender för molnet dataplattformar och arbetsbelastningar genom att identifiera sårbarheter, identifiera hot och tillhandahålla säkerhetsrekommendationer för Azure resurser.
Azure DevOps är en uppsättning utvecklingsverktyg som stöder en samarbetskultur och effektiviserade processer. De här verktygen gör det möjligt för utvecklare, projektledare och deltagare att utveckla programvara mer effektivt. Azure DevOps innehåller integrerade funktioner som Azure-tavlor, Azure-lagringsplatser, Azure-pipelines, Azure Test Plans och Azure Artifacts. Du kan komma åt dessa funktioner via en webbläsare eller en integrerad utvecklingsmiljöklient. I den här arkitekturen har Azure DevOps stöd för automatiserad distribution och versionskontroll för datapipelines och notebook-filer.
GitHub är en molnbaserad Värdtjänst för Git-lagringsplatser som förenklar versionskontroll och samarbete för utvecklare. Individer och team kan lagra och hantera sin kod, spåra ändringar och samarbeta i projekt. I den här arkitekturen integreras GitHub med Azure DevOps för att framtvinga automatisering och efterlevnad i utvecklingsarbetsflöden och distributionspipelines för Data Factory, Azure Databricks och Fabric.

Alternativ

För att skapa en oberoende miljö i Fabric, se Greenfield lakehouse on Fabric.
Information om hur du migrerar en lokal SQL-analysmiljö till Fabric finns i Moderna informationslager för SMB.

Tjänstalternativ i den här arkitekturen

Batch-inmatning
- Du kan också använda datapipelines i Fabric för dataintegrering i stället för Data Factory-pipelines. Valet beror på flera faktorer. Mer information finns i Skillnader mellan Azure Data Factory och Fabric Data Factory.
Microsoft Dynamics 365-inmatning
- Om du använder Data Lake Storage som datalager och vill importera Dataverse-data, använder du Azure Synapse Link för Dataverse med Data Lake Storage. För Dynamics 365-appar för ekonomi och verksamhet, se Välj ekonomi- och verksamhetsdata i Azure Synapse Link för Dataverse.
- Om du använder ett Fabric lakehouse som datasjölagring kan du läsa Länka din Dataverse-miljö till Fabric.
Datainmatning för direktuppspelning
- Beslutet mellan Azure IoT och Event Hubs beror på källan till strömmande data, om du behöver kloning och dubbelriktad kommunikation med rapporteringsenheterna och de protokoll som krävs. Mer information finns i Compare IoT Hub and Event Hubs.
Sjöhus
- En Fabric lakehouse är en enhetlig dataarkitekturplattform för att hantera och analysera strukturerade och ostrukturerade data i ett öppet format som främst använder Delta Parquet-filer. Den stöder två lagringstyper. Dessa lagringstyper är hanterade tabeller som CSV, Parquet eller Delta och ohanterade filer. Hanterade tabeller identifieras automatiskt. Ohanterade filer kräver explicit skapande av tabeller. Plattformen möjliggör datatransformeringar via Spark- eller SQL-slutpunkter och integreras med andra Fabric komponenter. Den här integreringen tillåter datadelning utan duplicering. Det här konceptet överensstämmer med den vanliga medaljongarkitekturen som används i analytiska arbetsbelastningar. Mer information finns i Lakehouse i Fabric.
realtidsanalys
- Azure Databricks
  - Om du har en befintlig Azure Databricks lösning kanske du vill fortsätta att använda Spark-strukturerad direktuppspelning för realtidsanalys. Mer information finns i Streaming på Azure Databricks.
- Tyg
  - Om du tidigare använde andra Azure tjänster för realtidsanalys eller inte har någon befintlig lösning för realtidsanalys kan du läsa Real-time Intelligence kontra Azure streaminglösningar.
  - Strukturerad strömning i Fabric använder Spark Structured Streaming för att bearbeta och inta livedataströmmar som tabeller som kontinuerligt utökas med nya data. Strukturerad strömning stöder olika filkällor, till exempel CSV, JSON, ORC, Parquet och meddelandetjänster som Kafka och Event Hubs. Den här metoden säkerställer skalbar och feltolerant dataströmbearbetning, vilket optimerar produktionsmiljöer med högt dataflöde. Mer information finns i Dataströmning till ett sjöhus med Spark.
Datateknik
- Använd Fabric eller Azure Databricks för att skriva Spark-anteckningsböcker. Mer information finns i Använd Fabric-anteckningsböcker. Mer information om hur Fabric-notebook-filer jämförs med vad Azure Synapse Spark tillhandahåller finns i Compare Fabric Data Engineering and Azure Synapse Spark. Mer information om Azure Databricks-anteckningsböcker finns i Introduction to Azure Databricks notebooks.
informationslager eller guldlager
- Du kan använda antingen Fabric eller Azure Databricks för att skapa ett SQL-baserat lager eller ett guldlager. En beslutsguide om hur du väljer ett informationslager eller en guldlagerlagringslösning i Fabric finns i Välj ett datalager. Mer information om SQL-lagertyper i Azure Databricks finns i SQL-lagertyper.
Datavetenskap
- Använd antingen Fabric eller Azure Databricks för datavetenskapsfunktioner. Mer information om Fabric Data Science-erbjudandet finns i Data Science i Fabric. Mer information om Azure Databricks-erbjudandet finns i AI och maskininlärning på Azure Databricks.
- Fabric Data Science skiljer sig från strojové učenie. strojové učenie är en omfattande lösning för att hantera arbetsflöden och distribuera maskininlärningsmodeller. Fabric Data Science är skräddarsytt för ett analys- och rapporteringsscenario.
Power BI-
- Azure Databricks integrerat med Power BI möjliggör databehandling och visualisering. Mer information finns i Ansluta Power BI till Azure Databricks.
- Genom att spegla Azure Databricks Unity Catalog i Fabric kan du få åtkomst till data som Azure Databricks Unity Catalog hanterar direkt i Fabric-arbetsbelastningen. Mer information finns i Mirror Azure Databricks Unity Catalog. Du kan köra frågor mot dessa data från Power BI i Direct Lake-läge utan att kopiera data till služba Power BI.

Scenarioinformation

Små och medelstora företag som har en befintlig Azure Databricks-miljö och eventuellt en lakehouse-arkitektur kan dra nytta av detta mönster. De använder för närvarande ett Azure ETL-verktyg (extract, transform, load), till exempel Data Factory och rapporter i Power BI. De kan dock också ha flera datakällor som använder olika proprietära dataformat i samma datasjö, vilket leder till problem med duplicering av data och inlåsning till en leverantör. Den här situationen kan komplicera datahanteringen och öka beroendet av specifika leverantörer. De kan också behöva uppdaterad och nästan realtidsbaserad rapportering för att fatta beslut och vill införa AI-verktyg i hela verksamheten.

Fabric är en öppen, samlad och kontrollerad SaaS-plattform som du kan använda för att:

Centralisera data i OneLake för att lagra, hantera och analysera data på en enda plats utan problem med leverantörslåsning.
Förnya snabbare med integreringar till Microsoft 365-appar.
Få snabba insikter med fördelarna med Power BI Direct Lake-läge.
Dra nytta av Copilot i varje Fabric upplevelse.
Påskynda analysen genom att utveckla AI-modeller på en enda grund.
Håll data på plats utan förflyttning, vilket minskar den tid som dataexperter behöver för att ge värde.

Bidragsgivare

Microsoft ansvarar för den här artikeln. Följande bidragsgivare skrev den här artikeln.

Huvudförfattare:

Naren Jogendran | Molnlösningsarkitekt
Bonita Rui | Molnlösningsarkitekt

Om du vill se linkedin-profiler som inte är offentliga loggar du in på LinkedIn.

Nästa steg

datasjöar

Feedback

Var den här sidan till hjälp?