Skapa en modern dataplattformsarkitektur för små och medelstora företag med hjälp av Microsoft Fabric och Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory
Microsoft Purview

Lösningsidéer

I den här artikeln beskrivs en lösningsidé. Molnarkitekten kan använda den här vägledningen för att visualisera huvudkomponenterna för en typisk implementering av den här arkitekturen. Använd den här artikeln som utgångspunkt för att utforma en välkonstruerad lösning som överensstämmer med arbetsbelastningens specifika krav.

Den här artikeln beskriver hur små och medelstora företag kan skapa en modern dataplattformsarkitektur genom att kombinera befintliga investeringar i Azure Databricks med en fullständigt hanterad saaS-dataplattform (programvara som en tjänst), till exempel Microsoft Fabric. SaaS-dataplattformar är dataanalyslösningar från slutpunkt till slutpunkt som integreras med verktyg som Azure Machine Learning, Foundry Tools, Power Platform, Microsoft Dynamics 365 och andra Microsoft tekniker.

Förenklad arkitektur

Diagram som visar en förenklad modern dataplattformsarkitektur för små och medelstora företag.

Ladda ned en Visio-fil av den här arkitekturen.

Samverkan mellan Azure Databricks och Fabric ger en robust lösning som minimerar datafragmentering samtidigt som analysfunktionerna förbättras.

Fabric tillhandahåller en öppen och styrd datasjö, kallad OneLake, som den underliggande SaaS-lagringen. Både OneLake och Azure Databricks använder Delta Parquet-formatet. För att komma åt dina Azure Databricks data från OneLake kan du mirror Azure Databricks Unity Catalog i Fabric för att integrera data utan replikering eller dataförflyttning. Med den här integreringen kan du utöka dina Azure Databricks analyssystem med generativ AI ovanpå OneLake.

Du kan också använda Direct Lake-läge i Power BI på dina Azure Databricks data i OneLake. Direct Lake-läget förenklar serveringsskiktet och förbättrar rapportprestanda. OneLake stöder API:er för Azure Data Lake Storage och lagrar alla tabelldata i Delta Parquet-format.

Därför kan Azure Databricks-notebooks använda OneLake-slutpunkter för att komma åt lagrade data. Upplevelsen är densamma som att få tillgång till data genom ett Fabric-lager. Med den här integreringen kan du använda Fabric eller Azure Databricks utan att omforma dina data.

Arkitektur

Diagram som visar en komplett modern dataplattformsarkitektur för små och medelstora företag.

Diagram som visar en modern dataplattformsarkitektur för små och medelstora företag. I steg 1 innehåller inläsnings- och inmatningsavsnittet Azure Event Hubs, Azure IoT Hub, Microsoft Dataverse och Azure Data Factory. En pil pekar från Data Factory till Data Lake Storage, som fungerar som lagringslager och innehåller data som lagras i Delta Lake-format. I Data Lake Storage organiserar Delta Lake data i medalljongnivåerna brons, silver och guld som Azure Databricks bearbetar. Strukturerade och ostrukturerade data flyttas till den befintliga datasjön. I steg 2 pekar en pil märkt Microsoft Fabric Link från Dataverse mot avsnittet för bearbetning och manipulering. En pil med etiketten Azure Synapse Link pekar från Dataverse till Data Lake Storage. I steg 3 pekar en pil från strömmande data till Event Hubs. Steg 4 och 5 visar den kalla respektive den varma vägen. De skiljer sig från Lambda-arkitekturen. Den kalla sökvägen pekar på butiksavsnittet. Snabbflödet pekar på avsnittet för bearbetning och manipulering som innehåller Fabric Real-Time Intelligence, eventstream och eventhouse. Det här avsnittet omfattar även avsnittet för samarbete och konsumtion och innehåller Fabric-instrumentpanelen och Aktivator. I steg 6 delar OneLake och Copilot en sektion med Fabric-dataagent och Fabric-analys. Det omfattar avsnitten process, bearbeta, samarbeta och konsumera. En dubbelsidig pil märkt Speglad Azure Databricks Unity Catalog förbinder Azure Databricks med avsnittet OneLake och Copilot. I steg 7 ansluter en dubbelsidig pil Azure Databricks och Data Lake Storage. I avsnittet samarbete och konsumtion pekar en pil från Data Science och maskininlärning till avsnittet konsumtion och leverans. Avsnittet om användning och leverans omfattar Power Apps, Microsoft Dynamics CRM, Power BI, Azure Functions-appar, Logic Apps och webbappar. Längst ned innehåller ett avsnitt för identifiering och styrning Microsoft Purview och Unity Catalog. Under det avsnittet innehåller plattformsavsnittet Microsoft Entra ID, Microsoft Cost Management, Azure Key Vault, Azure Monitor, Microsoft Defender för molnet, Azure DevOpsoch GitHub.

Ladda ned en Visio-fil av den här arkitekturen.

Dataflöde

Följande dataflöde motsvarar föregående diagram:

  1. Använd befintliga Azure Data Factory pipelines för att mata in strukturerade och ostrukturerade data från källsystem och landa dem i den befintliga datasjön.

  2. Du kan använda Microsoft Dynamics 365 datakällor för att skapa centraliserade BI-instrumentpaneler på förhöjda datauppsättningar med hjälp av Azure Synapse Link eller Microsoft Fabric Link. Ta tillbaka de sammansvetsade, bearbetade data till Microsoft Dynamics 365 och Power BI för ytterligare analys.

  3. Strömmande data kan matas in via Azure Event Hubs eller Azure IoT Hub, beroende på vilka protokoll som skickar dessa meddelanden.

  4. I den kalla vägen kan du använda Azure Databricks för att föra in strömmande data i den centraliserade datasjön för vidare analys, lagring och rapportering. Dessa data kan sedan förenas med andra datakällor för batchanalys.

  5. I direktflödet kan du analysera data i realtid och skapa instrumentpaneler i realtid med Microsoft Fabric Real-Time Intelligence.

  6. Du kan använda befintliga Azure Databricks notebook-filer för att utföra datarensning, enande och analyser. Överväg att använda medallionarkitektur som:

    • Bronze, som innehåller rådata.
    • Silver, som innehåller rensade, filtrerade data.
    • Gold, som lagrar aggregerade data som är användbara för affärsanalys.
  7. För gyllene data eller ett informationslager fortsätter du att använda Azure Databricks SQL eller skapar en spegling av Azure Databricks Unity Catalog i Fabric. Om du vill aktivera rapportering och analys på en Fabric lakehouse skapar du en semantisk modell explicit och skapar Power BI instrumentpaneler med hjälp av Direct Lake eller DirectQuery för höga prestanda. Mer information finns i Semantiska modeller i Fabric.

Följande verktyg används för styrning, samarbete, säkerhet, prestanda och kostnadsövervakning.

  • Identifiera och styra:

    • Microsoft Purview tillhandahåller dataidentifieringstjänster, klassificering av känsliga data och styrningsinsikter i dataegendomen.

    • Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor.

  • Plattformsresurser:

    • Microsoft Entra ID tillhandahåller enkel inloggning (SSO) för Azure Databricks användare. Azure Databricks stöder automatiserad användaretablering med Microsoft Entra-ID för att:

      • Skapa nya användare.
      • Tilldela varje användare en åtkomstnivå.
      • Ta bort användare och neka dem åtkomst.
    • Microsoft Cost Management tillhandahåller finansiella styrningstjänster för Azure-arbetsbelastningar.

    • Azure Key Vault hanterar hemligheter, nycklar och certifikat.

    • Azure Monitor samlar in och analyserar Azure-resurstelemetri. Den här tjänsten maximerar prestanda och tillförlitlighet genom att proaktivt identifiera problem.

    • Microsoft Defender för molnet tillhandahåller hantering av säkerhetsstatus och skydd mot hot för Azure resurser och arbetsbelastningar.

    • Azure DevOps tillhandahåller kontinuerlig integrering och kontinuerlig distribution (CI/CD) och andra funktioner för integrerad versionskontroll.

    • GitHub tillhandahåller funktioner för versionskontroll och samarbetsutveckling för hantering av kod- och distributionspipelines.

Komponenter

  • Data Lake Storage är en skalbar datalagringstjänst som är utformad för strukturerade och ostrukturerade data. I den här arkitekturen fungerar Data Lake Storage som den underliggande infrastrukturen för Delta Lake. Det är det primära lagringslagret för rådata och bearbetade data, vilket möjliggör effektiv datainmatning, lagring och hämtning för analys- och maskininlärningsarbetsbelastningar.

  • Data Factory är en molnbaserad dataintegreringstjänst som samordnar och automatiserar dataflytt och transformering. I den här arkitekturen skapar, schemalägger och samordnar Data Factory datapipelines som flyttar och transformerar data mellan olika datalager och tjänster.

  • Event Hubs är en datainmatningstjänst i realtid som kan bearbeta miljontals händelser per sekund från valfri källa. I den här arkitekturen samlar Event Hubs in och strömmar stora mängder data från olika källor för att möjliggöra realtidsanalys och händelsedriven bearbetning.

  • IoT Hub är en hanterad tjänst som förbättrar säkerheten och tillförlitlig kommunikation mellan IoT-enheter (Internet of Things) och molnet. I den här arkitekturen underlättar IoT Hub inmatning, bearbetning och analys av telemetridata från IoT-enheter för att tillhandahålla insikter i realtid och möjliggöra fjärrövervakning.

  • Microsoft Dataverse är en skalbar dataplattform som organisationer kan använda för att lagra och hantera data som företagsprogram använder på ett säkert sätt. I den här arkitekturen fungerar den som en datakälla som matar in i analyspipelinen via Azure Synapse Link eller Microsoft Fabric Link.

    • Azure Synapse Link är en dataintegreringsfunktion som ansluter Dynamics-program med antingen Azure Synapse Analytics eller Data Lake Storage. I den här arkitekturen kopieras data nästan i realtid från Dataverse till Data Lake Storage.

    • Microsoft Fabric Link är en dataintegreringsfunktion som ansluter Dynamics-program till Fabric. I den här arkitekturen replikeras data från Dataverse till Fabric nästan i realtid.

  • Azure Databricks är en Apache Spark-baserad analysplattform för stordatabearbetning, maskininlärning och datateknik. I den här arkitekturen utför den datarensning, transformering och analys med hjälp av medaljongarkitekturskikt.

    • Delta Lake är ett lagringslager med öppen källkod som tillför ACID-transaktioner (atomicitet, konsekvens, isolering och varaktighet) till Spark- och stordataarbetslaster. I den här arkitekturen förbättrar Delta Lake datatillförlitligheten och prestandan i datasjön.

    • Azure Databricks SQL är en SQL-baserad analystjänst som gör det möjligt för användare att köra SQL-frågor på data som lagras i Azure Databricks. I den här arkitekturen tillhandahåller Azure Databricks SQL ett kraftfullt SQL-gränssnitt för att fråga och analysera data, vilket möjliggör interaktiv analys.

    • AI och maskininlärning omfattar en rad tekniker och tjänster som möjliggör utveckling, distribution och hantering av maskininlärningsmodeller. I den här arkitekturen skapar, tränar och distribuerar AI- och strojové učenie-tjänster förutsägelsemodeller. Med den här funktionen kan du fatta datadrivna beslut.

    • Unity Catalog är en datastyrningslösning som tillhandahåller centraliserad åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks arbetsytor. I den här arkitekturen hjälper Unity Catalog till att säkerställa datastyrning och säkerhet genom att tillhandahålla detaljerade åtkomstkontroller, granskning och spårning av data härkomst.

  • Medallion lakehouse-arkitektur är ett dataarkitekturmönster som organiserar data i brons-, silver- och guldlager för effektiv databearbetning och analys. I den här arkitekturen strukturerar den arbetsflöden för databearbetning med hjälp av Data Lake Storage, Delta Lake och Azure Databricks för att stödja skalbar analys.

  • Fabric är en omfattande dataplattform som integrerar olika datatjänster och verktyg för att ge en sömlös datahanterings- och analysupplevelse. I den här arkitekturen ansluter och integrerar Fabric data från flera källor, vilket möjliggör omfattande dataanalys och insikter i hela organisationen.

    • Real-Time Intelligence är en databehandlingsfunktion som gör det möjligt för organisationer att mata in, bearbeta och analysera data i realtid. Real-Time Intelligence bearbetar strömmande data från olika källor. I den här arkitekturen ger den insikter i realtid och möjliggör automatiserade åtgärder baserat på datamönster.

    • OneLake-genvägar skapar en länk på plats mellan OneLake och andra datakällor. I den här arkitekturen förenklar de dataåtkomst och hantering och ger en enhetlig vy över data i hela organisationen.

    • Fabric Copilot är en AI-baserad assistent som är integrerad i Fabric arbetsbelastningar. Den använder stora språkmodeller (LLM) för att hjälpa användare att interagera med data med hjälp av naturligt språk. Det förenklar uppgifter som att generera SQL, DAX och transformeringar och skapar rapporter eller instrumentpaneler. Copilot stöder konversationskontext, skapar visualiseringar och hjälper till att skapa analyspipelines. Det hjälper organisationer att påskynda datainsikter och optimera arbetsflöden utan att kräva djupkodningsexpertis.

    • En Fabric-dataagent är en intelligent, LLM-baserad tjänst i Fabric som organisationer använder för att ställa frågor om och analysera data i flera källor, inklusive lakehouses, datalager, semantiska modeller, KQL-databaser och speglade databaser, via ett gemensamt gränssnitt. Den stöder komplexa frågor i flera steg, tillämpar anpassad logik via exempelfrågor och agent- eller datakällsinstruktioner och publicerar till Microsoft 365 Copilot eller Teams. Det ger företagsanvändare säker, styrd åtkomst till företagsdata på naturligt språk.

  • Power BI är en tjänst för affärsanalys som tillhandahåller interaktiva visualiseringar och BI-funktioner (Business Intelligence). I den här arkitekturen visualiserar Power BI data från Fabric och Azure Databricks med hjälp av Direct Lake-läget för bättre prestanda.

  • Microsoft Purview är en enhetlig datastyrningstjänst som hjälper organisationer att hantera och styra sina data mellan olika källor. I den här arkitekturen katalogiserar den data, spårar ursprung och framtvingar efterlevnad i dataegendomen. Du kan integrera Unity Catalog i Purview för att få åtkomst till Unity Catalog-metadata från Purview.

  • Microsoft Entra ID är en molnbaserad lösning för identitets- och åtkomsthantering som säkerställer säker inloggning och åtkomst till resurser som Microsoft 365, Azure och andra SaaS-program. I den här arkitekturen tillhandahåller Microsoft Entra-ID säker identitets- och åtkomsthantering för Azure-resurser. Den här funktionen möjliggör säker inloggning, hanterar användaridentiteter och säkerställer auktoriserad åtkomst till data och resurser.

  • Cost Management är en uppsättning FinOps-verktyg som organisationer kan använda för att analysera, övervaka och optimera Microsoft Cloud kostnader. I den här arkitekturen ger dessa verktyg ekonomisk styrning över Azure-resurser.

  • Key Vault är en molntjänst som lagrar och hanterar hemligheter, till exempel API-nycklar, lösenord, certifikat och kryptografiska nycklar. I den här arkitekturen kan Azure Databricks hämta hemligheter från Key Vault för att autentisera och komma åt Data Lake Storage, vilket garanterar säker integrering.

  • Azure Monitor är en övervakningstjänst som ger full stackobservabilitet för program, infrastruktur och nätverk. Med Azure Monitor kan användare samla in, analysera och agera på telemetridata från sina Azure- och lokala miljöer. I den här arkitekturen säkerställer Azure Monitor prestanda och tillförlitlighet genom att proaktivt identifiera problem.

  • Defender för molnet är en molnbaserad programskyddsplattform som tillhandahåller hantering av säkerhetsstatus och skydd mot hot i Azure- och hybridmiljöer och miljöer med flera moln. I den här arkitekturen skyddar Defender för molnet dataplattformar och arbetsbelastningar genom att identifiera sårbarheter, identifiera hot och tillhandahålla säkerhetsrekommendationer för Azure resurser.

  • Azure DevOps är en uppsättning utvecklingsverktyg som stöder en samarbetskultur och effektiviserade processer. De här verktygen gör det möjligt för utvecklare, projektledare och deltagare att utveckla programvara mer effektivt. Azure DevOps innehåller integrerade funktioner som Azure-tavlor, Azure-lagringsplatser, Azure-pipelines, Azure Test Plans och Azure Artifacts. Du kan komma åt dessa funktioner via en webbläsare eller en integrerad utvecklingsmiljöklient. I den här arkitekturen har Azure DevOps stöd för automatiserad distribution och versionskontroll för datapipelines och notebook-filer.

  • GitHub är en molnbaserad Värdtjänst för Git-lagringsplatser som förenklar versionskontroll och samarbete för utvecklare. Individer och team kan lagra och hantera sin kod, spåra ändringar och samarbeta i projekt. I den här arkitekturen integreras GitHub med Azure DevOps för att framtvinga automatisering och efterlevnad i utvecklingsarbetsflöden och distributionspipelines för Data Factory, Azure Databricks och Fabric.

Alternativ

Tjänstalternativ i den här arkitekturen

  • Batch-inmatning

  • Microsoft Dynamics 365-inmatning

  • Datainmatning för direktuppspelning

    • Beslutet mellan Azure IoT och Event Hubs beror på källan till strömmande data, om du behöver kloning och dubbelriktad kommunikation med rapporteringsenheterna och de protokoll som krävs. Mer information finns i Compare IoT Hub and Event Hubs.
  • Sjöhus

    • En Fabric lakehouse är en enhetlig dataarkitekturplattform för att hantera och analysera strukturerade och ostrukturerade data i ett öppet format som främst använder Delta Parquet-filer. Den stöder två lagringstyper. Dessa lagringstyper är hanterade tabeller som CSV, Parquet eller Delta och ohanterade filer. Hanterade tabeller identifieras automatiskt. Ohanterade filer kräver explicit skapande av tabeller. Plattformen möjliggör datatransformeringar via Spark- eller SQL-slutpunkter och integreras med andra Fabric komponenter. Den här integreringen tillåter datadelning utan duplicering. Det här konceptet överensstämmer med den vanliga medaljongarkitekturen som används i analytiska arbetsbelastningar. Mer information finns i Lakehouse i Fabric.
  • realtidsanalys

    • Azure Databricks

      • Om du har en befintlig Azure Databricks lösning kanske du vill fortsätta att använda Spark-strukturerad direktuppspelning för realtidsanalys. Mer information finns i Streaming på Azure Databricks.
    • Tyg

      • Om du tidigare använde andra Azure tjänster för realtidsanalys eller inte har någon befintlig lösning för realtidsanalys kan du läsa Real-time Intelligence kontra Azure streaminglösningar.

      • Strukturerad strömning i Fabric använder Spark Structured Streaming för att bearbeta och inta livedataströmmar som tabeller som kontinuerligt utökas med nya data. Strukturerad strömning stöder olika filkällor, till exempel CSV, JSON, ORC, Parquet och meddelandetjänster som Kafka och Event Hubs. Den här metoden säkerställer skalbar och feltolerant dataströmbearbetning, vilket optimerar produktionsmiljöer med högt dataflöde. Mer information finns i Dataströmning till ett sjöhus med Spark.

  • Datateknik

  • informationslager eller guldlager

    • Du kan använda antingen Fabric eller Azure Databricks för att skapa ett SQL-baserat lager eller ett guldlager. En beslutsguide om hur du väljer ett informationslager eller en guldlagerlagringslösning i Fabric finns i Välj ett datalager. Mer information om SQL-lagertyper i Azure Databricks finns i SQL-lagertyper.
  • Datavetenskap

    • Använd antingen Fabric eller Azure Databricks för datavetenskapsfunktioner. Mer information om Fabric Data Science-erbjudandet finns i Data Science i Fabric. Mer information om Azure Databricks-erbjudandet finns i AI och maskininlärning på Azure Databricks.

    • Fabric Data Science skiljer sig från strojové učenie. strojové učenie är en omfattande lösning för att hantera arbetsflöden och distribuera maskininlärningsmodeller. Fabric Data Science är skräddarsytt för ett analys- och rapporteringsscenario.

  • Power BI-

    • Azure Databricks integrerat med Power BI möjliggör databehandling och visualisering. Mer information finns i Ansluta Power BI till Azure Databricks.

    • Genom att spegla Azure Databricks Unity Catalog i Fabric kan du få åtkomst till data som Azure Databricks Unity Catalog hanterar direkt i Fabric-arbetsbelastningen. Mer information finns i Mirror Azure Databricks Unity Catalog. Du kan köra frågor mot dessa data från Power BI i Direct Lake-läge utan att kopiera data till služba Power BI.

Scenarioinformation

Små och medelstora företag som har en befintlig Azure Databricks-miljö och eventuellt en lakehouse-arkitektur kan dra nytta av detta mönster. De använder för närvarande ett Azure ETL-verktyg (extract, transform, load), till exempel Data Factory och rapporter i Power BI. De kan dock också ha flera datakällor som använder olika proprietära dataformat i samma datasjö, vilket leder till problem med duplicering av data och inlåsning till en leverantör. Den här situationen kan komplicera datahanteringen och öka beroendet av specifika leverantörer. De kan också behöva uppdaterad och nästan realtidsbaserad rapportering för att fatta beslut och vill införa AI-verktyg i hela verksamheten.

Fabric är en öppen, samlad och kontrollerad SaaS-plattform som du kan använda för att:

  • Centralisera data i OneLake för att lagra, hantera och analysera data på en enda plats utan problem med leverantörslåsning.

  • Förnya snabbare med integreringar till Microsoft 365-appar.

  • Få snabba insikter med fördelarna med Power BI Direct Lake-läge.

  • Dra nytta av Copilot i varje Fabric upplevelse.

  • Påskynda analysen genom att utveckla AI-modeller på en enda grund.

  • Håll data på plats utan förflyttning, vilket minskar den tid som dataexperter behöver för att ge värde.

Bidragsgivare

Microsoft ansvarar för den här artikeln. Följande bidragsgivare skrev den här artikeln.

Huvudförfattare:

Om du vill se linkedin-profiler som inte är offentliga loggar du in på LinkedIn.

Nästa steg