Pipelinebegränsningar

Följande begränsningar i Lakeflow Spark deklarativa pipelines är viktiga att veta om när du utvecklar dina pipelines:

  • En Azure Databricks-arbetsyta är begränsad till 1 000 samtidiga pipelineuppdateringar. Antalet datauppsättningar som en enda pipeline kan innehålla bestäms av pipelinekonfigurationen och arbetsbelastningens komplexitet.

  • Konfigurationen av en pipeline innehåller referenser till källfiler och mappar.

    • Om konfigurationen endast refererar till enskilda notebook-filer eller filer är gränsen per pipeline 100 källfiler.

    • Om konfigurationen innehåller mappar kan du inkludera upp till 50 källposter som består av filer eller mappar.

      Referenser till en mapp refererar indirekt till filerna i mappen. I det här fallet är gränsen för antalet filer som refereras (direkt eller indirekt) 1 000.

    Om du behöver fler än 100 källfiler kan du ordna dem i mappar. Information om hur du använder mappar för att innehålla källfiler finns i Pipeline-tillgångsläsaren i Lakeflow-pipelineredigeraren.

  • Pipelinedatauppsättningar kan bara definieras en gång. På grund av detta kan de bara vara målet för en enda åtgärd i samtliga pipelines. Undantaget är strömmande tabeller med tilläggsflödesbearbetning, vilket gör att du kan skriva till en strömmande tabell från flera strömmande källor. Se Standardflöden och tilläggsflöden.

  • Identitetskolumner har följande begränsningar. Mer information om identitetskolumner i Delta-tabeller finns i Identitetskolumner.

    • Identitetskolumner stöds inte för tabeller som används som mål för AUTOMATISK CDC-behandling.
    • Identitetskolumner kan omberäknas under uppdateringar av en materialiserad vy. Därför rekommenderar Databricks att du endast använder identitetskolumner i pipelines med strömmande tabeller.
  • Som standard kan materialiserade vyer och strömmande tabeller endast nås av Azure Databricks klienter och program. Information om hur du gör dem tillgängliga för externa system finns i Åtkomst till materialiserade vyer och strömmande tabeller med hjälp av externa system.

  • Det finns begränsningar för Databricks-beräkningskapaciteten som krävs för att köra och fråga Unity Catalog-pipelines. Se Kraven för pipelines som publicerar till Unity Catalog.

  • Frågor om tidsresor i Delta Lake stöds endast med strömmande tabeller och stöds inte med materialiserade vyer. Se Arbeta med tabellhistorik.

  • Du kan inte aktivera Iceberg-läsningar på materialiserade vyer och strömmande tabeller.

  • Funktionen pivot() stöds inte. Åtgärden pivot i Spark kräver ivrig inläsning av indata för att beräkna utdataschemat. Den här funktionen stöds inte i pipelines.

Resurskvoter för Lakeflow Spark deklarativa pipelines finns i Resursgränser.