Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln innehåller syntaxexempel på hur du använder Apache Spark för att fråga efter data som delas med OpenSharing. Använd nyckelordet deltasharing som formatalternativ för DataFrame-åtgärder.
Andra alternativ för att fråga efter delade data
Du kan också skapa frågor som använder delade tabellnamn i OpenSharing-kataloger som registrerats i metaarkivet, till exempel de i följande exempel:
SQL
SELECT * FROM shared_table_name
Python
spark.read.table("shared_table_name")
Mer information om hur du konfigurerar OpenSharing i Azure Databricks och kör frågor mot data med hjälp av delade tabellnamn finns i Läsa data som delas via Databricks-till-Databricks OpenSharing (för mottagare).
Du kan använda Structured Streaming för att bearbeta poster i delade tabeller stegvis. Om du vill använda Structured Streaming måste du aktivera historikdelning för tabellen. Se även ALTER SHARE. Historikdelning kräver Databricks Runtime 12.2 LTS eller senare.
Om den delade tabellen har ändringsdataflöde aktiverat för käll-Delta-tabellen och historik aktiverat på delningen, kan du använda ändringsdataflöde när du läser en OpenSharing-delning med Structured Streaming eller batchbearbetning. Se Använda ändringsdataflöde på Azure Databricks.
Läs med formatnyckelordet OpenSharing
Nyckelordet deltasharing stöds för Apache Spark DataFrame-läsåtgärder, enligt följande exempel:
df = (spark.read
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Läsa ändringsdataflöde för delade OpenSharing-tabeller
För tabeller som har historiken delad och ändringsdatafeed aktiverad kan du läsa ändringsdataflödesposter med Apache Spark DataFrames. Historikdelning kräver Databricks Runtime 12.2 LTS eller senare.
df = (spark.read
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.option("endingTimestamp", "2021-05-21 12:00:00")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Läs OpenSharing-delade tabeller med strukturerad direktuppspelning
För tabeller som har delad historik kan du använda den delade tabellen som källa för strukturerad direktuppspelning. Historikdelning kräver Databricks Runtime 12.2 LTS eller senare.
streaming_df = (spark.readStream
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)