Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Formatet text läser varje rad i en textfil som en rad i en DataFrame med en enda value kolumn av typen StringType. Azure Databricks användare använder den ofta för loggparsning, inmatning av rådata före vidare bearbetning eller alla arbetsflöden som kräver direktåtkomst till filinnehåll. Azure Databricks stöder läsning och skrivning av textfiler med Apache Spark, inklusive skrivkomprimering.
Förutsättningar
Azure Databricks kräver inte ytterligare konfiguration för att använda textfiler. För att strömma textfiler behöver du dock automatisk inläsning.
Options
Använd metoderna .option() och .options() i DataFrameReader och DataFrameWriter för att konfigurera textdatakällor. En fullständig lista över alternativ som stöds finns i DataFrameReader textalternativ och DataFrameWriter textalternativ.
Usage
I följande exempel används Wanderbricks-datamängden för att demonstrera läsning och skrivning av textfiler med hjälp av Spark DataFrame API och SQL.
Läsa textfiler med SQL
Om du vill köra frågor mot textfiler utan att registrera en tabell använder du read_files. Behörigheter för Unity Catalog för den externa platsen gäller automatiskt.
SELECT * FROM read_files(
'/Volumes/<catalog>/<schema>/<volume>/review_comments',
format => 'text'
)
Läsa och skriva textfiler
Formatet text kräver en DataFrame med en enda StringType kolumn. Följande exempel skriver Wanderbricks granskningskommentarer till en textfil och läser sedan tillbaka dem.
Python
from pyspark.sql.functions import col
# Write wanderbricks review comments as a text file
df = spark.read.table("samples.wanderbricks.reviews").select(col("comment").alias("value"))
df.write.format("text").save("/Volumes/<catalog>/<schema>/<volume>/review_comments")
# Read a text file — each line becomes a row in the "value" column
df = spark.read.format("text").load("/Volumes/<catalog>/<schema>/<volume>/review_comments")
display(df)
Scala
import org.apache.spark.sql.functions.col
// Write wanderbricks review comments as a text file
val df = spark.read.table("samples.wanderbricks.reviews").select(col("comment").alias("value"))
df.write.format("text").save("/Volumes/<catalog>/<schema>/<volume>/review_comments")
// Read a text file — each line becomes a row in the "value" column
val text = spark.read.format("text").load("/Volumes/<catalog>/<schema>/<volume>/review_comments")
text.show()
Ytterligare resurser
- Läsa och skriva CSV-filer: Om dina textdata är avgränsade eller tabellbaserade tillhandahåller CSV strukturerad parsning med schemainferens, rubrikstöd och konfigurerbara avgränsare.