Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här dokumentationen har dragits tillbaka och kanske inte uppdateras. De produkter, tjänster eller tekniker som nämns i det här innehållet stöds inte längre. Se Pandas API på Spark.
Kommentar
Koalas är inaktuell. Om du försöker använda Koalas i kluster som kör Databricks Runtime 10.0 och senare visas ett informationsmeddelande som rekommenderar att du använder Pandas API på Spark i stället.
Koalas ger en direkt ersättning för pandas. Pandas används ofta av dataforskare och är ett Python-paket som tillhandahåller lätthanterade datastrukturer och dataanalysverktyg för programmeringsspråket Python. Pandas skalar dock inte ut till stordata. Koalas fyller det här tomrummet genom att tillhandahålla Pandas motsvarande API:er som fungerar på Apache Spark. Koalas är användbart inte bara för Pandas-användare utan även PySpark-användare, eftersom Koalas stöder många uppgifter som är svåra att göra med PySpark, till exempel att rita data direkt från en PySpark DataFrame.
Krav
- Koalas ingår i kluster som kör Databricks Runtime 7.3 till 9.1. För kluster som kör Databricks Runtime 10.0 och senare använder du Pandas API på Spark i stället.
- Om du vill använda Koalas i ett kluster som kör Databricks Runtime 7.0 eller senare installerar du Koalas som ett Azure Databricks PyPI-bibliotek.
- Om du vill använda Koalas i en IDE, notebook-server eller andra anpassade program som ansluter till ett Azure Databricks-kluster installerar du Databricks Connect och följer installationsanvisningarna för Koalas.
Anteckningsbok
Följande notebook-fil visar hur du migrerar från pandas till Koalas.