Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Azure Databricks proporciona varias opciones para consultar y acceder a datos en bases de datos externas y catálogos sin migrar los datos. Elija el enfoque en función del patrón de acceso, los requisitos de gobernanza, las necesidades de escritura y las preferencias de proceso.
Elección de un enfoque
En la tabla siguiente se compara la federación de consultas y la federación del catálogo para ayudarle a elegir el enfoque adecuado.
| Description | Ejecución de consultas | Soporte de escritura | Governance | Más adecuado para | |
|---|---|---|---|---|---|
| Federación de consultas | Ejecute consultas federadas en bases de datos relacionales externas mediante JDBC, con delegación automática de consultas y gobernanza de Unity Catalog a través de catálogos foráneos. | Insertado en la base de datos externa mediante JDBC. La consulta se ejecuta tanto en Azure Databricks como en proceso remoto. | No compatible (solo lectura). | Catálogo foráneo de Unity con controles de acceso de nivel de tabla. | Informes ad hoc, BI y acceso de prueba de concepto a las bases de datos operativas. |
| Federación del catálogo | Conecte plataformas de catálogo externo (como Metastore de Hive, AWS Glue o Snowflake) para que pueda consultar sus datos directamente en el almacenamiento de objetos. | Se ejecuta directamente en el almacenamiento de objetos solo con el cómputo de Azure Databricks. Más económico y con mejor rendimiento que la federación de consultas. | No compatible (solo lectura). | Catálogo foráneo de Unity Catalog con controles de acceso a nivel de tabla. | Migrar al catálogo de Unity de forma incremental o mantener un modelo híbrido a largo plazo con datos en un catálogo externo. |
Federación de Lakehouse
Lakehouse Federation es la plataforma de federación de consultas Azure Databricks. Proporciona acceso controlado y de solo lectura a datos externos a través de catálogos externos de Unity Catalog, con delegación automática de consultas y controles de acceso granulares a nivel de tabla.
Hay dos tipos de Federación de Lakehouse: federación de consultas y federación de catálogos.
Federación de consultas en comparación con federación de catálogos
En la tabla siguiente se describen las diferencias clave entre la federación de consultas y la federación del catálogo.
| Ruta de consulta | Caso de uso | Introducción a los pasos | |
|---|---|---|---|
| Federación de consultas | Las consultas de Unity Catalog se envían a la base de datos remota mediante JDBC. La consulta se ejecuta tanto en Azure Databricks como mediante cómputo remoto. |
Cuando el origen admite Lakehouse Federation y Lakeflow Connect, Azure Databricks recomienda Lakeflow Connect si el rendimiento en volúmenes de datos más altos y una menor latencia son prioridades. |
|
| Federación del catálogo | Las consultas de Unity Catalog acceden directamente a la tabla externa en el almacenamiento de objetos. La federación de catálogos está disponible para plataformas que admiten el acceso directo a sus servicios de catálogo y almacenamiento. La consulta solo se ejecuta en los recursos de proceso de Azure Databricks, lo que significa que la federación de catálogos es más rentable y está más optimizada para el rendimiento que la federación de consultas. |
|
|
Orígenes de datos compatibles
Conéctese a las siguientes fuentes mediante la federación de consultas.
- MySQL
- PostgreSQL
- Teradata
- Oracle
- Amazon Redshift
- Datos de Salesforce 360
- Snowflake
- Microsoft SQL Server
- Azure Synapse (SQL Data Warehouse)
- Google BigQuery
- Databricks
Conéctese a las siguientes fuentes mediante la federación de catálogos:
Orígenes de datos de Spark
La API de origen de datos de Spark le permite leer y escribir en bases de datos externas directamente desde Azure Databricks. Úselo cuando Lakehouse Federation no sea compatible con su origen de datos, cuando necesite acceso de escritura o cuando necesite más control sobre la ejecución de consultas y su paralelización.
Databricks Runtime incluye conectores agrupados para bases de datos comunes como PostgreSQL, SQL Server, MySQL, Snowflake y Redshift. Para cualquier base de datos compatible con JDBC, puede usar una conexión de Unity Catalog para JDBC para usar su propio controlador con gestión centralizada de credenciales. También puede instalar conectores de terceros en clústeres dedicados o crear conectores totalmente personalizados en Python mediante la API PySpark DataSource.
Para obtener instrucciones de configuración y detalles completos, consulte Orígenes de datos de Spark.