Conexión a bases de datos externas y catálogos

Azure Databricks proporciona varias opciones para consultar y acceder a datos en bases de datos externas y catálogos sin migrar los datos. Elija el enfoque en función del patrón de acceso, los requisitos de gobernanza, las necesidades de escritura y las preferencias de proceso.

Elección de un enfoque

En la tabla siguiente se compara la federación de consultas y la federación del catálogo para ayudarle a elegir el enfoque adecuado.

Description Ejecución de consultas Soporte de escritura Governance Más adecuado para
Federación de consultas Ejecute consultas federadas en bases de datos relacionales externas mediante JDBC, con delegación automática de consultas y gobernanza de Unity Catalog a través de catálogos foráneos. Insertado en la base de datos externa mediante JDBC. La consulta se ejecuta tanto en Azure Databricks como en proceso remoto. No compatible (solo lectura). Catálogo foráneo de Unity con controles de acceso de nivel de tabla. Informes ad hoc, BI y acceso de prueba de concepto a las bases de datos operativas.
Federación del catálogo Conecte plataformas de catálogo externo (como Metastore de Hive, AWS Glue o Snowflake) para que pueda consultar sus datos directamente en el almacenamiento de objetos. Se ejecuta directamente en el almacenamiento de objetos solo con el cómputo de Azure Databricks. Más económico y con mejor rendimiento que la federación de consultas. No compatible (solo lectura). Catálogo foráneo de Unity Catalog con controles de acceso a nivel de tabla. Migrar al catálogo de Unity de forma incremental o mantener un modelo híbrido a largo plazo con datos en un catálogo externo.

Federación de Lakehouse

Lakehouse Federation es la plataforma de federación de consultas Azure Databricks. Proporciona acceso controlado y de solo lectura a datos externos a través de catálogos externos de Unity Catalog, con delegación automática de consultas y controles de acceso granulares a nivel de tabla.

Hay dos tipos de Federación de Lakehouse: federación de consultas y federación de catálogos.

Federación de consultas en comparación con federación de catálogos

En la tabla siguiente se describen las diferencias clave entre la federación de consultas y la federación del catálogo.

Ruta de consulta Caso de uso Introducción a los pasos
Federación de consultas Las consultas de Unity Catalog se envían a la base de datos remota mediante JDBC. La consulta se ejecuta tanto en Azure Databricks como mediante cómputo remoto.
  • Necesita acceso a informes personalizados o acceso de prueba de concepto a los datos operativos almacenados en bases de datos externas.
  • Quiere minimizar el movimiento de datos y mantener el acceso en tiempo real a sistemas externos.

Cuando el origen admite Lakehouse Federation y Lakeflow Connect, Azure Databricks recomienda Lakeflow Connect si el rendimiento en volúmenes de datos más altos y una menor latencia son prioridades.
  • Cree una conexión en el catálogo de Unity con las credenciales de acceso y la dirección URL de JDBC.
  • Cree un catálogo externo mediante la conexión.
  • Conceda privilegios a los usuarios en tablas del catálogo externo.
  • Ejecutar consultas. Se insertan en la base de datos externa.
Federación del catálogo Las consultas de Unity Catalog acceden directamente a la tabla externa en el almacenamiento de objetos. La federación de catálogos está disponible para plataformas que admiten el acceso directo a sus servicios de catálogo y almacenamiento. La consulta solo se ejecuta en los recursos de proceso de Azure Databricks, lo que significa que la federación de catálogos es más rentable y está más optimizada para el rendimiento que la federación de consultas.
  • Va a migrar a Unity Catalog, pero necesita incorporar gradualmente datos gestionados desde un catálogo ajeno.
  • Quiere un modelo híbrido a largo plazo en el que algunos datos permanecen en un catálogo externo y algunos datos los administra Unity Catalog.
  • Cree una conexión en el catálogo de Unity para acceder al catálogo externo.
  • Cree una credencial de almacenamiento y una ubicación externa para las rutas de las tablas.
  • Cree un catálogo extranjero mediante la conexión y la ubicación externa.
  • Conceda privilegios a los usuarios en tablas del catálogo externo.
  • Ejecutar consultas. Estos se ejecutan directamente contra el almacenamiento de objetos.

Orígenes de datos compatibles

Conéctese a las siguientes fuentes mediante la federación de consultas.

Conéctese a las siguientes fuentes mediante la federación de catálogos:

Orígenes de datos de Spark

La API de origen de datos de Spark le permite leer y escribir en bases de datos externas directamente desde Azure Databricks. Úselo cuando Lakehouse Federation no sea compatible con su origen de datos, cuando necesite acceso de escritura o cuando necesite más control sobre la ejecución de consultas y su paralelización.

Databricks Runtime incluye conectores agrupados para bases de datos comunes como PostgreSQL, SQL Server, MySQL, Snowflake y Redshift. Para cualquier base de datos compatible con JDBC, puede usar una conexión de Unity Catalog para JDBC para usar su propio controlador con gestión centralizada de credenciales. También puede instalar conectores de terceros en clústeres dedicados o crear conectores totalmente personalizados en Python mediante la API PySpark DataSource.

Para obtener instrucciones de configuración y detalles completos, consulte Orígenes de datos de Spark.

Recursos adicionales