Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El trabajo de copia es la solución preferida en Microsoft Fabric Data Factory para simplificar el movimiento de datos desde muchos orígenes a muchos destinos, sin necesidad de canalizaciones. Con compatibilidad nativa con varios estilos de entrega, incluida la copia masiva, la copia incremental y la replicación de captura de datos modificados (CDC), el trabajo de copia ofrece la flexibilidad de controlar una amplia gama de escenarios de movimiento de datos, todo ello a través de una experiencia intuitiva y fácil de usar. Tanto si es nuevo en la integración de datos como si solo quiere una manera más rápida de llevar sus datos donde necesitan estar, Copy job ofrece una solución fácil de usar y flexible.
Ventajas
Entre las ventajas del trabajo de copia sobre otros métodos de movimiento de datos se incluyen:
- Fácil de usar: configurar y supervisar la copia de datos con una experiencia sencilla y guiada, sin necesidad de conocimientos técnicos.
- Eficaz: copie solo los datos nuevos o modificados de la última ejecución para ahorrar tiempo y recursos, con pasos manuales mínimos.
- Flexible: elija qué datos se van a mover, asignar columnas, establecer cómo se escriben los datos y programar trabajos para que se ejecuten una o varias veces.
- Alto rendimiento: mueva grandes cantidades de datos de forma rápida y confiable, gracias a un sistema sin servidor y escalable.
También puede visitar la estrategia de movimiento de datos para ver cómo la tarea de copia se compara con la replicación y la actividad de copia en las pipelíneas.
Conceptos
Modos de copia (copia completa, copia incremental)
Puede elegir cómo se copian los datos de origen a destino:
- Copia completa: cada vez que se ejecuta el trabajo, copia todos los datos del origen al destino.
- Copia incremental: la primera ejecución copia todo y las ejecuciones posteriores solo mueven datos nuevos o modificados desde la última ejecución.
Copia incremental (CDC, puntero de referencia)
En la copia incremental, cada ejecución después de la copia completa inicial (denominada "carga posterior") transfiere solo determinados cambios. La tarea de copia realiza un seguimiento y administra automáticamente el estado de la última ejecución exitosa, para determinar qué datos copiar a continuación.
- Cuando el trabajo de copia copia desde una base de datos usando una columna incremental ("columna de marca de agua"), cada carga subsiguiente copia solo las filas con un valor en esa columna mayor que cualquier fila copiada anteriormente.
- Cuando el trabajo de copia se ejecuta desde una base de datos que tiene habilitado CDC, cada carga posterior copia todas las filas insertadas, actualizadas o eliminadas desde la última ejecución exitosa.
- Cuando la tarea de copia replica archivos, cada carga subsiguiente copia solo aquellos archivos que se hayan creado o modificado desde la última ejecución exitosa.
El trabajo de copia admite los siguientes tipos de columnas de marca de agua para la copia incremental desde una base de datos:
- ROWVERSION: columna binaria que cambia automáticamente cada vez que se modifica una fila. Es ideal para sistemas basados en SQL con cargas de trabajo transaccionales de alto rendimiento, ya que cada inserción o actualización se captura de forma confiable sin depender de las marcas de tiempo administradas por la aplicación.
-
Datetime: columnas datetime como
LastUpdatedDatetimeoModifiedAtque almacenan tanto la fecha como la hora. El trabajo de copia usa la marca de tiempo precisa para realizar un seguimiento del progreso incremental entre ejecuciones. Datetime es preferible cuando el origen realiza un seguimiento de los cambios con precisión de alta frecuencia. -
Fecha: columnas de solo fecha, como
LastUpdatedDate. Dado que los valores de fecha no incluyen un componente de hora, el trabajo de copia aplica automáticamente la extracción retrasada del último día para asegurarse de que no hay pérdida de datos ni superposición entre ejecuciones, administrando de forma segura las ventanas incrementales. La fecha es adecuada para procesos por lotes diarios. - String (interpretado como datetime): columnas de cadena cuyos valores se pueden interpretar como datetime. Esto le permite usar la copia incremental incluso cuando las marcas de tiempo se almacenan como cadenas, sin necesidad de convertir ni transformar columnas ni realizar cambios de esquema en el origen.
- Entero: número creciente que realiza un seguimiento de los cambios de fila.
Si la base de datos tiene CDC habilitado, no es necesario elegir una columna incremental: el trabajo de copia detecta automáticamente los cambios.
Si se produce un error en un trabajo de copia, no es necesario preocuparse por la pérdida de datos. El trabajo de copia siempre se reanuda desde el final de la última ejecución exitosa. Un fallo no altera el estado gestionado por la tarea de copia.
Consulte más detalles sobre Change Data Capture (CDC) en la tarea de copia.
Restablecer copia incremental
Tiene la flexibilidad de administrar la copia incremental, incluida la capacidad de restablecerla a una copia completa en la siguiente ejecución. Esto es increíblemente útil cuando hay una discrepancia de datos entre el origen y el destino; simplemente puede dejar que el trabajo de copia realice una copia completa en la siguiente ejecución para resolver el problema y, a continuación, continuar con las actualizaciones incrementales después.
Puede restablecer la copia incremental por trabajo completo o por tabla, lo que le proporciona un control específico. Por ejemplo, puede volver a copiar tablas más pequeñas sin afectar a las más grandes. Esto significa una solución de problemas más inteligente, menos interrupciones y un movimiento de datos más eficaz.
En algunos casos, al editar un trabajo de copia (por ejemplo, actualizar la columna incremental en la tabla de origen), el trabajo de copia restablecerá la copia incremental a una copia completa en la siguiente ejecución. Esto garantiza la coherencia de los datos entre el origen y el destino.
Métodos de Actualización (Append, Overwrite, Merge, SCD Type 2)
También puede decidir cómo se registran los datos en su destino.
De forma predeterminada, la tarea de copia añade nuevos datos, por lo que se mantiene un historial completo. Si lo prefiere, puede elegir combinar (actualizar filas existentes mediante una columna de clave), sobrescribir (reemplazar los datos existentes) o SCD Tipo 2 (conservar el historial de cambios con fechas efectivas). Si selecciona fusionar o SCD Tipo 2, la tarea de copia utiliza la clave principal por defecto, si existe.
- Al copiar en una base de datos: se agregan nuevas filas a las tablas. En el caso de las bases de datos admitidas, también puede optar por combinar, sobrescribir o usar SCD Type 2 para los datos existentes.
- Al copiar en el almacenamiento: los nuevos datos se guardan como archivos nuevos. Si ya existe un archivo con el mismo nombre, se reemplaza.
Al realizar una copia incremental desde el origen para combinarla con el destino, las filas del origen se insertan o se actualizan en el destino. Al realizar la replicación CDC desde el origen y combinar en el destino, las filas del origen se insertan, actualizan o eliminan en el destino. Cuando se usa SCD Tipo 2 con replicación CDC, los cambios se conservan como filas versionadas con fechas efectivas y las eliminaciones se controlan como eliminaciones lógicas.
Consulte más detalles sobre SCD Type 2 en el trabajo de copia de CDC.
Creación y truncamiento automático de tablas en el destino
El trabajo de copia puede crear automáticamente tablas en el destino si aún no existen. Si las tablas de destino ya están disponibles, simplemente puede seleccionarlas como destino. Con las opciones de asignación de columnas flexibles, puede definir fácilmente cómo asignar esquemas de las tablas de origen a las tablas de destino.
También puede truncar los datos de destino antes de la carga completa, lo que garantiza que su origen y destino se sincronicen completamente sin duplicados.
De forma predeterminada, el trabajo de copia no elimina ningún dato en el destino. Al habilitar esta opción:
- La primera ejecución de copia incremental truncará todos los datos del destino antes de cargar el conjunto de datos completo.
- Las copias incrementales posteriores seguirán anexando o mezclando datos sin afectar a los registros existentes.
- Si los clientes más adelante restablecen la copia incremental a la copia completa, al habilitar esta opción se borrará de nuevo el destino antes de cargarlo.
Este enfoque garantiza que el destino permanezca limpio, totalmente sincronizado y sin duplicados, lo que proporciona una base confiable para su solución de ingesta de datos.
| Conector | Creación automática de tablas | Truncar el destino de datos antes de la carga inicial. |
|---|---|---|
| base de datos de Azure SQL |
|
|
| Azure SQL Managed Instance (Instancia Administrada de Azure SQL) |
|
|
| Grupo de SQL de Azure Synapse |
|
|
| Tabla de datos de Fabric Lakehouse |
|
|
| Fabric Warehouse |
|
|
| SQL Server en las instalaciones |
|
|
| Oracle |
|
|
| Copo de nieve |
|
|
| Base de datos SQL en Fabric (versión preliminar) |
|
|
Columnas de auditoría
Las columnas de auditoría son columnas de metadatos adicionales que la tarea de copia puede agregar automáticamente a cada fila que escribe al destino. Al habilitar columnas de auditoría, cada fila de la tabla de destino se puede enriquecer con información como:
- Tiempo de extracción de datos
- Ruta de archivo de origen
- Identificador del espacio de trabajo, Identificador de trabajo de copia, Identificador de ejecución de trabajo de copia y Nombre de trabajo de copia
- Límite inferior de la ventana incremental y límite superior
- Valores personalizados definidos por el usuario
Con las columnas de auditoría, se obtiene el linaje de datos a nivel de fila sin necesidad de código personalizado, lo que habilita los informes de cumplimiento, la depuración de la calidad de los datos y el seguimiento de la frescura de la ingesta de datos.
Consulte más detalles en Audit columns in Copy job (Auditar columnas en trabajo de copia).
Rendimiento
El trabajo de copia optimiza automáticamente el rendimiento de la copia en función del volumen de datos, por lo que se obtiene un movimiento rápido de datos sin ajuste manual. Tanto si va a copiar una tabla de búsqueda pequeña como un registro de transacciones grande, el trabajo de copia aplica automáticamente la estrategia adecuada para cada tabla.
Al copiar datos de tablas grandes, también puede habilitar opcionalmente la creación de particiones automáticas (versión preliminar). Con la creación de particiones automáticas, el trabajo de copia analiza las características de datos y esquema de origen para determinar la estrategia de creación de particiones óptima. Selecciona automáticamente la columna de partición correcta, calcula los límites equilibrados y ejecuta lecturas paralelas, todas sin ninguna entrada del usuario. Esto puede aumentar considerablemente el rendimiento de grandes conjuntos de datos. Puede activar el interruptor de alternancia para el particionamiento automático en Configuración avanzada de su trabajo de copia.
La creación de particiones automáticas es compatible con la copia incremental basada en marcas de agua, incluida la copia completa inicial y la copia incremental, en los siguientes conectores: Amazon RDS para SQL Server, Azure SQL Database, Azure Synapse Analytics (grupo de SQL), Fabric Data Warehouse, SQL Database en Fabric, SQL Server e Instancia administrada de Azure SQL.
Opciones de ejecución (Ejecutar, Programar, Desencadenador de eventos)
Tiene flexibilidad total para decidir cuándo se ejecuta un trabajo de copia: puede ejecutarse una vez o según una programación. Incluso si un trabajo está programado, puede seleccionar Ejecutar en cualquier momento para desencadenarlo manualmente. En la copia incremental, el trabajo desencadenado manualmente solo transferirá los cambios desde la última ejecución.
Con soporte para múltiples horarios en los trabajos de copia, obtendrá un mayor control. Un solo trabajo de copia puede tener varias programaciones, por ejemplo, una que se ejecuta diariamente a las 6 a.m. y otra que se ejecuta semanalmente los domingos. Todas las programaciones se pueden administrar directamente dentro del mismo trabajo de copia, haciendo que la orquestación sea más sencilla, más limpia y más eficaz.
Si usa la actividad de trabajo de copia en una canalización, también puede aprovechar las funcionalidades de orquestación y desencadenador de la canalización. Por ejemplo, puede usar desencadenadores de eventos para iniciar una actividad de trabajo de copia cuando se produzcan eventos específicos, como archivos nuevos que llegan a un lago de datos o cambios en una base de datos.
Consulte más detalles sobre la actividad de trabajo de copia.
Opciones de hospedaje (red virtual, local, nube)
Puede usar la función de Copiar trabajo para mover datos de cualquier origen a cualquier destino, ya sea que los datos estén en el entorno local, en la nube o dentro de una red virtual. En la página de conexión de la tarea de copia, puede elegir entre varias opciones de host, incluida una puerta de enlace local (on-premises) o una puerta de enlace de red virtual, para acceder de forma segura a los datos detrás de un firewall o dentro de una red virtual.
Ver más detalles para asegurar el movimiento de sus datos con la tarea de copia y Virtual Network Data Gateway.
Operacionalización(GIT/CICD, biblioteca de variables)
Puede usar el control de código fuente, la integración continua, la implementación continua y un entorno de colaboración para ejecutar proyectos de análisis de datos exitosos con Copy job.
Además, con la compatibilidad con la biblioteca de variables, puede parametrizar conexiones en la tarea de copia. Esta eficaz funcionalidad simplifica CI/CD mediante la externalización de valores de conexión, lo que le permite implementar el mismo trabajo de copia en varios entornos, mientras que la biblioteca de variables inserta la conexión correcta para cada fase.
Consulte más detalles en CI/CD para la tarea de copia.
Observability
Consulte más detalles en Supervisión de un trabajo de copia y supervisión del área de trabajo para el trabajo de copia.
Disponibilidad regional
La disponibilidad regional del trabajo de copia es la misma que la de Fabric.
Precios
Puede obtener los detalles del trabajo de copia de precios.
Conectores compatibles
Con la función de copia, puede mover sus datos entre almacenes de datos en la nube o desde fuentes locales que están detrás de un firewall o dentro de una red virtual usando un gateway.
Consulte nuestra página de conectores compatibles para obtener la lista completa de orígenes y destinos admitidos:
Envíe sus comentarios sobre Fabric Ideas y únase a la conversación en la comunidad de Fabric.
Asignación de tipos de datos
La actividad de copia en las canalizaciones y el trabajo de copia asignan tipos de origen a tipos de destino siguiendo el flujo siguiente:
- Convierta de tipos de datos nativos de origen a tipos de datos provisionales usados por Fabric Data Factory.
- Convierta automáticamente el tipo de datos provisional según sea necesario para que coincida con los tipos de destino correspondientes.
- Convierta de tipos de datos provisionales a tipos de datos nativos de destino.
La actividad de copia en canalizaciones y trabajo de copia admite actualmente los siguientes tipos de datos provisionales: Boolean, Byte, Matriz de bytes, Datetime, DatetimeOffset, Decimal, Double, GUID, Int16, Int32, Int64, SByte, Single, String, Timespan, UInt16, UInt32 y UInt64.
Las siguientes conversiones de tipos de datos se admiten entre los tipos provisionales de origen a destino.
| Origen\Destino | Boolean | Matriz de bytes | Fecha y hora | Decimal | Punto flotante | GUID | Número entero | String | TimeSpan |
|---|---|---|---|---|---|---|---|---|---|
| Boolean | ✓ | ✓ | ✓ | ✓ | |||||
| Matriz de bytes | ✓ | ✓ | |||||||
| Fecha y hora | ✓ | ✓ | |||||||
| Decimal | ✓ | ✓ | ✓ | ✓ | |||||
| Punto flotante | ✓ | ✓ | ✓ | ✓ | |||||
| GUID | ✓ | ✓ | |||||||
| Número entero | ✓ | ✓ | ✓ | ✓ | |||||
| String | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| TimeSpan | ✓ | ✓ |
(1) Fecha y hora incluye DateTime, DateTimeOffset, Fecha y Hora.
(2) Los valores con punto flotante incluyen a Single y Double.
(3) Los valores enteros incluyen a SByte, Byte, Int16, UInt16, Int32, UInt32, Int64 y UInt64.
Para obtener información sobre las conversiones de tipos de datos detalladas para un conector determinado, vaya al artículo de configuración de la actividad de copia de ese conector desde aquí.
Nota:
Actualmente, esta conversión de tipos de datos se admite cuando se copia entre datos tabulares. No se admiten orígenes o destinos jerárquicos, lo que significa que no hay ninguna conversión de tipos de datos definidos por el sistema entre los tipos provisionales de origen y destino.