Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este contenido se aplica a:
v4.0 (GA) | Versiones anteriores:
v3.1 (GA)
v3.0 (retirada)
v2.1 (retirada)
Este contenido se aplica a:
v3.1 (GA) | Versión más reciente:
v4.0 (GA) | Versiones anteriores:
v3.0
v2.1
Este contenido se aplica a:
v3.0 (retirada) | Versiones más recientes:
v4.0 (GA)
v3.1 | Versión anterior:
v2.1 (retirada)
Este contenido se aplica a:
v2.1 | Versión más reciente:
v4.0 (GA)
La inteligencia de documentos usa tecnología avanzada de aprendizaje automático para identificar documentos, detectar y extraer información de formularios y documentos, y devolver los datos extraídos en una salida JSON estructurada. Con la Inteligencia Documental, puede usar modelos de análisis de documentos preconstruidos/entrenados previamente o sus modelos personalizados independientes entrenados.
Los modelos personalizados ahora incluyen modelos de clasificación personalizados para escenarios en los que necesita identificar el tipo de documento antes de invocar el modelo de extracción. Los modelos clasificadores están disponibles a partir de la 2023-07-31 (GA) API. Un modelo de clasificación se puede emparejar con un modelo de extracción personalizado para analizar y extraer campos de formularios y documentos específicos de su empresa. Los modelos de extracción personalizados independientes se pueden combinar para crear modelos compuestos.
Tipos de modelo de documento personalizados
Los modelos de documentos personalizados pueden ser de dos tipos: plantilla personalizada o formulario personalizado, y modelos neuronales personalizados o modelos de documentos personalizados. El proceso de etiquetado y entrenamiento de ambos modelos es idéntico, pero los modelos difieren de la siguiente manera:
Modelos de extracción personalizados
Para crear un modelo de extracción personalizado, etiquete un conjunto de datos de documentos con los valores que desea extraer y entrenar el modelo en el conjunto de datos etiquetado. Solo necesita cinco ejemplos del mismo tipo de formulario o documento para empezar.
Modelo neuronal personalizado
Importante
Document Intelligence v4.0 2024-11-30 (GA) API admite modelos neuronales personalizados con campos superpuestos, detección de firmas y confianza a nivel de tabla, fila y celda.
El modelo neuronal personalizado (documento personalizado) usa modelos de aprendizaje profundo y modelo base entrenado en una gran colección de documentos. A continuación, este modelo se ajusta o se adapta a los datos al entrenar el modelo con un conjunto de datos etiquetado. Los modelos neuronales personalizados admiten la extracción de campos de datos clave de documentos estructurados, semiestructurados y no estructurados. Al elegir entre los dos tipos de modelo, comience con un modelo neuronal para determinar si satisface sus necesidades funcionales. Con V4.0, el modelo neuronal personalizado admite la detección de firmas, la confianza en el reconocimiento de tablas y los campos superpuestos. Consulte modelos neuronales para obtener más información sobre los modelos de documentos personalizados.
Modelo de plantilla personalizada
La plantilla personalizada o el modelo de formulario personalizado se basa en una plantilla visual coherente para extraer los datos etiquetados. Las variaciones en la estructura visual de los documentos afectan a la precisión del modelo. Las formas estructuradas, como cuestionarios o aplicaciones, son ejemplos de plantillas visuales coherentes.
El conjunto de entrenamiento consta de documentos estructurados en los que el formato y el diseño son estáticos y constantes de una instancia de documento a la siguiente. Los modelos de plantilla personalizados admiten pares clave-valor, marcas de selección, tablas, campos de firma y regiones. Los modelos de plantilla se pueden entrenar en documentos en cualquiera de los idiomas admitidos. Para obtener más información, consulteModelos de plantilla personalizados.
Si el lenguaje de los escenarios de documentos y extracción admite modelos neuronales personalizados, se recomienda usar modelos neuronales personalizados a través de modelos de plantilla para una mayor precisión.
Sugerencia
Para confirmar que los documentos de entrenamiento presentan una plantilla visual coherente, quite todos los datos especificados por el usuario de cada formulario del conjunto. Si los formularios en blanco son idénticos en apariencia, representan una plantilla visual coherente.
Para obtener más información, consulteInterpretación y mejora de la precisión y confianza de los modelos personalizados.
Requisitos de entrada
Para obtener los mejores resultados, proporcione una foto clara o un escaneo de alta calidad por cada documento.
Formatos de archivo admitidos:
Modelo PDF Imagen: jpeg/jpg,png,bmp, ,tiff,heifMicrosoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx)Lectura ✔ ✔ ✔ Diseño ✔ ✔ ✔ Documento general ✔ ✔ Prefabricado ✔ ✔ Extracción personalizada ✔ ✔ Clasificación personalizada ✔ ✔ ✔ ✱ archivos Microsoft Office no se admiten actualmente para otros modelos o versiones.
Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es
500 MBpara el nivel de pago (S0) y4 MBpara el nivel gratis (F0).Las dimensiones de imagen deben estar entre 50 x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
El alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión se corresponde a aproximadamente con texto de
8puntos a150puntos por pulgada.Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
Para el entrenamiento del modelo de extracción personalizado, el tamaño total de los datos de entrenamiento es
50 MBpara el modelo de plantilla y1 GBpara el modelo neuronal.Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es
1 GBcon un máximo de 10 000 páginas.
Datos de entrenamiento óptimos
Los datos de entrada de entrenamiento son la base de cualquier modelo de aprendizaje automático. Determina la calidad, la precisión y el rendimiento del modelo. Por lo tanto, es fundamental crear los mejores datos de entrada de entrenamiento posibles para el proyecto de Document Intelligence. Cuando se usa el modelo personalizado de Document Intelligence, se proporcionan sus propios datos de entrenamiento. Estas son algunas sugerencias para ayudar a entrenar los modelos de forma eficaz:
Use archivos PDF basados en texto en lugar de archivos PDF basados en imágenes siempre que sea posible. Una manera de identificar un PDF basado en imágenes es intentar seleccionar texto específico en el documento. Si solo puede seleccionar toda la imagen del texto, el documento se basa en imágenes, no en texto.
Organice los documentos de entrenamiento mediante una subcarpeta para cada formato (JPEG/JPG, PNG, BMP, PDF o TIFF).
Use formularios que tengan completados todos los campos disponibles.
Use formularios con valores diferentes en cada campo.
Use un conjunto de datos mayor (más de cinco documentos de entrenamiento) si las imágenes son de baja calidad.
Determine si necesita usar un único modelo o varios modelos compuestos en un solo modelo.
Considere la posibilidad de segmentar el conjunto de datos en carpetas, donde cada carpeta es una plantilla única. Entrene un modelo para cada carpeta y componga los modelos resultantes en un único extremo. La precisión del modelo puede disminuir cuando tiene distintos formatos analizados con un único modelo.
Considere la posibilidad de segmentar el conjunto de datos para entrenar varios modelos si el formulario tiene variaciones con formatos y saltos de página. Los formularios personalizados se basan en una plantilla visual coherente.
Asegúrese de que tiene un conjunto de datos equilibrado teniendo en cuenta los formatos, los tipos de documento y la estructura.
Modo de construcción
La operación build custom model agrega compatibilidad con los modelos personalizados de plantilla y neuronales. Las versiones anteriores de la API REST y las bibliotecas cliente solo admitía un modo de compilación único que ahora se conoce como modo de plantilla .
Los modelos de plantilla solo aceptan documentos que tienen la misma estructura de página básica (una apariencia visual uniforme) o el mismo posicionamiento relativo de los elementos del documento.
Los modelos neuronales admiten documentos que tienen la misma información, pero estructuras de página diferentes. Entre los ejemplos de estos documentos se incluyen formularios Estados Unidos W2, que comparten la misma información, pero varían en apariencia entre empresas.
En esta tabla se proporcionan vínculos a las referencias y ejemplos de código del SDK del lenguaje de programación del modo de compilación en GitHub:
| Lenguaje de programación | Referencia del SDK | Ejemplo de código |
|---|---|---|
| C#/.NET | Estructura DocumentBuildMode | Sample_BuildCustomModelAsync |
| Java | DocumentBuildMode Class | BuildDocumentModel |
| JavaScript | DocumentBuildMode type | buildModel.js |
| Python | Enumeración DocumentBuildMode |
Comparación de las características del modelo
En la tabla siguiente se comparan las características neuronales personalizadas y las plantillas personalizadas:
| Característica | Plantilla personalizada (formulario) | Neuronal personalizada (documento) |
|---|---|---|
| Estructura del documento | Plantilla, formulario y estructurado | Estructurado, semiestructurado y no estructurado |
| Tiempo de entrenamiento | De 1 a 5 minutos | 30 minutos a 12 horas* |
| Extracción de datos | Pares clave-valor, tablas, marcas de selección, coordenadas y firmas | Pares clave-valor, marcas de selección y tablas |
| Campos superpuestos | No es compatible | Soportado |
| Variaciones de documentos | Requiere un modelo por cada variación | Usa un único modelo para todas las variaciones |
| Compatibilidad con idiomas | Plantilla personalizada de compatibilidad con lenguajes | Compatibilidad de idiomas con neuronal personalizado |
*-El tiempo de entrenamiento predeterminado es de 30 minutos, habilita el entrenamiento de pago para entrenar un modelo por más de 30 minutos. Consulte más detalles en compatibilidad de entrenamiento con neuronal personalizado.
Modelo de clasificación personalizado
La clasificación de documentos es un nuevo escenario admitido por Document Intelligence con la 2023-07-31 API de disponibilidad general (v3.1). La API clasificadora de documentos admite escenarios de clasificación y división. Entrene un modelo de clasificación para identificar los distintos tipos de documentos que admite la aplicación. El archivo de entrada del modelo de clasificación puede contener varios documentos y clasifica cada documento dentro de un intervalo de páginas asociado. Para más información, consulteModelos de clasificación personalizados .
Nota
El v4.0 2024-11-30 (GA) modelo de clasificación de documentos admite tipos de documento de Office para la clasificación. Esta versión de API también presenta el entrenamiento incremental para el modelo de clasificación.
Herramientas de modelo personalizadas
Documento de inteligencia v3.1 y modelos posteriores son compatibles con las siguientes herramientas, aplicaciones y bibliotecas, programas y bibliotecas:
| Característica | Recursos | Id. de modelo |
|---|---|---|
| Modelo personalizado | • Document Intelligence Studio • REST API • C# SDK • Python SDK |
custom-model-id |
Ciclo de vida del modelo personalizado
El ciclo de vida de un modelo personalizado depende de la versión de API que se usa para entrenarlo. Si la versión de la API es una versión de disponibilidad general (GA), el modelo personalizado tiene el mismo ciclo de vida que esa versión. El modelo personalizado no está disponible para la inferencia cuando la versión de la API está en desuso. Si la versión de la API es una versión preliminar, el modelo personalizado tiene el mismo ciclo de vida que la versión preliminar de la API.
Document Intelligence v2.1 admite las siguientes herramientas, aplicaciones y bibliotecas:
Nota
Los tipos de modelo neuronal personalizado y personalizada plantilla están disponibles con las API de Document Intelligence v3.1 y v3.0.
| Característica | Recursos |
|---|---|
| Modelo personalizado | • |
Creación de un modelo personalizado
Extraiga datos de los documentos específicos o únicos mediante modelos personalizados. Necesita los siguientes recursos:
Una suscripción Azure. Puede crear uno de forma gratuita.
Una instancia de Document Intelligence en el portal de Azure. Puede usar el plan de tarifa gratuito (
F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.
Herramienta de etiquetado de ejemplo
Sugerencia
- Para obtener una experiencia mejorada y una calidad de modelo avanzada, pruebe Document Intelligence v3.0 Studio.
- v3.0 Studio admite cualquier modelo entrenado con datos etiquetados v2.1.
- Puede consultar la guía de migración de API para obtener información detallada sobre la migración de v2.1 a v3.0.
- Consulte nuestro REST API o C#, Java, JavaScript, o Python SDK ../quickstarts para empezar a trabajar con la versión v3.0.
La herramienta de etiquetado de ejemplos de Inteligencia de Documentos es una herramienta de código abierto que le permite probar las funciones más recientes de la Inteligencia de Documentos y las características de Reconocimiento Óptico de Caracteres (OCR).
Pruebe el inicio rápido de la herramienta de etiquetado de muestra para empezar a construir y usar un modelo personalizado.
Document Intelligence Studio
Nota
Document Intelligence Studio está disponible con las API v3.1 y v3.0.
En la página principal de Document Intelligence Studio , seleccione Modelos de extracción personalizados.
En Mis proyectos, seleccione Crear un proyecto.
Complete los campos de detalles del proyecto.
Para configurar el recurso del servicio, agregue la cuenta de almacenamiento y el contenedor de blobs para conectar el origen de datos de entrenamiento.
Revise y cree el proyecto.
Agregue los documentos de ejemplo para etiquetar, compilar y probar el modelo personalizado.
Para obtener un tutorial detallado para crear el primer modelo de extracción personalizado, consulteCreación de un modelo de extracción personalizado.
Resumen de extracción de modelos personalizados
En esta tabla se comparan las áreas de extracción de datos admitidas:
| Modelo | Campos de formulario | Marcas de selección | Campos estructurados (tablas) | Firma | Etiquetado de regiones | Campos superpuestos |
|---|---|---|---|---|---|---|
| Plantilla personalizada | ✔ | ✔ | ✔ | ✔ | ✔ | n/a |
| Red neuronal personalizada | ✔ | ✔ | ✔ | ✔ | * | ✔ |
Símbolos de tabla:
✔—Compatible
**n/a: actualmente no disponible;
*-Se comporta de forma diferente en función del modelo. Con los modelos de plantilla, los datos sintéticos se generan en tiempo de entrenamiento. Con los modelos neuronales, se selecciona el texto existente reconocido en la región.
Sugerencia
Para elegir entre los dos tipos de modelo, comience con un modelo neuronal personalizado si satisface sus necesidades funcionales. Consulte modelos neuronales personalizados para más información sobre los modelos neuronales personalizados.
Opciones de desarrollo de modelos personalizados
En la tabla siguiente se describen las características disponibles con las herramientas asociadas y las bibliotecas cliente. Como procedimiento recomendado, asegúrese de usar las herramientas compatibles que se enumeran aquí.
| Tipo de documento | REST API | SDK | Etiquetar y probar modelos |
|---|---|---|---|
| Plantilla personalizada v 4.0 v3.1 v3.0 | Inteligencia de documentos 3.1 | SDK de Inteligencia de documentos | Document Intelligence Studio |
| Neuronal personalizada v4.0 v3.1 v3.0 | Inteligencia de documentos 3.1 | SDK de Inteligencia de documentos | Document Intelligence Studio |
| Formulario personalizado v2.1 | API de Documento de inteligencia 2.1 GA | SDK de Inteligencia de documentos | Herramienta de etiquetado de ejemplo |
Nota
Los modelos de plantilla personalizados entrenados con la API 3.0 tienen algunas mejoras en la API 2.1 derivadas de mejoras en el motor de OCR. Los conjuntos de datos usados para entrenar un modelo de plantilla personalizado mediante la API 2.1 todavía se pueden usar para entrenar un nuevo modelo mediante la API 3.0.
Se debe proporcionar una foto clara o un escaneado de alta calidad por documento para obtener los mejores resultados.
Los formatos de archivo admitidos son JPEG/JPG, PNG, BMP, TIFF y PDF (texto incrustado o escaneado). Los ARCHIVOS PDF insertados con texto son mejores para eliminar la posibilidad de error en la extracción y la ubicación de caracteres.
Se pueden procesar archivos PDF y TIFF, hasta 2000 páginas. Con una suscripción de nivel gratis, solo se procesan las dos primeras páginas.
El tamaño del archivo debe ser inferior a 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
Las dimensiones de imagen deben estar entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Las dimensiones pdf son de hasta 17 x 17 pulgadas, correspondientes al tamaño de papel Legal o A3, o más pequeño.
El tamaño total de los datos de entrenamiento es de 500 páginas o menos.
Los archivos PDF que están bloqueados por contraseña deben tener quitado el bloqueo de contraseña antes del envío.
Sugerencia
Datos de entrenamiento:
- Si es posible, use documentos PDF basados en texto en lugar de documentos basados en imágenes. Los archivos PDF escaneados se gestionan como imágenes.
- Proporcione solo una sola instancia del formulario por documento.
- Para los formularios rellenados, use ejemplos que tienen todos sus campos rellenados.
- Use formularios con valores diferentes en cada campo.
- Si las imágenes de formulario son de menor calidad, use un conjunto de datos mayor. Por ejemplo, use de 10 a 15 imágenes.
Idiomas y configuraciones regionales admitidos
Consulte nuestra página Compatibilidad con idiomas: modelos personalizados para obtener una lista completa de los idiomas admitidos.
Pasos siguientes
Pruebe a procesar sus propios formularios y documentos con la Herramienta de etiquetado de ejemplo de Inteligencia de documentos.
Complete un inicio rápido de Document Intelligence y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.
Pruebe a procesar sus propios formularios y documentos con Document Intelligence Studio.
Complete un inicio rápido de Document Intelligence y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.