Modelos personalizados de Document Intelligence

Este contenido se aplica a:checkmarkv4.0 (GA) | Versiones anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (retirada)red-checkmarkv2.1 (retirada)

Este contenido se aplica a:checkmarkv3.1 (GA) | Versión más reciente:purple-checkmarkv4.0 (GA) | Versiones anteriores:blue-checkmarkv3.0blue-checkmarkv2.1

Este contenido se aplica a:red-checkmarkv3.0 (retirada) | Versiones más recientes:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versión anterior:blue-checkmarkv2.1 (retirada)

Este contenido se aplica a:red-checkmarkv2.1 | Versión más reciente:blue-checkmarkv4.0 (GA)

La inteligencia de documentos usa tecnología avanzada de aprendizaje automático para identificar documentos, detectar y extraer información de formularios y documentos, y devolver los datos extraídos en una salida JSON estructurada. Con la Inteligencia Documental, puede usar modelos de análisis de documentos preconstruidos/entrenados previamente o sus modelos personalizados independientes entrenados.

Los modelos personalizados ahora incluyen modelos de clasificación personalizados para escenarios en los que necesita identificar el tipo de documento antes de invocar el modelo de extracción. Los modelos clasificadores están disponibles a partir de la 2023-07-31 (GA) API. Un modelo de clasificación se puede emparejar con un modelo de extracción personalizado para analizar y extraer campos de formularios y documentos específicos de su empresa. Los modelos de extracción personalizados independientes se pueden combinar para crear modelos compuestos.

Tipos de modelo de documento personalizados

Los modelos de documentos personalizados pueden ser de dos tipos: plantilla personalizada o formulario personalizado, y modelos neuronales personalizados o modelos de documentos personalizados. El proceso de etiquetado y entrenamiento de ambos modelos es idéntico, pero los modelos difieren de la siguiente manera:

Modelos de extracción personalizados

Para crear un modelo de extracción personalizado, etiquete un conjunto de datos de documentos con los valores que desea extraer y entrenar el modelo en el conjunto de datos etiquetado. Solo necesita cinco ejemplos del mismo tipo de formulario o documento para empezar.

Modelo neuronal personalizado

Importante

Document Intelligence v4.0 2024-11-30 (GA) API admite modelos neuronales personalizados con campos superpuestos, detección de firmas y confianza a nivel de tabla, fila y celda.

El modelo neuronal personalizado (documento personalizado) usa modelos de aprendizaje profundo y modelo base entrenado en una gran colección de documentos. A continuación, este modelo se ajusta o se adapta a los datos al entrenar el modelo con un conjunto de datos etiquetado. Los modelos neuronales personalizados admiten la extracción de campos de datos clave de documentos estructurados, semiestructurados y no estructurados. Al elegir entre los dos tipos de modelo, comience con un modelo neuronal para determinar si satisface sus necesidades funcionales. Con V4.0, el modelo neuronal personalizado admite la detección de firmas, la confianza en el reconocimiento de tablas y los campos superpuestos. Consulte modelos neuronales para obtener más información sobre los modelos de documentos personalizados.

Modelo de plantilla personalizada

La plantilla personalizada o el modelo de formulario personalizado se basa en una plantilla visual coherente para extraer los datos etiquetados. Las variaciones en la estructura visual de los documentos afectan a la precisión del modelo. Las formas estructuradas, como cuestionarios o aplicaciones, son ejemplos de plantillas visuales coherentes.

El conjunto de entrenamiento consta de documentos estructurados en los que el formato y el diseño son estáticos y constantes de una instancia de documento a la siguiente. Los modelos de plantilla personalizados admiten pares clave-valor, marcas de selección, tablas, campos de firma y regiones. Los modelos de plantilla se pueden entrenar en documentos en cualquiera de los idiomas admitidos. Para obtener más información, consulteModelos de plantilla personalizados.

Si el lenguaje de los escenarios de documentos y extracción admite modelos neuronales personalizados, se recomienda usar modelos neuronales personalizados a través de modelos de plantilla para una mayor precisión.

Sugerencia

Para confirmar que los documentos de entrenamiento presentan una plantilla visual coherente, quite todos los datos especificados por el usuario de cada formulario del conjunto. Si los formularios en blanco son idénticos en apariencia, representan una plantilla visual coherente.

Para obtener más información, consulteInterpretación y mejora de la precisión y confianza de los modelos personalizados.

Requisitos de entrada

  • Para obtener los mejores resultados, proporcione una foto clara o un escaneo de alta calidad por cada documento.

  • Formatos de archivo admitidos:

    Modelo PDF Imagen:
    jpeg/jpg, png, bmp, , tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Lectura
    Diseño
    Documento general
    Prefabricado
    Extracción personalizada
    Clasificación personalizada

    ✱ archivos Microsoft Office no se admiten actualmente para otros modelos o versiones.

  • Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).

  • El tamaño de archivo para analizar documentos es 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).

  • Las dimensiones de imagen deben estar entre 50 x 50 píxeles y 10 000 píxeles x 10 000 píxeles.

  • Si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.

  • El alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión se corresponde a aproximadamente con texto de 8 puntos a 150 puntos por pulgada.

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.

  • Para el entrenamiento del modelo de extracción personalizado, el tamaño total de los datos de entrenamiento es 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.

  • Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1 GB con un máximo de 10 000 páginas.

Datos de entrenamiento óptimos

Los datos de entrada de entrenamiento son la base de cualquier modelo de aprendizaje automático. Determina la calidad, la precisión y el rendimiento del modelo. Por lo tanto, es fundamental crear los mejores datos de entrada de entrenamiento posibles para el proyecto de Document Intelligence. Cuando se usa el modelo personalizado de Document Intelligence, se proporcionan sus propios datos de entrenamiento. Estas son algunas sugerencias para ayudar a entrenar los modelos de forma eficaz:

  • Use archivos PDF basados en texto en lugar de archivos PDF basados en imágenes siempre que sea posible. Una manera de identificar un PDF basado en imágenes es intentar seleccionar texto específico en el documento. Si solo puede seleccionar toda la imagen del texto, el documento se basa en imágenes, no en texto.

  • Organice los documentos de entrenamiento mediante una subcarpeta para cada formato (JPEG/JPG, PNG, BMP, PDF o TIFF).

  • Use formularios que tengan completados todos los campos disponibles.

  • Use formularios con valores diferentes en cada campo.

  • Use un conjunto de datos mayor (más de cinco documentos de entrenamiento) si las imágenes son de baja calidad.

  • Determine si necesita usar un único modelo o varios modelos compuestos en un solo modelo.

  • Considere la posibilidad de segmentar el conjunto de datos en carpetas, donde cada carpeta es una plantilla única. Entrene un modelo para cada carpeta y componga los modelos resultantes en un único extremo. La precisión del modelo puede disminuir cuando tiene distintos formatos analizados con un único modelo.

  • Considere la posibilidad de segmentar el conjunto de datos para entrenar varios modelos si el formulario tiene variaciones con formatos y saltos de página. Los formularios personalizados se basan en una plantilla visual coherente.

  • Asegúrese de que tiene un conjunto de datos equilibrado teniendo en cuenta los formatos, los tipos de documento y la estructura.

Modo de construcción

La operación build custom model agrega compatibilidad con los modelos personalizados de plantilla y neuronales. Las versiones anteriores de la API REST y las bibliotecas cliente solo admitía un modo de compilación único que ahora se conoce como modo de plantilla .

  • Los modelos de plantilla solo aceptan documentos que tienen la misma estructura de página básica (una apariencia visual uniforme) o el mismo posicionamiento relativo de los elementos del documento.

  • Los modelos neuronales admiten documentos que tienen la misma información, pero estructuras de página diferentes. Entre los ejemplos de estos documentos se incluyen formularios Estados Unidos W2, que comparten la misma información, pero varían en apariencia entre empresas.

En esta tabla se proporcionan vínculos a las referencias y ejemplos de código del SDK del lenguaje de programación del modo de compilación en GitHub:

Lenguaje de programación Referencia del SDK Ejemplo de código
C#/.NET Estructura DocumentBuildMode Sample_BuildCustomModelAsync
Java DocumentBuildMode Class BuildDocumentModel
JavaScript DocumentBuildMode type buildModel.js
Python Enumeración DocumentBuildMode

Comparación de las características del modelo

En la tabla siguiente se comparan las características neuronales personalizadas y las plantillas personalizadas:

Característica Plantilla personalizada (formulario) Neuronal personalizada (documento)
Estructura del documento Plantilla, formulario y estructurado Estructurado, semiestructurado y no estructurado
Tiempo de entrenamiento De 1 a 5 minutos 30 minutos a 12 horas*
Extracción de datos Pares clave-valor, tablas, marcas de selección, coordenadas y firmas Pares clave-valor, marcas de selección y tablas
Campos superpuestos No es compatible Soportado
Variaciones de documentos Requiere un modelo por cada variación Usa un único modelo para todas las variaciones
Compatibilidad con idiomas Plantilla personalizada de compatibilidad con lenguajes Compatibilidad de idiomas con neuronal personalizado

*-El tiempo de entrenamiento predeterminado es de 30 minutos, habilita el entrenamiento de pago para entrenar un modelo por más de 30 minutos. Consulte más detalles en compatibilidad de entrenamiento con neuronal personalizado.

Modelo de clasificación personalizado

La clasificación de documentos es un nuevo escenario admitido por Document Intelligence con la 2023-07-31 API de disponibilidad general (v3.1). La API clasificadora de documentos admite escenarios de clasificación y división. Entrene un modelo de clasificación para identificar los distintos tipos de documentos que admite la aplicación. El archivo de entrada del modelo de clasificación puede contener varios documentos y clasifica cada documento dentro de un intervalo de páginas asociado. Para más información, consulteModelos de clasificación personalizados .

Nota

El v4.0 2024-11-30 (GA) modelo de clasificación de documentos admite tipos de documento de Office para la clasificación. Esta versión de API también presenta el entrenamiento incremental para el modelo de clasificación.

Herramientas de modelo personalizadas

Documento de inteligencia v3.1 y modelos posteriores son compatibles con las siguientes herramientas, aplicaciones y bibliotecas, programas y bibliotecas:

Característica Recursos Id. de modelo
Modelo personalizado Document Intelligence Studio
REST API
C# SDK
Python SDK
custom-model-id

Ciclo de vida del modelo personalizado

El ciclo de vida de un modelo personalizado depende de la versión de API que se usa para entrenarlo. Si la versión de la API es una versión de disponibilidad general (GA), el modelo personalizado tiene el mismo ciclo de vida que esa versión. El modelo personalizado no está disponible para la inferencia cuando la versión de la API está en desuso. Si la versión de la API es una versión preliminar, el modelo personalizado tiene el mismo ciclo de vida que la versión preliminar de la API.

Document Intelligence v2.1 admite las siguientes herramientas, aplicaciones y bibliotecas:

Nota

Los tipos de modelo neuronal personalizado y personalizada plantilla están disponibles con las API de Document Intelligence v3.1 y v3.0.

Característica Recursos
Modelo personalizado Herramienta de Etiquetado de Inteligencia de DocumentosREST API• SDK de la biblioteca del clienteContenedor Docker de Inteligencia de Documentos

Creación de un modelo personalizado

Extraiga datos de los documentos específicos o únicos mediante modelos personalizados. Necesita los siguientes recursos:

  • Una suscripción Azure. Puede crear uno de forma gratuita.

  • Una instancia de Document Intelligence en el portal de Azure. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

    Screenshot que muestra las claves y la ubicación del punto de conexión en el portal de Azure.

Herramienta de etiquetado de ejemplo

Sugerencia

  • Para obtener una experiencia mejorada y una calidad de modelo avanzada, pruebe Document Intelligence v3.0 Studio.
  • v3.0 Studio admite cualquier modelo entrenado con datos etiquetados v2.1.
  • Puede consultar la guía de migración de API para obtener información detallada sobre la migración de v2.1 a v3.0.
  • Consulte nuestro REST API o C#, Java, JavaScript, o Python SDK ../quickstarts para empezar a trabajar con la versión v3.0.
  • La herramienta de etiquetado de ejemplos de Inteligencia de Documentos es una herramienta de código abierto que le permite probar las funciones más recientes de la Inteligencia de Documentos y las características de Reconocimiento Óptico de Caracteres (OCR).

  • Pruebe el inicio rápido de la herramienta de etiquetado de muestra para empezar a construir y usar un modelo personalizado.

Document Intelligence Studio

Nota

Document Intelligence Studio está disponible con las API v3.1 y v3.0.

  1. En la página principal de Document Intelligence Studio , seleccione Modelos de extracción personalizados.

  2. En Mis proyectos, seleccione Crear un proyecto.

  3. Complete los campos de detalles del proyecto.

  4. Para configurar el recurso del servicio, agregue la cuenta de almacenamiento y el contenedor de blobs para conectar el origen de datos de entrenamiento.

  5. Revise y cree el proyecto.

  6. Agregue los documentos de ejemplo para etiquetar, compilar y probar el modelo personalizado.

Para obtener un tutorial detallado para crear el primer modelo de extracción personalizado, consulteCreación de un modelo de extracción personalizado.

Resumen de extracción de modelos personalizados

En esta tabla se comparan las áreas de extracción de datos admitidas:

Modelo Campos de formulario Marcas de selección Campos estructurados (tablas) Firma Etiquetado de regiones Campos superpuestos
Plantilla personalizada n/a
Red neuronal personalizada *

Símbolos de tabla:
✔—Compatible
**n/a: actualmente no disponible;
*-Se comporta de forma diferente en función del modelo. Con los modelos de plantilla, los datos sintéticos se generan en tiempo de entrenamiento. Con los modelos neuronales, se selecciona el texto existente reconocido en la región.

Sugerencia

Para elegir entre los dos tipos de modelo, comience con un modelo neuronal personalizado si satisface sus necesidades funcionales. Consulte modelos neuronales personalizados para más información sobre los modelos neuronales personalizados.

Opciones de desarrollo de modelos personalizados

En la tabla siguiente se describen las características disponibles con las herramientas asociadas y las bibliotecas cliente. Como procedimiento recomendado, asegúrese de usar las herramientas compatibles que se enumeran aquí.

Tipo de documento REST API SDK Etiquetar y probar modelos
Plantilla personalizada v 4.0 v3.1 v3.0 Inteligencia de documentos 3.1 SDK de Inteligencia de documentos Document Intelligence Studio
Neuronal personalizada v4.0 v3.1 v3.0 Inteligencia de documentos 3.1 SDK de Inteligencia de documentos Document Intelligence Studio
Formulario personalizado v2.1 API de Documento de inteligencia 2.1 GA SDK de Inteligencia de documentos Herramienta de etiquetado de ejemplo

Nota

Los modelos de plantilla personalizados entrenados con la API 3.0 tienen algunas mejoras en la API 2.1 derivadas de mejoras en el motor de OCR. Los conjuntos de datos usados para entrenar un modelo de plantilla personalizado mediante la API 2.1 todavía se pueden usar para entrenar un nuevo modelo mediante la API 3.0.

  • Se debe proporcionar una foto clara o un escaneado de alta calidad por documento para obtener los mejores resultados.

  • Los formatos de archivo admitidos son JPEG/JPG, PNG, BMP, TIFF y PDF (texto incrustado o escaneado). Los ARCHIVOS PDF insertados con texto son mejores para eliminar la posibilidad de error en la extracción y la ubicación de caracteres.

  • Se pueden procesar archivos PDF y TIFF, hasta 2000 páginas. Con una suscripción de nivel gratis, solo se procesan las dos primeras páginas.

  • El tamaño del archivo debe ser inferior a 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).

  • Las dimensiones de imagen deben estar entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Las dimensiones pdf son de hasta 17 x 17 pulgadas, correspondientes al tamaño de papel Legal o A3, o más pequeño.

  • El tamaño total de los datos de entrenamiento es de 500 páginas o menos.

  • Los archivos PDF que están bloqueados por contraseña deben tener quitado el bloqueo de contraseña antes del envío.

    Sugerencia

    Datos de entrenamiento:

    • Si es posible, use documentos PDF basados en texto en lugar de documentos basados en imágenes. Los archivos PDF escaneados se gestionan como imágenes.
    • Proporcione solo una sola instancia del formulario por documento.
    • Para los formularios rellenados, use ejemplos que tienen todos sus campos rellenados.
    • Use formularios con valores diferentes en cada campo.
    • Si las imágenes de formulario son de menor calidad, use un conjunto de datos mayor. Por ejemplo, use de 10 a 15 imágenes.

Idiomas y configuraciones regionales admitidos

Consulte nuestra página Compatibilidad con idiomas: modelos personalizados para obtener una lista completa de los idiomas admitidos.

Pasos siguientes