Modèles personnalisés d'Intelligence documentaire

Ce contenu s’applique à :checkmarkv4.0 (GA) | Versions antérieures :blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (retrait)red-checkmarkv2.1 (mise hors service)

Ce contenu s’applique à :checkmarkv3.1 (GA) | Dernière version :purple-checkmarkv4.0 (GA) | Versions antérieures :blue-checkmarkv3.0blue-checkmarkv2.1

Ce contenu s’applique à :red-checkmarkv3.0 (mise hors service) | Versions les plus récentes:coche-violettev4.0 (Disponibilité générale)coche-violettev3.1 | Version antérieure :coche-bleuev2.1 (mise hors service)

Ce contenu s’applique à :red-checkmarkv2.1 | Dernière version :blue-checkmarkv4.0 (GA)

Document Intelligence utilise la technologie d’apprentissage automatique avancée pour identifier les documents, détecter et extraire des informations à partir de formulaires et de documents, et retourner les données extraites dans une sortie JSON structurée. Avec Document Intelligence, vous pouvez utiliser des modèles d’analyse de documents, prédéfinis/préentraînés ou vos modèles personnalisés autonomes formés.

Les modèles personnalisés incluent désormais des modèles de classification personnalisés pour les scénarios où vous devez identifier le type de document avant d’appeler le modèle d’extraction. Les modèles classifieur sont disponibles à partir de l’API 2023-07-31 (GA) . Un modèle de classification peut être associé à un modèle d’extraction personnalisé pour analyser et extraire des champs à partir de formulaires et de documents spécifiques à votre entreprise. Les modèles d’extraction personnalisés autonomes peuvent être combinés pour créer des modèles composés.

Types de modèles de document personnalisés

Les modèles de documents personnalisés peuvent être l’un des deux types, modèles personnalisés ou formulaire personnalisé et modèles de documents neuronaux ou personnalisés. Le processus d’étiquetage et d’entraînement pour les deux modèles est identique, mais les modèles diffèrent comme suit :

Modèles d’extraction personnalisés

Pour créer un modèle d’extraction personnalisé, étiquetez un jeu de données de documents avec les valeurs que vous souhaitez extraire et entraîner le modèle sur le jeu de données étiqueté. Vous n’avez besoin que de cinq exemples du même type de formulaire ou de document pour commencer.

Modèle neuronal personnalisé

Important

L'API Document Intelligence v4.0 2024-11-30 (GA) prend en charge le modèle neuronal personnalisé pour les champs superposés, la détection de signatures et la mesure de la confiance au niveau des tables, des lignes et des cellules.

Le modèle neuronal personnalisé (document personnalisé) utilise des modèles d’apprentissage profond et un modèle de base entraîné sur une grande collection de documents. Ce modèle est ensuite affiné ou adapté à vos données lorsque vous entraînez le modèle avec un jeu de données étiqueté. Les modèles neuronaux personnalisés prennent en charge l’extraction de champs de données clés à partir de documents structurés, semi-structurés et non structurés. Lorsque vous choisissez entre les deux types de modèle, commencez par un modèle neuronal pour déterminer s’il répond à vos besoins fonctionnels. Avec V4.0, le modèle neuronal personnalisé prend en charge la détection des signatures, la confiance des tables et les champs qui se chevauchent. Consultez les modèles neuronaux pour en savoir plus sur les modèles de documents personnalisés.

Modèle personnalisé

Le modèle personnalisé ou le modèle de formulaire personnalisé s’appuie sur un modèle visuel cohérent pour extraire les données étiquetées. Les écarts dans la structure visuelle de vos documents affectent la précision de votre modèle. Les formulaires structurés tels que les questionnaires ou les applications sont des exemples de modèles visuels cohérents.

Votre jeu d’apprentissage se compose de documents structurés où la mise en forme et la disposition sont statiques et constantes d’une instance de document à l’autre. Les modèles de modèle personnalisés prennent en charge les paires clé-valeur, les marques de sélection, les tables, les champs de signature et les régions. Le modèle modèle et peut être entraîné sur des documents dans n’importe quel langage pris en charge. Pour plus d’informations, consultezles modèles de modèle personnalisés.

Si la langue de vos documents et scénarios d'extraction prend en charge les modèles neuronaux personnalisés, nous vous recommandons d'utiliser ces modèles plutôt que des modèles types pour une plus grande précision.

Conseil

Pour confirmer que vos documents d’apprentissage présentent un modèle visuel cohérent, supprimez toutes les données entrées par l’utilisateur de chaque formulaire dans l’ensemble. Si les formulaires vides sont identiques en apparence, ils représentent un modèle visuel cohérent.

Pour plus d’informations, consultezInterpréter et améliorer la précision et la confiance des modèles personnalisés.

Exigences pour les données

  • Pour obtenir de meilleurs résultats, fournissez une photo claire ou une analyse de haute qualité par document.

  • Formats de fichiers pris en charge :

    Modèle PDF Image :
    jpeg/jpg, , pngbmp, tiff,heif
    Microsoft Office :
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Lire
    Mise en page
    Document général
    Préassemblé
    Extraction personnalisée
    Classification personnalisée

    ✱ Les fichiers Microsoft Office ne sont actuellement pas pris en charge pour d'autres modèles ou d'autres versions.

  • Pour PDF et TIFF, jusqu’à 2 000 pages peuvent être traitées (avec un abonnement de niveau gratuit, seules les deux premières pages sont traitées).

  • La taille de fichier pour l’analyse des documents concerne 500 MB le niveau payant (S0) et 4 MB le niveau gratuit (F0).

  • Les dimensions de l’image doivent être comprises entre 50 x 50 pixels et 10 000 pixels x 10 000 pixels.

  • Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant la soumission.

  • La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1 024 x 768 pixels. Cette dimension correspond à un texte d’environ 8points à150 points par pouce.

  • Pour l’entraînement de modèle personnalisé, le nombre maximal de pages pour les données d’apprentissage est de 500 pour le modèle de modèle personnalisé et 50 000 pour le modèle neuronal personnalisé.

  • Pour l’entraînement d’un modèle d’extraction personnalisé, la taille totale des données d’entraînement est 50 MB pour le modèle de gabarit et 1 GB pour le modèle neuronal.

  • Pour l’entraînement du modèle de classification personnalisé, la taille totale des données d’apprentissage est 1 GB de 10 000 pages maximum.

Données d’apprentissage optimales

Les données d’entrée d’apprentissage constituent la base de n’importe quel modèle Machine Learning. Il détermine la qualité, la précision et les performances du modèle. Par conséquent, il est essentiel de créer les meilleures données d’entrée d’apprentissage possibles pour votre projet Document Intelligence. Lorsque vous utilisez le modèle personnalisé Document Intelligence, vous fournissez vos propres données d’apprentissage. Voici quelques conseils pour vous aider à entraîner efficacement vos modèles :

  • Utilisez des fichiers PDF basés sur du texte plutôt que des fichiers PDF basés sur des images lorsque cela est possible. L’une des façons d’identifier un fichier PDF basé sur une image consiste à essayer de sélectionner du texte spécifique dans le document. Si vous ne pouvez sélectionner que l’image entière du texte, le document est basé sur une image, et non sur du texte.

  • Organisez vos documents de formation à l’aide d’un sous-dossier pour chaque format (JPEG/JPG, PNG, BMP, PDF ou TIFF).

  • Utilisez des formulaires qui ont tous les champs disponibles terminés.

  • Utilisez des formulaires avec des valeurs différentes dans chaque champ.

  • Utilisez un jeu de données plus volumineux (plus de cinq documents d’apprentissage) si vos images sont de faible qualité.

  • Déterminez si vous devez utiliser un modèle unique ou plusieurs modèles composés en un seul modèle.

  • Envisagez de segmenter votre jeu de données en dossiers, où chaque dossier est un modèle unique. Entraîner un modèle par dossier et assembler les modèles résultants en un seul point de terminaison. La précision du modèle peut diminuer lorsque vous avez des formats différents analysés avec un seul modèle.

  • Envisagez de segmenter votre jeu de données pour entraîner plusieurs modèles si votre formulaire a des variantes avec des formats et des sauts de page. Les formulaires personnalisés s’appuient sur un modèle visuel cohérent.

  • Assurez-vous que vous disposez d’un jeu de données équilibré en tenant compte des formats, des types de documents et de la structure.

Mode de génération

L’opération build custom model ajoute la prise en charge du modèle et des modèles personnalisés neuronaux . Les versions précédentes de l’API REST et des bibliothèques clientes n’ont pris en charge qu’un seul mode de génération appelé mode modèle .

  • Les modèles de modèle acceptent uniquement les documents qui ont la même structure de page de base , une apparence visuelle uniforme, ou le même positionnement relatif des éléments dans le document.

  • Les modèles neuronaux prennent en charge les documents qui ont les mêmes informations, mais des structures de page différentes. Les exemples de ces documents incluent les formulaires W-2 des États-Unis, qui partagent les mêmes informations, mais varient en apparence entre les entreprises.

Ce tableau fournit des liens vers les références du Kit de développement logiciel (SDK) du langage de programmation en mode build et des exemples de code sur GitHub :

Langage de programmation Informations de référence sur le Kit de développement Exemple de code
C#/.NET DocumentBuildMode Struct Sample_BuildCustomModelAsync
Java classe DocumentBuildMode BuildDocumentModel
Javascript Type DocumentBuildMode buildModel.js
Python Énumération DocumentBuildMode

Comparer les fonctionnalités du modèle

Le tableau suivant compare les modèles personnalisés et les fonctionnalités neuronales personnalisées :

Fonction Modèle personnalisé (formulaire) Neuronal personnalisé (document)
Structure du document Modèle, formulaire et schéma Structuré, semi-structuré et non structuré
Temps de formation 1 à 5 minutes 30 minutes à 12 heures*
Extraction de données Paires clé-valeur, tables, marques de sélection, coordonnées et signatures Paires clé-valeur, marques de sélection et tables
Champs qui se chevauchent Non pris en charge Soutenu
Variations de document Nécessite un modèle par variante Utilise un modèle unique pour toutes les variantes
Prise en charge linguistique Modèle personnalisé de support linguistique Support multilingue neural personnalisé

*-Le temps d’entraînement par défaut est de 30 minutes. Activez l’option de formation payante pour entraîner un modèle pendant plus de 30 minutes. Pour consulter plus d'informations, consultez le soutien à l'entraînement pour réseau de neurones personnalisé

Modèle de classification personnalisé

La classification des documents est un nouveau scénario pris en charge par Document Intelligence avec l’API 2023-07-31 (v3.1 GA). L’API classifieur de document prend en charge les scénarios de classification et de fractionnement. Entraîner un modèle de classification pour identifier les différents types de documents pris en charge par votre application. Le fichier d’entrée du modèle de classification peut contenir plusieurs documents et classifie chaque document dans une plage de pages associée. Pour en savoir plus, consultezles modèles de classification personnalisés .

Note

Le v4.0 2024-11-30 (GA) modèle de classification de documents prend en charge les types de documents Office pour la classification. Cette version de l’API introduit également une formation incrémentielle pour le modèle de classification.

Outils de modèle personnalisés

Les modèles Document Intelligence v3.1 et ultérieurs prennent en charge les outils, applications, programmes et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle personnalisé Document Intelligence Studio
• API REST
• sdk C#
Python SDK
custom-model-id

Cycle de vie de modèle personnalisé

Le cycle de vie d’un modèle personnalisé dépend de la version de l’API utilisée pour l’entraîner. Si la version de l’API est une version en disponibilité générale, le modèle personnalisé a le même cycle de vie que cette version. Le modèle personnalisé n’est pas disponible pour l’inférence lorsque la version de l’API est obsolète. Si la version de l’API est une version préliminaire, le modèle personnalisé a le même cycle de vie que la version préliminaire de l’API.

Document Intelligence v2.1 prend en charge les outils, applications et bibliothèques suivants :

Note

Les types de modèles personnalisé neuronal et modèle personnalisé sont disponibles avec les API Document Intelligence version v3.1 et v3.0.

Fonction Ressources
Modèle personnalisé • Outil d'étiquetage de Document Intelligence
• API REST
• Bibliothèque cliente du kit de développement logiciel (SDK)
• Conteneur Docker Document Intelligence

Créer un modèle personnalisé

Extrayez des données de vos documents spécifiques ou uniques à l’aide de modèles personnalisés. Vous avez besoin des ressources suivantes :

  • Un abonnement Azure. Vous pouvez en créer un gratuitement.

  • Une instance Document Intelligence dans le portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour essayer le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour obtenir votre clé et votre point de terminaison.

    Screenshot qui affiche les clés et l’emplacement du point de terminaison dans le portail Azure.

Exemple d’outil d’étiquetage

Conseil

  • Pour une expérience améliorée et une qualité de modèle avancée, essayez Document Intelligence v3.0 Studio.
  • Studio v3.0 prend en charge tout modèle entraîné avec des données étiquetées v2.1.
  • Vous pouvez consulter le guide de migration d’API pour obtenir des informations détaillées sur la migration de la version 2.1 vers la version 3.0.
  • Consultez notre API REST ou les SDK pour C#, Java, JavaScript, ou Python dans ../quickstarts pour commencer avec la version v3.0.
  • L'outil d'étiquetage d'exemples Document Intelligence est un outil open source qui vous permet de tester les dernières fonctionnalités de l'intelligence de document et de la reconnaissance optique de caractères (OCR).

  • Essayez le guide de démarrage rapide de l’outil d’étiquetage d’exemples pour commencer à créer et utiliser un modèle personnalisé.

Document Intelligence Studio

Note

Document Intelligence Studio est disponible avec les API v3.1 et v3.0.

  1. Dans la page d’accueil document Intelligence Studio , sélectionnez Modèles d’extraction personnalisés.

  2. Sous Mes projets, sélectionnez Créer un projet.

  3. Renseignez les champs de détails du projet.

  4. Configurez la ressource de service en ajoutant votre compte de stockage et votre conteneur d’objets blob dans Connect your training data source (Connecter votre source de données d’entraînement).

  5. Passez en revue et créez votre projet.

  6. Ajoutez vos exemples de documents pour étiqueter, générer et tester votre modèle personnalisé.

Pour obtenir une procédure pas à pas détaillée pour créer votre premier modèle d’extraction personnalisé, consultezComment créer un modèle d’extraction personnalisé.

Résumé de l’extraction de modèle personnalisé

Ce tableau compare les zones d’extraction de données prises en charge :

Modèle Champs de formulaire Marques de sélection Champs structurés (tables) Signature Étiquetage de région Champs qui se chevauchent
Modèle personnalisé n/a
Réseau neuronal personnalisé *

Symboles de tableau :
✔ — Prise en charge
**n/a — Actuellement indisponible ;
*Se comporte différemment selon le modèle. Avec les modèles de gabarit, les données synthétiques sont générées pendant l'entraînement. Avec les modèles neuronaux, le texte existant reconnu dans la région est sélectionné.

Conseil

Pour choisir entre les deux types de modèles, commencez par un modèle neuronal personnalisé s’il répond à vos besoins fonctionnels. Pour plus d’informations sur les modèles neuronaux personnalisés, consultez Modèles neuronaux personnalisés.

Options de développement de modèle personnalisées

Le tableau suivant décrit les fonctionnalités disponibles avec les outils et les bibliothèques clientes associés. En guise de bonne pratique, veillez à utiliser les outils compatibles répertoriés ici.

Type de document REST API SDK Étiquettes et modèles de test
Modèle personnalisé v 4.0 v3.1 v3.0 Document Intelligence 3.1 Kit de développement logiciel (SDK) Document Intelligence Document Intelligence Studio
Neuronal personnalisé v4.0 v3.1 v3.0 Document Intelligence 3.1 Kit de développement logiciel (SDK) Document Intelligence Document Intelligence Studio
Formulaire personnalisé v2.1 API GA Intelligence documentaire 2.1 Kit de développement logiciel (SDK) Document Intelligence Exemple d’outil d’étiquetage

Note

Les modèles de gabarit personnalisés entraînés avec l'API 3.0 présentent quelques améliorations par rapport à l'API 2.1 grâce aux améliorations apportées au moteur OCR. Les jeux de données utilisés pour entraîner un modèle personnalisé à l’aide de l’API 2.1 peuvent toujours être utilisés pour entraîner un nouveau modèle à l’aide de l’API 3.0.

  • Une photo claire ou une analyse de haute qualité par document doit être fournie pour obtenir des résultats optimaux.

  • Les formats de fichiers pris en charge sont JPEG/JPG, PNG, BMP, TIFF et PDF (texte incorporé ou numérisé). Les fichiers PDF incorporés en texte permettent d’éliminer la possibilité d’erreur dans l’extraction de caractères et l’emplacement.

  • Les fichiers PDF et TIFF, jusqu’à 2 000 pages, peuvent être traités. Avec un abonnement de niveau gratuit, seules les deux premières pages sont traitées.

  • La taille du fichier doit être inférieure à 500 Mo pour le niveau payant (S0) et 4 Mo pour le niveau gratuit (F0).

  • Les dimensions de l’image doivent être comprises entre 50 x 50 pixels et 10 000 x 10 000 pixels.

  • Les dimensions PDF sont jusqu’à 17 x 17 pouces, correspondant à la taille du papier Legal ou A3, ou plus petite.

  • La taille totale des données d’apprentissage est de 500 pages ou moins.

  • Les fichiers PDF verrouillés par mot de passe doivent avoir le verrou de mot de passe supprimé avant la soumission.

    Conseil

    Données d’apprentissage :

    • Si possible, utilisez des documents PDF textuels plutôt que des documents basés sur des images. Les fichiers PDF analysés sont gérés en tant qu’images.
    • Fournissez une seule instance du formulaire par document.
    • Pour les formulaires renseignés, utilisez des exemples qui ont tous leurs champs renseignés.
    • Utilisez des formulaires avec des valeurs différentes dans chaque champ.
    • Si vos images de formulaire sont de qualité inférieure, utilisez un jeu de données plus volumineux. Par exemple, utilisez 10 à 15 images.

Langues et paramètres régionaux pris en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des modèles personnalisés .

Étapes suivantes