Extraction d’informations

Note

Cette page couvre la nouvelle version de l’extraction d’informations. Pour plus d’informations sur la version précédente, consultez Utiliser l’extraction d’informations (héritée)

L’extraction d’informations transforme des documents et du texte non structurés en insights structurés clés à l’aide d’un schéma défini. Cela vous permet d’utiliser des informations incorporées dans du texte non structuré, des fichiers PDF, des images ou des tables directement pour l’analyse, la création de rapports ou les agents et applications en aval.

Voici quelques exemples d’extraction d’informations :

  • Extraction de parties juridiques et de conditions à partir de contrats.
  • Extraction d’éléments de ligne et de conditions de paiement à partir de factures.
  • Extraction des détails clés des dossiers médicaux et des notes.

L’extraction d’informations repose sur la fonction d’IA ai_extract. L’extraction d’informations a une interface utilisateur visuelle pour personnaliser et optimiser la fonction avec un schéma défini pour l’extraction.

L’extraction d’informations utilise le stockage par défaut pour stocker des transformations de données temporaires, des points de contrôle de modèle et des métadonnées internes qui alimentent chaque agent. Lorsque vous supprimez un agent, Databricks supprime toutes les données associées à l’agent du stockage par défaut.

Exigences

Créer un agent d’extraction d’informations

Accédez à l’icône Agents.Agents dans le volet de navigation gauche de votre espace de travail. Cliquez sur Créer un agent>Extraction d'informations.

Étape 1. Sélectionner les données à partir de laquelle extraire des informations

  1. Dans la page Démarrer avec vos données , sélectionnez les fichiers ou les données à partir duquel vous souhaitez extraire des informations. Vous pouvez effectuer l’une des opérations suivantes :

    • Faites glisser et déposez un ou plusieurs fichiers dans la zone de chargement, ou cliquez pour rechercher les fichiers à charger.
    • Cliquez sur Sélectionner un volume pour sélectionner un volume catalogue Unity avec les types de fichiers pris en charge.
    • Cliquez sur Sélectionner une table pour sélectionner une table de catalogue Unity qui contient des données de texte.
  2. Si vous sélectionnez une table, sélectionnez la colonne qui contient les données à extraire. Vous devez sélectionner une colonne d’un type pris en charge, tel que STRING ou VARIANT, avant de pouvoir continuer. Si la table n’a pas de colonnes prises en charge, sélectionnez une autre table.

  3. Cliquez sur Créer un agent. Ce bouton est activé uniquement après avoir sélectionné une source de données valide et, pour une table, une colonne prise en charge.

Étape 2. Configurer et affiner votre schéma d’extraction

Une fois que l’extraction d’informations traite vos données, configurez et affinez les données que vous souhaitez extraire de vos documents.

  1. Sous Configuration, définissez votre schéma d’extraction. Pour ce faire, plusieurs méthodes sont possibles :

    • Entrez le langage naturel qui décrit les informations que vous souhaitez extraire, puis cliquez sur Générer le schéma. L’extraction d’informations génère automatiquement un schéma JSON avec des noms de champs et des définitions pour vous. Modifiez ces descriptions si nécessaire.
    • Vous pouvez également cliquer ou définir manuellement pour définir manuellement votre schéma :
      1. Cliquez sur Ajouter un champ.
      2. Entrez le nom, le type et la description de votre champ.
      3. Cliquez sur Confirmer.
      4. Répétez pour chaque champ que vous souhaitez extraire.
      5. Cliquez sur Enregistrer et exécuter l’extraction.
    • Vous pouvez également cliquer sur JSON pour modifier directement le schéma JSON. Cliquez sur Appliquer les modifications lorsque vous avez terminé.

    Chaque fois que vous mettez à jour votre schéma, cliquez sur Enregistrer et exécuter l’extraction, l’extraction des informations met à jour l’agent d’extraction, exécute l’extraction et affiche les résultats de chaque entrée.

  2. Sur la gauche, passez en revue le document analysé et l’extraction de l’assistant. Itérer les résultats d'extraction de deux manières. Tout d’abord, fournissez des commentaires en langage naturel sur une ou plusieurs entrées, qui ajustent automatiquement vos descriptions lorsque vous appuyez sur Enregistrer et exécuter l’extraction. Ensuite, modifiez manuellement les descriptions de schéma, qui prennent effet lorsque vous appuyez sur Enregistrer et exécuter l’extraction.

  3. Utilisez des versions pour comparer ou rétablir une configuration précédente. Cliquez sur Versions, puis cliquez sur Comparer pour comparer la définition de schéma d’une version précédente à la version actuelle. Cliquez sur Restaurer pour restaurer une version précédente.

Étape 3. Utilisez votre agent d’extraction

Une fois que vous êtes satisfait des performances de l’agent, utilisez l’agent pour extraire des informations.

Cliquez sur Utiliser l’agent en haut à droite. Vous pouvez sélectionner :

  • Exécutez sql pour utiliser l’agent pour extraire des informations de toutes vos données. Cela ouvre une requête SQL qui utilise ai_extract pour extraire des informations de votre volume ou table à l’aide du schéma défini. Pour plus d’informations sur l’utilisation ai_extract dans les requêtes SQL, consultez ai_extract la fonction.
  • Créez un pipeline déclaratif Spark pour déployer un pipeline ETL qui s'exécute à des intervalles réguliers afin d'interroger votre agent sur de nouvelles données. Cela crée des pipelines déclaratifs Spark Lakeflow qui mettent à jour une table de streaming avec vos données extraites. Vous pouvez configurer l'horaire du pipeline pour qu'il s’exécute dès l'arrivée de nouvelles données. Pour plus d’informations sur Lakeflow Spark Declarative Pipelines, consultez Lakeflow Spark Declarative Pipelines.

Limites

  • Les agents d’extraction d’informations ont une longueur de contexte maximale de 128 000 jetons.
  • Les types de schémas union ne sont pas pris en charge.