Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Note
Den här sidan beskriver den nya versionen av informationsextrahering. Information om den tidigare versionen finns i Använda informationsextrahering (äldre)
Informationsextrahering omvandlar ostrukturerade dokument och text till viktiga, strukturerade insikter med hjälp av ett definierat schema. På så sätt kan du använda information som är inbäddad i ostrukturerad text, PDF-filer, bilder eller tabeller direkt för analys, rapportering eller underordnade agenter och program.
Exempel på extrahering av information är:
- Extrahera juridiska parter och avtalsvillkor.
- Extrahera rader och betalningsvillkor från fakturor.
- Hämta viktiga detaljer från medicinska journaler och anteckningar.
Informationsextrahering bygger på AI-funktionen ai_extract. Extrahering av information har ett visuellt användargränssnitt för att anpassa och optimera funktionen med ett definierat schema för extrahering.
Extrahering av information använder standardlagring för att lagra tillfälliga datatransformeringar, modellkontrollpunkter och interna metadata som driver varje agent. När du tar bort en agent tar Databricks bort alla data som är associerade med agenten från standardlagringen.
Kravspecifikation
- En arbetsyta som innehåller följande:
- Serverlös beräkning aktiverad. Se Krav för serverlös beräkning.
- Unity Catalog aktiverat. Se Aktivera en arbetsyta för Unity Catalog.
- Åtkomst till en serverlös användningsprincip med en icke-nollbudget.
- Den här funktionen är endast tillgänglig i vissa regioner, se TILLGÄNGLIGHET för AI-funktioner.
- För arbetsytor med tillägget Förbättrad säkerhet och efterlevnad
- Se regionalt stöd för
ai_extractlämplig efterlevnadsstandard. - Se Hantera Azure Databricks förhandsversioner för hur du aktiverar den på din arbetsyta.
- Se regionalt stöd för
- Möjlighet att använda SQL-funktionen
ai_extract. - Ostrukturerade data som du vill extrahera information från. Data måste finnas i en Unity Catalog-volym eller -tabell.
- Om du vill skapa din agent måste du ha minst en fil i Unity Catalog-volymen eller en rad i tabellen.
Skapa en informationsextraheringsagent
Gå till Agenter i det vänstra navigeringsfönstret på arbetsytan. Klicka på Skapa agent>Informationsextraktion.
Steg 1. Välj de data som du vill extrahera information från
På sidan Börja med dina data väljer du de filer eller data som du vill extrahera information från. Du kan göra något av följande:
- Dra och släpp en eller flera filer i uppladdningsområdet eller klicka för att bläddra efter filer som ska laddas upp.
- Klicka på Välj volym för att välja en Unity Catalog-volym med filtyper som stöds.
- Klicka på Välj tabell för att välja en Unity Catalog-tabell som innehåller textdata.
Om du väljer en tabell väljer du den kolumn som innehåller de data som du vill extrahera från. Du måste välja en kolumn med en typ som stöds, till exempel STRING eller VARIANT, innan du kan fortsätta. Om tabellen inte har några kolumner som stöds väljer du en annan tabell.
Klicka på Skapa agent. Den här knappen aktiveras endast när du har valt en giltig datakälla och, för en tabell, en kolumn som stöds.
Steg 2. Konfigurera och förfina extraheringsschemat
När informationsextrahering har bearbetat dina data konfigurerar och förfinar du vilka data du vill extrahera från dina dokument.
Under konfigurationen ska du definiera din extraheringsschema. Det finns flera sätt att göra detta:
- Ange naturligt språk som beskriver den information som du vill extrahera och klicka på Generera schema. Extrahering av information genererar automatiskt ett JSON-schema med fältnamn och definitioner åt dig. Redigera dessa beskrivningar efter behov.
- Du kan också klicka på Eller, Definiera manuellt för att manuellt definiera schemat:
- Klicka på Lägg till fält.
- Ange fältnamn, typ och beskrivning.
- Klicka på Bekräfta.
- Upprepa för varje fält som du vill extrahera.
- Klicka på Spara och kör extrahering.
- Du kan också klicka på JSON för att redigera JSON-schemat direkt. Klicka på Tillämpa ändringar när du är klar.
Varje gång du uppdaterar schemat och klickar på Spara och kör extrahering uppdaterar informationsextraheringsagenten, kör extraheringen och visar resultatet för varje indata.
Till vänster, granska det tolkade dokumentet och den av agenten gjorda extraktionen. Iterera extraheringsresultatet på två sätt. Börja med att ge feedback om naturligt språk på en eller flera indata, som automatiskt justerar dina beskrivningar när du trycker på Spara och kör extrahering. För det andra ändrar du schemabeskrivningarna manuellt, vilket träder i kraft när du trycker på Spara och kör extrahering.
Använd versioner för att jämföra eller återgå till en tidigare konfiguration. Klicka på Versioner och klicka sedan på Jämför för att jämföra schemadefinitionen för en tidigare version med den aktuella versionen. Klicka på Återställ för att återställa en tidigare version.
Steg 3. Använd din extraheringsagent
När du är nöjd med agentens prestanda använder du agenten för att extrahera information.
Klicka på Använd agent i det övre högra hörnet. Du kan välja något av följande:
-
Kör i SQL för att använda agenten för att extrahera information från alla dina data. Då öppnas en SQL-fråga som använder
ai_extractför att extrahera information från volymen eller tabellen med hjälp av det definierade schemat. Mer information om hur du använderai_extracti SQL-frågor finns iai_extractfunktion. - Skapa en Spark deklarativ pipeline för att distribuera en ETL-pipeline som körs vid schemalagda intervall för att anropa din agent på nya data. Detta skapar Lakeflow Spark Deklarativa pipelines som uppdaterar en strömmande tabell med dina extraherade data. Du kan konfigurera pipelinens schema så att det körs när nya data kommer. Mer information om Lakeflow Spark Deklarativa Pipelines finns i Lakeflow Spark Deklarativa Pipelines.
Limitations
- Informationsextraheringsagenter har en maximal kontextlängd på 128 000 token.
- Union-schematyper stöds inte.