Dela via


Berika data med AI Functions

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

AI Functions är inbyggda funktioner som du kan använda för att tillämpa LLM:er eller toppmoderna forskningstekniker på data som lagras på Azure Databricks för datatransformering och berikande. De kan köras var som helst i Databricks, inklusive Databricks SQL, notebook-filer, Lakeflow Spark Deklarativa pipelines och arbetsflöden.

AI Functions är enkla att använda, snabba och skalbara. Analytiker kan använda dem för att tillämpa dataintelligens på sina egna data, medan datatekniker, dataforskare och maskininlärningstekniker kan använda dem för att skapa batchpipelines i produktionsklass.

Uppgiftsspecifik och generell användning

AI Functions har uppgiftsspecifika och allmänna funktioner:

  • Uppgiftsspecifika AI Functions – Specialbyggda funktioner som är optimerade för en specifik uppgift, till exempel dokumentparsning, entitetsextrahering, klassificering och attitydanalys. Dessa funktioner drivs av Azure Databricks-hanterade, forskningsstödda system. Vissa funktioner omfattar användargränssnittsupplevelser. Se Uppgiftsspecifika AI-funktioner för funktioner och modeller som stöds.
  • ai_query — Allmännyttig funktion för flexibilitet i uppgifter och modeller. Ange en fråga och välj valfritt FOUNDATION Model API som stöds. Se Använd ai_query.

Beslutsträd för uppgiftsspecifika AI-funktioner och ai_query

uppgiftsspecifika AI-funktioner

Uppgiftsspecifika funktioner är begränsade till en viss uppgift så att du kan automatisera rutinmässiga transformeringar, till exempel entitetsextrahering, översättning och klassificering. Databricks rekommenderar dessa funktioner för att komma igång eftersom de anropar en toppmodern forskningsteknik som underhålls av Databricks och inte kräver någon anpassning.

Ett exempel finns i Analysera kundrecensioner med hjälp av AI Functions.

I följande tabell visas funktioner som stöds och den uppgift som de utför.

Funktion Beskrivning
ai_parse_document Parsa strukturerat innehåll (text, tabeller, bildbeskrivningar) och layout från ostrukturerade dokument med hjälp av toppmoderna forskningstekniker.
ai_extract Extrahera strukturerade fält från dokument eller text med hjälp av ett schema som du definierar.
ai_classify Klassificera indatatext enligt etiketter som du anger med hjälp av toppmoderna forskningstekniker.
ai_analysera_känslor Utför attitydanalys på indatatext med hjälp av en toppmodern generativ AI-modell.
ai_korrigera_grammatik Korrigera grammatiska fel i text med hjälp av en toppmodern generativ AI-modell.
ai_gen Svara på uppmaningen från användaren med hjälp av en toppmodern generativ AI-modell.
ai_mask Maskera angivna entiteter i text med hjälp av en toppmodern generativ AI-modell.
ai_parse_document Extrahera strukturerat innehåll från ostrukturerade dokument med hjälp av en toppmodern generativ AI-modell.
ai_prep_search Omvandla tolkade dokumentutdata till sökklara segment som är optimerade för vektorsökning och RAG-pipelines.
ai_query En generell AI-funktion för uppgifter som går utöver vad de uppgiftsspecifika funktionerna erbjuder. Ange en anpassad fråga och välj valfri FOUNDATION Model API-modell som stöds.
ai_similarity Jämför två strängar och beräkna den semantiska likhetspoängen med hjälp av en toppmodern generativ AI-modell.
ai_summarize Generera en sammanfattning av text med hjälp av SQL och den senaste generativa AI-modellen.
ai_translate Översätta text till ett angivet målspråk med hjälp av en toppmodern generativ AI-modell.
ai_forecast Prognostisera data upp till en angiven horisont. Den här tabellvärdesfunktionen är utformad för att extrapolera tidsseriedata i framtiden.
vector_search Sök efter och fråga ett Mosaic AI Vector Search index med hjälp av en toppmodern generativ AI-modell.

Använda AI Functions i produktionsarbetsflöden

För storskalig batchinferens kan du integrera uppgiftsspecifika AI Functions eller allmän funktionsanvändning ai_query i dina produktionsarbetsflöden, till exempel Lakeflow Spark Deklarativa Pipelines, Databricks-arbetsflöden och Strukturerad Streaming. Detta möjliggör bearbetning i produktionsklass i stor skala.

Metodtips för AI-funktioner i produktion:

Låt AI Functions hantera din arbetsbelastning i stor skala: AI Functions hanterar automatiskt parallellisering, återförsök och skalning. Vi rekommenderar att du skickar din fullständiga datamängd i en enda fråga i stället för att dela upp den manuellt i små batchar. Prestanda kanske inte skalas linjärt från mycket små arbetsbelastningar till storskaliga arbetsbelastningar.

Använd Databricks-värdbaserade grundläggande modeller: När du använder ai_query AI-funktionen, använd Databricks-värdbaserade grundläggande modeller (med prefixet databricks-), inte reserverad bandbredd. Dessa slutpunkter utan behov av förtillstånd hanteras helt och hållet och fungerar bäst för batchbearbetning.

Se Distribuera batchinferenspipelines för exempel och detaljer.

Övervaka AI Functions-förlopp

För att förstå hur många slutsatsdragningar som har slutförts eller misslyckats och felsöka prestanda kan du övervaka förloppet för AI Functions med hjälp av frågeprofilfunktionen.

I Databricks Runtime 16.1 ML och senare, från SQL-redigerarens frågefönster i din arbetsyta:

  1. Välj länken Körning--- längst ned i fönstret Råresultat. Prestandafönstret visas till höger.
  2. Klicka på Visa frågeprofil för att se prestandainformation.
  3. Klicka på AI Query för att se mått för den specifika frågan, inklusive antalet slutförda och misslyckade slutsatsdragningar och den totala tid som begäran tog att slutföra.

Visa kostnader för AI-funktionsarbetsbelastningar

AI-funktionskostnader registreras som en del av MODEL_SERVING produkten under BATCH_INFERENCE erbjudandetypen. Se Visa kostnader för batchinferensarbetsbelastningar för en exempelfråga.

Anmärkning

För ai_parse_document, ai_extractoch ai_classify registreras kostnader som en del av AI_FUNCTIONS produkten. Se Översikt över kostnader för ai_parse_document körningar för en exempelfråga.

Visa kostnader för batch-inferensjobb

I följande exempel visas hur du filtrerar batch-inferensbelastningar baserat på jobb, beräkning, SQL-lagerhus och Lakeflow Spark Deklarativa Pipelines.

Se Övervaka kostnader för modellserving för allmänna exempel på hur du visar kostnader för dina batchinferencearbetsbelastningar som använder AI Functions.

Jobb

Följande fråga visar vilka jobb som används för batchinferens med hjälp av systemtabellen system.workflow.jobs . Se Övervaka jobbkostnader och prestanda med systemtabeller.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Följande visar vilka kluster som används för batchinferens med hjälp av systemtabellen system.compute.clusters .

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Deklarativa pipelines för Lakeflow Spark

Följande visar vilka deklarativa pipelines för Lakeflow Spark som används för batchinferens med hjälp av systemtabellen system.lakeflow.pipelines.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL-lager

Följande visar vilka SQL-lager som används för batchinferens med hjälp av systemtabellen system.compute.warehouses .

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Visa kostnader för ai_parse_document körningar

I följande exempel visas hur man ställer frågor mot faktureringssystemets tabeller för att visa kostnader för ai_parse_document körningar.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";