Azure Content Understanding in oplossingen voor Foundry Tools-video's

Belangrijk

Preview-API-versies 2024-12-01-preview en 2025-05-01-preview wordt op 15 juli 2026 buiten gebruik gesteld. Als u nog steeds een preview-API gebruikt, werkt u uw code bij om de nieuwste API-versie 2025-11-01 (GA)te targeten.

API-versies 2024-12-01-preview en 2025-05-01-preview zijn beschikbaar als openbare preview. Deze previews worden aangeboden zonder service level agreement en worden niet aanbevolen voor productieworkloads. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews en het Microsoft Data Protection Addendum voor producten en services ("DPA").

Azure Met Content Understanding kunt u een standaardset videometagegevens genereren en aangepaste velden maken voor uw specifieke use case met behulp van generatieve modellen. Met Inhoudskennis kunt u werkstromen voor videoassets beheren, categoriseren, ophalen en bouwen. Het verbetert uw media-assetbibliotheek, ondersteunt functies zoals het genereren van highlights, categoriseert inhoud en faciliteert toepassingen zoals retrieval-augmented generation (RAG).

Afbeelding van de videoverwerkingsstroom Content Understanding.

De vooraf gebouwde videoanalyse (prebuilt-videoAnalysis) voert RAG-kant-en-klare uitvoer uit. In Markdown wordt het volgende uitgevoerd:

  • Afschrift: Inlinetranscripties in standaard WEBVTT-indeling
  • Sleutelframes: Geordende sleutelframeminiaturen die diepere analyse mogelijk maken

En het JSON-schema bevat meer details uit de visuele analyse.

  • Beschrijving: Beschrijvingen van natuurlijke taalsegmenten met visuele en spraakcontext
  • Segmentatie: Automatische scènesegmentatie die de video opsplitst in logische segmenten op basis van categorieën die u definieert

Deze indeling kan rechtstreeks in een vectoropslag worden geplaatst om een agent of RAG-werkstroom in te schakelen. Er is geen naverwerking vereist.

Van daaruit kunt u de analyse aanpassen voor meer verfijnde controle van de uitvoer. U kunt aangepaste velden en segmenten definiëren. Met aanpassing kunt u de volledige kracht van generatieve modellen gebruiken om diepe inzichten te verkrijgen uit de visuele en audiodetails van de video.

Met aanpassing kunt u bijvoorbeeld het volgende doen:

  • Aangepaste velden definiëren: om te bepalen welke producten en merken worden gezien of vermeld in de video.
  • Aangepaste segmenten genereren: om een nieuwsuitzending te segmenteren in hoofdstukken op basis van de onderwerpen of nieuwsberichten die worden besproken.
  • Identificeer prominente personen met behulp van gezichtsherkenning: klanten in staat stellen beroemdheden in beelden te labelen met naam en titel op basis van de wereldkennis van het generatieve model, bijvoorbeeld Satya Nadella.

Waarom Inhoudskennis gebruiken voor video?

Inhoudsbegrip voor video biedt brede mogelijkheden. U kunt bijvoorbeeld metagegevens aanpassen om specifieke scènes in een trainingsvideo te taggen, zodat werknemers belangrijke secties gemakkelijker kunnen vinden en bekijken. U kunt ook aanpassing van metagegevens gebruiken om productplaatsing te identificeren in promotievideo's, waardoor marketingteams merkblootstelling kunnen analyseren. Andere gebruiksvoorbeelden zijn:

  • Media en entertainment uitzenden: Beheer grote bibliotheken met shows, films en clips door gedetailleerde metagegevens voor elke asset te genereren.
  • Onderwijs en e-learning: Indexeer en haal specifieke momenten op in educatieve video's of lezingen.
  • Bedrijfstraining: Organiseer trainingsvideo's op belangrijke onderwerpen, scènes of belangrijke momenten.
  • Marketing en reclame: Analyseer promotievideo's om productplaatsingen, merkuitingen en belangrijke berichten te extraheren.

Voorbeeld van vooraf samengestelde videoanalyse

Met de vooraf samengestelde videoanalyse (prebuilt-videoSearch) kunt u een video uploaden en een onmiddellijk bruikbare kennisasset verkrijgen. De service verpakt de inhoud in rijk opgemaakte Markdown en JSON. Met dit proces kan uw zoekindex of chatagent de inhoud opnemen zonder aangepaste lijmcode.

  1. Roep bijvoorbeeld de analyzer aan die is ontworpen voor Retrieval-augmented Generation voor video's prebuilt-videoSearch. Zie de quickstart voor de REST API voor meer informatie.

  2. Het analyseren van een reclamevideo van 30 seconden produceert de volgende uitvoer:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Stapsgewijze handleiding

Zie de volgende procedure voor RAG op video met behulp van Content Understanding:

RAG op video met Azure Inhoudsbegrip

Mogelijkheden

Opmerking

Mogelijkheden voor gezichtsidentificatie en groepering zijn alleen beschikbaar in de preview-API-versie en zijn niet opgenomen in de GA-release.

Twee fasen transformeren de onbewerkte video in gestructureerde inzichten. In het volgende diagram ziet u hoe inhoudsextractie wordt ingevoerd in veldextractie.

Schermopname van de videoanalysestroom.

De service werkt in twee fasen. De eerste fase, inhoudextractie, omvat het vastleggen van basismetagegevens, zoals transcripties en opnamen. De tweede fase, veldextractie, maakt gebruik van een generatief model om aangepaste velden te produceren en segmentatie uit te voeren.

Mogelijkheden voor inhoudextractie

De eerste pas richt zich op het extraheren van een eerste reeks details—wie er spreekt en waar de knipplaatsen zijn. Er wordt een solide metagegevensstructuur gemaakt waarop latere stappen kunnen redeneren.

  • Transcriptie: Converteert gespreksaudio naar doorzoekbare en analyseerbare transcripties op basis van tekst in WebVTT-indeling. Tijdstempels op zinsniveau zijn beschikbaar als "returnDetails": true is ingesteld. Content Understanding ondersteunt de volledige set spraak-naar-tekst talen van Azure Speech binnen de Foundry Tools. Details van taalondersteuning voor video zijn hetzelfde als audio. ZieAudio Language Handling voor meer informatie. De volgende transcriptiedetails zijn belangrijk om rekening mee te houden:

    • Diarisatie: Onderscheidt tussen sprekers in de uitvoer van een gesprek, en waarbij transcriptdelen aan specifieke sprekers worden toegeschreven.

    • Meertalige transcriptie: Hiermee worden meertalige transcripties gegenereerd. De taal/locale-instelling wordt per zin in het transcript toegepast. Wanneer "returnDetails": true is ingesteld, worden zinnen uitgevoerd. Afwijken van taaldetectie is deze functie ingeschakeld wanneer er geen taal/landinstelling is opgegeven of als taal is ingesteld op auto.

      Opmerking

      Wanneer meertalige transcriptie wordt gebruikt, produceren bestanden met niet-ondersteunde landinstellingen een resultaat op basis van de dichtstbijzijnde ondersteunde landinstelling, wat waarschijnlijk onjuist is. Dit resultaat is een bekend verschijnsel. Vermijd kwaliteitsproblemen met transcriptie door ervoor te zorgen dat u lokale instellingen configureert wanneer u geen meertalige transcriptie-ondersteunde lokale instelling gebruikt.

    • Sleutelframeextractie: Extraheert sleutelframes van video's om elke opname volledig weer te geven, zodat elke opname voldoende sleutelframes heeft om veldextractie effectief te laten werken.

    • Opnamedetectie: Identificeert segmenten van de video die waar mogelijk zijn uitgelijnd met schotgrenzen, waardoor inhoud nauwkeurig kan worden bewerkt en opnieuw kan worden verpakt met exact bestaande bewerkingen. De uitvoer is een lijst met tijdstempels in milliseconden in cameraShotTimesMs. De uitvoer wordt alleen geretourneerd wanneer "returnDetails": true is ingesteld.

Veldextractie en segmentatie

Vervolgens voegt het generatieve model lagen van betekenis toe: scènes taggen, acties samenvatten en beelden naar wens in segmenten opdelen. Bij deze actie veranderen prompts in gestructureerde gegevens.

Aangepaste velden

Vorm de uitvoer zodat deze overeenkomt met uw zakelijke vocabulaire. Gebruik een object waarin elke vermelding de fieldSchema naam, het type en de beschrijving van een veld definieert. Tijdens runtime vult het generatieve model deze velden voor elk segment.

  • Media assetbeheer:

    • Videocategorie: Helpt editors en producenten om inhoud te ordenen door deze te classificeren als Nieuws, Sport, Interview, Documentaire of Advertentie. Handig voor het taggen van metagegevens en het sneller filteren en ophalen van inhoud.
    • Kleurenschema: Geeft stemming en atmosfeer, essentieel voor de consistentie van het verhaal en kijkerbetrokkenheid. Het identificeren van kleurthema's helpt bij het vinden van overeenkomende clips voor versnelde videobewerking.
  • Reclame:

    • Merk: Identificeert merk aanwezigheid, essentieel voor het analyseren van advertentie-impact, merkzichtbaarheid en koppeling met producten. Met deze mogelijkheid kunnen adverteerders merkstatus beoordelen en naleving van huisstijlrichtlijnen garanderen.
    • Advertentiecategorieën: Categoriseert advertentietypen per branche, producttype of doelgroepsegment, dat ondersteuning biedt voor gerichte advertentiestrategieën, categorisatie en prestatieanalyse.

Voorbeeld:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Velden voor gezichtsbeschrijving

Opmerking

Deze functie heeft beperkte toegang; klanten moeten vragen om gezichts vervagen uit te schakelen voor Azure OpenAI-modellen met een ondersteuning voor Azure aanvraag. Meer informatie Manage an ondersteuning voor Azure request.

De mogelijkheid voor veldextractie kan eventueel worden uitgebreid om gedetailleerde beschrijvingen van gezichten in de video te bieden. Deze mogelijkheid omvat kenmerken zoals gezichtshaar, gezichtsuitdrukking en de aanwezigheid van beroemdheden, die cruciaal kunnen zijn voor verschillende analytische en indexeringsdoeleinden. Om de mogelijkheden voor gezichtsbeschrijvingen in te schakelen, stel disableFaceBlurring : true in de analyseconfiguratie in.

Voorbeelden:

  • Voorbeeldveld: facialHairDescription: Beschrijft het type gezichtshaar (bijvoorbeeld beard, mustache, clean-shaven)
  • Voorbeeldveld: nameOfProminentPerson: Geeft een naam indien mogelijk van een beroemdheid in de video (bijvoorbeeld Satya Nadella)
  • Voorbeeldveld: faceSmilingFrowning: Geeft een beschrijving van of een persoon glimlacht of frownen

Segmentatiemodus

Opmerking

Het instellen van segmentatie gebruikt het generatieve model, waarbij tokens worden verbruikt, zelfs als er geen velden zijn gedefinieerd.

Content Understanding biedt twee manieren om een video te segmenteren, zodat u de uitvoer krijgt die u nodig hebt voor hele video's of korte clips. U kunt deze opties gebruiken door de enableSegment eigenschap in te stellen op een aangepaste analyzer.

  • Hele video : enableSegment : false de service behandelt het hele videobestand als één segment en extraheert metagegevens gedurende de volledige duur.

    Gebruiksvoorbeelden:

    • Nalevingscontroles die zoeken naar specifieke brandveiligheidsproblemen overal in een advertentie
    • uitgebreide beschrijvende samenvattingen
  • Aangepaste segmentatie : enableSegment : true u beschrijft de logica in natuurlijke taal en het model maakt segmenten die overeenkomen. Instellen contentCategories met een tekenreeks die beschrijft hoe u de video wilt segmenteren. Aangepaste instellingen maken het mogelijk om segmenten van verschillende lengtes toe te staan, variërend van seconden tot minuten, afhankelijk van de prompt. In deze versie ondersteunt video slechts één contentCategories object.

    Voorbeeld: Een nieuwsuitzending opsplitsen in verhalen.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Belangrijkste voordelen

Content Understanding biedt verschillende belangrijke voordelen in vergelijking met andere oplossingen voor videoanalyse:

  • Analyse van meerdere frames op basis van segmenten: Identificeer acties, gebeurtenissen, onderwerpen en thema's door meerdere frames uit elk videosegment te analyseren in plaats van afzonderlijke frames.
  • Aanpassing: Pas de velden en segmentatie die u genereert aan door het schema te wijzigen in overeenstemming met uw specifieke use-case.
  • Generatieve modellen: Beschrijf in natuurlijke taal welke inhoud u wilt extraheren en Content Understanding maakt gebruik van generatieve modellen om die metagegevens te extraheren.
  • Geoptimaliseerde voorverwerking: Voer verschillende stappen voor het extraheren van inhoud uit, zoals transcriptie en scènedetectie, geoptimaliseerd om rijke context te bieden aan AI-generatieve modellen.

Technische beperkingen en limitaties

Specifieke beperkingen van videoverwerking om rekening mee te houden:

  • Framesampling (~ 1 FPS): de analyzer inspecteert één frame per seconde. Snelle bewegingen of gebeurtenissen met één frame kunnen worden gemist.
  • Frameresolutie (512 × 512 px): voorbeeldframes worden aangepast tot 512 pixels vierkant. Kleine tekst of verre objecten kunnen verloren gaan.
  • Spraak: Alleen gesproken woorden worden getranscribeerd. Muziek, geluidseffecten en omgevingsgeluiden worden genegeerd.

Invoervereisten

Zie Servicequota en -limieten voor ondersteunde indelingen.

Ondersteunde talen en regio's

Zie taal- en regioondersteuning.

Gegevensprivacy en -beveiliging

Net als bij alle Foundry Tools raadpleegt u de documentatie van Microsoft Gegevens, beveiliging en privacy.

Belangrijk

Als u biometrische gegevens verwerkt (bijvoorbeeld Gezichtsbeschrijving inschakelen), moet u voldoen aan alle vereisten voor kennisgeving, toestemming en verwijdering onder toepasselijke wetgeving. Zie gegevens en privacy voor Face.