Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt
Förhandsversioner av API 2024-12-01-preview och 2025-05-01-preview ska avvecklas senast den 15 juli 2026. Om du fortfarande använder ett förhandsversions-API uppdaterar du koden för att rikta in dig på den senaste API-versionen 2025-11-01 (GA).
API:er versioner 2024-12-01-preview och 2025-05-01-preview är i offentlig förhandsversion. Dessa förhandsversioner tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews and the Microsoft Products and Services Data Protection Addendum ("DPA").
Azure Content Understanding kan du generera en standarduppsättning videometadata och skapa anpassade fält för ditt specifika användningsfall med hjälp av generativa modeller. Content Understanding hjälper dig att hantera, kategorisera, hämta och skapa arbetsflöden för videotillgångar. Det förbättrar medietillgångsbiblioteket, stöder funktioner som markeringsgenerering, kategoriserar innehåll och underlättar program som hämtningsförhöjd generation (RAG).
Den färdiga videoanalysatorn (prebuilt-videoAnalysis) matar ut RAG-klara utdata. I Markdown matas följande ut:
- Utskrift: Infogade avskrifter i standardformat för WEBVTT
- Nyckelramar: Ordnade miniatyrbilder för nyckelramar som möjliggör djupare analys
Och JSON-schemat innehåller mer information från den visuella analysen.
- Beskrivning: Segmentbeskrivningar med naturligt språk med visuell kontext och talkontext
- Segmentering: Automatisk scensegmentering som delar upp videon i logiska segment baserat på kategorier som du definierar
Det här formatet kan placeras direkt i en vektorbutik för att aktivera en agent eller en rag-arbetsflöde – ingen efterhandsbearbetning krävs.
Därifrån kan du anpassa analysatorn för mer detaljerad kontroll av utdata. Du kan definiera anpassade fält och segment. Med anpassning kan du använda den fulla kraften i generativa modeller för att extrahera djupa insikter från videons visuella och ljudinformation.
Med anpassning kan du till exempel:
- Definiera anpassade fält: för att identifiera vilka produkter och varumärken som visas eller nämns i videon.
- Generera anpassade segment: för att segmentera en nyhetssändning i kapitel baserat på de ämnen eller nyheter som diskuteras.
-
Identifiera framstående personer med ansiktsbeskrivning: gör det möjligt för en kund att märka kändisar i bilder med namn och titel baserat på den generativa modellens världskunskap,
Satya Nadellatill exempel .
Varför ska du använda Content Understanding för video?
Innehållstolkning för video har många potentiella användningsområden. Du kan till exempel anpassa metadata för att tagga specifika scener i en träningsvideo, vilket gör det enklare för anställda att hitta och gå tillbaka till viktiga avsnitt. Du kan också använda metadataanpassning för att identifiera produktplacering i kampanjvideor, vilket hjälper marknadsföringsteam att analysera varumärkesexponering. Andra användningsfall är:
- Sändningsmedia och underhållning: Hantera stora bibliotek med shower, filmer och klipp genom att generera detaljerade metadata för varje tillgång.
- Utbildning och e-learning: Index och hämta specifika ögonblick i utbildningsvideor eller föreläsningar.
- Företagsutbildning: Organisera träningsvideor efter viktiga ämnen, scener eller viktiga ögonblick.
- Marknadsföring och reklam: Analysera kampanjvideor för att extrahera produktplaceringar, varumärkesframträdanden och viktiga meddelanden.
Exempel på fördefinierad videoanalys
Med den fördefinierade videoanalysatorn (prebuilt-videoSearch) kan du ladda upp en video och få en omedelbart användbar kunskapstillgång. Tjänsten paketerar innehållet i välformaterad Markdown och JSON. Med den här processen kan ditt sökindex eller chattagent mata in innehållet utan anpassad limkod.
Anropa till exempel analysatorn som är utformad för hämtningsförhöjd generation för video
prebuilt-videoSearch. Mer information finns i REST API-snabbstarten .När du analyserar en 30-sekunders reklamvideo genereras följande utdata:
# Video: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Video: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
Genomgång
Se följande genomgång för RAG on Video med hjälp av Content Understanding:
RAG på video med hjälp av Azure Content Understanding
Kapacitet
Observera
Funktioner för ansiktsidentifiering och gruppering är endast tillgängliga i förhandsversionen av API:et och ingår inte i ga-versionen.
Två steg omvandlar råvideo till strukturerade insikter. Följande diagram visar hur extrahering av innehåll matar in i fältextrahering.
Tjänsten körs i två steg. Det första steget, extrahering av innehåll, handlar om att samla in grundläggande metadata, till exempel transkriptioner och bilder. Den andra fasen, fältextrahering, använder en generativ modell för att skapa anpassade fält och utföra segmentering.
Funktioner för extrahering av innehåll
Det första passet handlar om att extrahera en första uppsättning detaljer – vem som talar och var är nedskärningarna. Det skapar en solid metadata-stam som senare steg kan resonera över.
Transkription: Konverterar konversationsljud till sökbara och analysbara textbaserade transkriptioner i WebVTT-format. Tidsstämplar på meningsnivå är tillgängliga om
"returnDetails": trueär aktiverad. Content Understanding stöder den fullständiga uppsättningen Azure Speech i Foundry Tools tal-till-text-språk. Information om språkstöd för video är samma som ljud, seSpråkhantering för ljud för mer information. Följande transkriptionsinformation är viktig att tänka på:Diarisering: Skiljer mellan talare i en konversation i utdata och tillskriver delar av avskriften till specifika talare.
Flerspråkig transkription: Genererar flerspråkiga avskrifter. Språk/regional inställning tillämpas för varje fras i transkriptionen. Fraser som genereras när
"returnDetails": trueär inställd. Den här funktionen avviker från språkidentifiering och aktiveras när inget språk eller område har angetts eller om språket är inställt påauto.Observera
När flerspråkig transkription används ger alla filer med nationella inställningar som inte stöds ett resultat baserat på närmaste språk som stöds, vilket sannolikt är felaktigt. Det här resultatet är ett känt beteende. Undvik transkriptionskvalitetsproblem genom att se till att du konfigurerar nationella inställningar när du inte använder en flerspråkig transkription som stöds.
Extrahering av nyckelram: Extraherar nyckelramar från videor för att representera varje skott helt, vilket säkerställer att varje skott har tillräckligt med nyckelramar för att fältextraheringen ska fungera effektivt.
Skottdetektering: Identifierar segment av videon i linje med sekvensgränser där det är möjligt, vilket möjliggör exakt redigering och ompaketering av innehåll där pauserna matchar de befintliga redigeringarna. Utdata är en lista över tidsstämplar i millisekunder i
cameraShotTimesMs. Utdata returneras endast när"returnDetails": truehar angetts.
Extrahering och segmentering av fält
Därefter betyder de generativa modellskikten – taggning av scener, sammanfattning av åtgärder och segmentering av bilder i segment enligt din begäran. I den här åtgärden omvandlas frågor till strukturerade data.
Anpassade fält
Forma utdata så att de matchar företagets vokabulär. Använd ett fieldSchema objekt där varje post definierar ett fälts namn, typ och beskrivning. Under körning fyller den generativa modellen dessa fält för varje segment.
Hantering av medietillgångar:
- Videokategori: Hjälper redaktörer och producenter att organisera innehåll genom att klassificera det som nyheter, sport, intervju, dokumentär eller annons. Användbart för metadatataggning och snabbare innehållsfiltrering och hämtning.
- Färgschema: Förmedlar stämning och atmosfär, viktigt för narrativ konsekvens och läsarengagemang. Genom att identifiera färgteman kan du hitta matchande klipp för snabbare videoredigering.
Reklam:
- Varumärke: Identifierar varumärkesnärvaro, kritisk för att analysera annonspåverkan, varumärkessynlighet och association med produkter. Den här funktionen gör det möjligt för annonsörer att utvärdera varumärkesstatus och säkerställa efterlevnad av varumärkesriktlinjer.
- Annonskategorier: Kategoriserar annonstyper efter bransch, produkttyp eller målgruppssegment, som stöder riktade annonseringsstrategier, kategorisering och prestandaanalys.
Exempel:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
Fält för ansiktsbeskrivning
Observera
Den här funktionen är begränsad åtkomst. Kunder måste begära att inaktivera ansiktsoskärpa för Azure OpenAI-modeller genom en Azure supportbegäran. Läs mer Hantera en Azure support begäran.
Du kan också utöka funktionen för fältextrahering för att ge detaljerade beskrivningar av ansikten i videon. Den här funktionen omfattar attribut som ansiktshår, ansiktsuttryck och förekomsten av kändisar, vilket kan vara avgörande för olika analys- och indexeringsändamål. Aktivera ansiktsbeskrivningsfunktioner genom att sätta in disableFaceBlurring : true i analysatorns konfiguration.
Exempel:
-
Exempelfält: facialHairDescription: Beskriver typen av ansiktshår (till exempel
beard,mustache,clean-shaven) -
Exempelfält: nameOfProminentPerson: Ger ett namn om möjligt för en kändis i videon (till exempel
Satya Nadella) - Exempelfält: faceSmilingFrowning: Innehåller en beskrivning av om en person ler eller rynkar pannan
Segmenteringsläge
Observera
Om du anger segmentering används den generativa modellen, som förbrukar token även om inga fält har definierats.
Content Understanding erbjuder två sätt att segmentera en video, så att du kan få utdata som du behöver för hela videor eller korta klipp. Du kan använda de här alternativen genom att ange egenskapen enableSegment på en anpassad analysator.
Hel video –
enableSegment : falseTjänsten behandlar hela videofilen som ett enda segment och extraherar metadata under hela dess varaktighet.Användningsfall:
- Efterlevnadskontroller som söker efter specifika varumärkessäkerhetsproblem var som helst i en annons
- beskrivande sammanfattningar i full längd
Anpassad segmentering –
enableSegment : trueDu beskriver logiken i naturligt språk och modellen skapar segment som ska matchas. AngecontentCategoriesmed en sträng som beskriver hur du vill att videon ska segmenteras. Anpassad tillåter segment med varierande längd, från sekunder till minuter, beroende på anvisningen. I den här versionen stöder video endast ettcontentCategoriesobjekt.Exempel: Dela upp en nyhetssändning i berättelser.
{ "config": { "enableSegment": true, "contentCategories": { "news-story": { "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.", "analyzerId": "NewsAnalyzer" } } } }
Viktiga fördelar
Content Understanding ger flera viktiga fördelar jämfört med andra lösningar för videoanalys:
- Segmentbaserad analys med flera ramar: Identifiera åtgärder, händelser, ämnen och teman genom att analysera flera bildrutor från varje videosegment i stället för enskilda bildrutor.
- Anpassning: Anpassa fälten och segmenteringen som du genererar genom att ändra schemat i enlighet med ditt specifika användningsfall.
- Generativa modeller: Beskriv på naturligt språk vilket innehåll du vill extrahera, och Content Understanding använder generativa modeller för att extrahera dessa metadata.
- Optimerad förbearbetning: Utför flera förbearbetningssteg för innehållsextrahering, till exempel transkription och scenidentifiering, optimerade för att ge omfattande kontext till AI-generativa modeller.
Tekniska begränsningar
Specifika begränsningar för videobearbetning att tänka på:
- Ramsampling (~ 1 FPS): Analysatorn inspekterar ungefär en bildruta per sekund. Snabba rörelser eller enstaka bildrutor kan missas.
- Bildruteupplösning (512 × 512 px): Samplade bildrutor ändras till 512 bildpunkter kvadratiska. Små textobjekt eller avlägsna objekt kan gå förlorade.
- Tal: Endast talade ord transkriberas. Musik, ljudeffekter och omgivande brus ignoreras.
Indatakrav
Information om format som stöds finns i Tjänstkvoter och -gränser.
Språk och regioner som stöds
Datasekretess och säkerhet
Precis som med alla Foundry-verktyg läser du dokumentationen Microsoft Data, skydd och sekretess.
Viktigt
Om du bearbetar biometriska data (till exempel aktivera ansiktsbeskrivning) måste du uppfylla alla krav på meddelande, medgivande och borttagning enligt tillämpliga lagar. Se Data och sekretess för Ansiktsigenkänning.
Relaterat innehåll
Prova att analysera videor i Content Understanding Studio.
Läs mer om att analysera videoinnehåll med hjälp av analysmallar.
Prover: