Dela via


Välj utvärderingsmetoder

När du skapar testuppsättningar, välj bland olika testmetoder för att utvärdera din agents svar. Varje testmetod har sina egna styrkor och passar olika typer av utvärderingar.

Testmetod Åtgärder Typ av testuppsättning Poängsättning Configurations
Allmän kvalitet Hur väl bedöms svaren från ett testfall baserat på specifika egenskaper Enskilt svar eller en konversation Fick poäng av 100% None
Jämför betydelsen Hur väl betydelsen av testfallets svar stämmer överens med det förväntade svaret Enkelt svar Fick poäng av 100% Godkänt resultat, förväntat svar
Användning av kapabilitet Om testfallet använde alla eller några förväntade resurser Enkelt svar Godkänd/underkänd Förväntade kapaciteter
Nyckelordsmatchning Oavsett om testfallet använde alla eller några av de förväntade nyckelorden eller fraserna Enskilt svar eller en konversation Godkänd/underkänd Förväntade nyckelord eller fraser
Textlikhet Hur väl texten i testfallets svar stämmer överens med det förväntade svaret Enkelt svar Fick poäng av 100% Godkänt resultat, förväntat svar
Exakt matchning Om testfallets svar exakt motsvarar det förväntade svaret Enkelt svar Godkänd/underkänd Förväntat svar

Lägga till en testmetod

  1. När du skapar eller redigerar en testuppsättning, välj Lägg till testmetod.

  2. Välj alla metoder du vill testa med, välj sedan OK. Du kan lägga till flera metoder.

    1. Vissa metoder kräver en godkänt poäng. Godkänd poäng avgör vilket resultat som leder till godkänt eller underkänt. Sätt poängen, välj sedan OK.

    2. Vissa testmetoder kräver fler kriterier.

  3. Välj Spara för att spara dina ändringar i testuppsättningen.

Välj en befintlig testmetod för att redigera metodens kriterier eller ta bort den metoden.

Allmän kvalitet

Tillgänglig för testuppsättningar för enskilda svar och konversationer. Allmän kvalitet hjälper dig att avgöra om din agents svar uppfyller dina krav. Den använder en stor språkmodell (LLM) för att utvärdera hur effektivt en agent svarar på användarfrågor.

Allmän kvalitet är särskilt hjälpsam när det inte finns något exakt svar som förväntas. Det erbjuder ett flexibelt och skalbart sätt att utvärdera svar baserat på de hämtade dokumenten och samtalsflödet.

Den använder dessa nyckelkriterier och tillämpar en konsekvent prompt för att styra poängräkningen:

  • Relevans: I vilken utsträckning agentens svar hanterar frågan. Håller sig agentens svar till ämnet och svarar direkt på frågan?

  • Grundlighet: I vilken utsträckning agentens svar baseras på den angivna kontexten. Refererar agentens svar till exempel till eller förlitar sig på den information som ges i kontexten i stället för att införa orelaterad eller information som inte stöds?

  • Fullständighet: I vilken utsträckning innehåller agentens svar all nödvändig information. Tar agentens svar till exempel upp alla aspekter av frågan och ger tillräckligt med information?

  • Återhållsamhet: Huruvida agenten försökte besvara frågan.

För att anses vara av hög kvalitet måste ett svar uppfylla alla dessa nyckelkriterier. Om ett kriterium inte uppfylls flaggas svaret för förbättring. Den här bedömningsmetoden säkerställer att endast svar som är både fullständiga och har brett stöd får högsta betyg. Däremot får svar som är ofullständiga eller saknar stödbevis lägre poäng.

När du lägger till eller redigerar testmetoder, välj Allmän kvalitet. Alla testset börjar med denna metod som standard.

Du behöver inte lägga till förväntade svar i testfall för att genomföra en allmän kvalitetsutvärdering.

Anmärkning

Att minska antalet kunskapskällor för agenten är inte garanterat att förbättra den allmänna kvalitetsklassificeringen i agentutvärderingen. Den här begränsningen finns eftersom den hämtade kunskapen (kunskap som modellen anser är relevant för ett specifikt testfall) kan vara för stor.

Jämför betydelsen

Tillgänglig för testuppsättningar med enkla svar. Jämför innebörden utvärderar hur väl agentens svar återspeglar den avsedda innebörden av det förväntade svaret. Istället för att fokusera på exakta formuleringar använder den avsiktslikhet, vilket betyder att den jämför idéerna och betydelsen bakom orden för att bedöma hur väl svaret stämmer överens med vad du förväntade dig.

Precis som allmän kvalitet är jämförande betydelse särskilt hjälpsamt när det inte finns något exakt svar som förväntas. Det erbjuder ett flexibelt och skalbart sätt att utvärdera svar baserat på de hämtade dokumenten och samtalsflödet.

Du kan ange ett tröskelvärde för godkännandepoäng för att avgöra vad som utgör en godkännandepoäng för ett svar. Den förvalda godkända poängen är 50. Testmetoden Jämför innebörden är användbar när ett svar kan formuleras på olika sätt, men den övergripande innebörden eller avsikten måste fortfarande gå igenom.

  1. När du lägger till eller redigerar testmetoder, välj Jämför betydelse.

  2. Ange godkänt poängtal för denna metod.

  3. Lägg till de förväntade svaren. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.

    1. Välj ett testfall.

    2. Lägg till det svar du förväntar dig.

    3. Välj Tillämpa för att spara det förväntade svaret.

    4. Upprepa för alla testfall du vill testa med denna metod.

Verktygsanvändning

Tillgänglig för testuppsättningar med enkla svar. Användning av funktioner testar om agenten använde specifika verktyg eller ämnen för att generera ett svar. Om det gör det, godkänns det. Om det inte gör det misslyckas det.

  1. När du lägger till eller redigerar testmetoder väljer du Verktygsanvändning.

  2. Lägg till de förväntade verktygen eller ämnena. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.

    1. Välj ett testfall. Om du vill lägga till samma förväntade verktyg och ämnen för alla testfall väljer du ikonen Redigera i kolumnrubriken Verktygsanvändning.

    2. I fönstret Redigera testfall väljer du de verktyg som du förväntar dig att din agent ska använda för det testfallet.

    3. Välj OK.

    4. Välj Använd för att spara ändringar.

    5. Upprepa för alla testfall som du vill testa för verktygsanvändning.

Nyckelordsmatchning

Tillgänglig för testuppsättningar för enskilda svar och konversationer. Nyckelordsmatchning kontrollerar om agentens svar innehåller några eller alla ord eller fraser från det förväntade svaret som du definierar. Om det gör det, godkänns det. Om det inte gör det misslyckas det.

Du kan välja om ett pass kräver något av nyckelorden eller alla . Att välja Any betyder att om minst ett ord eller en fras stämmer, så klarar testfallet. Att välja Alla innebär att alla förväntade ord eller fraser måste matcha för att ett testfall ska klara det.

  1. När du lägger till eller redigerar testmetoder, välj Nyckelordsmatchning.

  2. Välj om ett testfall behöver något av eller alla nyckelord för att matcha.

  3. Lägg till de förväntade nyckelorden. Alla testfall utan förväntade nyckelord ger ett ogiltigt resultat för den här testmetoden.

    1. Välj ett testfall.

    2. I fönstret Redigera testfall lägger du till ett nyckelord eller en fras som du förväntar dig att ärendets svar ska ha.

    3. Välj + Lägg till för att lägga till fler nyckelord eller fraser. Om du vill ta bort ett nyckelord eller en fras väljer du ikonen Ta bort .

    4. Välj Tillämpa för att spara de förväntade nyckelorden.

    5. Upprepa för alla testfall du vill testa för nyckelordsmatchning.

Textlikhet

Tillgänglig för testuppsättningar med enkla svar. Metoden för textlikhetstest jämför likheten mellan agentens svar och de förväntade svar som du definierar i testuppsättningen. Det är användbart när ett svar kan formuleras på olika sätt, men den övergripande innebörden eller avsikten måste fortfarande gå igenom.

Den använder ett cosinuslikhetsmått för att bedöma hur likt agentens svar är formuleringen och innebörden av det förväntade svaret och avgör ett betyg. Poängen varierar mellan 0 och 1, där 1 anger att svaret matchar nära och 0 anger att det inte gör det. Du kan ange ett tröskelvärde för godkännandepoäng för att avgöra vad som utgör en godkännandepoäng för ett svar.

  1. När du lägger till eller redigerar testmetoder, välj Textlikhet.

  2. Ange godkänt poängtal för denna metod.

  3. Lägg till de förväntade svaren. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.

    1. Välj ett testfall.

    2. Lägg till det svar du förväntar dig.

    3. Välj Tillämpa för att spara det förväntade svaret.

    4. Upprepa för alla testfall du vill testa med denna metod.

Exakt matchning

Tillgänglig för testuppsättningar med enkla svar. Exakt matchning kontrollerar om agentens svar exakt matchar det förväntade svaret i testet: tecken för tecken, ord för ord. Om det är samma sak, godkänns det. Om något skiljer sig åt godkänns det inte. Exakt matchning är användbart för korta, exakta svar som siffror, koder eller fasta fraser. Det passar inte svar som människor kan formulera på flera korrekta sätt.

  1. När du lägger till eller redigerar testmetoder, välj Exakt matchning.

  2. Lägg till de förväntade svaren. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.

    1. Välj ett testfall.

    2. Lägg till det svar du förväntar dig.

    3. Välj Tillämpa för att spara det förväntade svaret.

    4. Upprepa för alla testfall du vill testa med denna metod.

Skräddarsydd

Anpassad är en anpassningsbar testmetod. Med den kan du testa och märka agentsvar med hjälp av dina egna kriterier. Du kan till exempel skapa ett efterlevnadstest för en HR-agent för att märka testsvar som antingen kompatibla eller inkompatibla med din beskrivning av HR-efterlevnad.

Ett anpassat test har två komponenter som du kan konfigurera:

Utvärderingsinstruktioner: Beskriver det mål som du vill uppnå med det här testet. Vad vill du att testet ska ta reda på om agentens svar?

Bra utvärderingsinstruktioner bör:

  • Var målorienterad.

  • Använd endast de tillåtna tecknen.

  • Använd punktlistor och rubriker för att organisera.

Till exempel:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etiketter: Beskriver resultatet som tilldelats varje svar med hjälp av det anpassade testet. Etiketter har också tilldelningar för godkännande/misslyckade, som räknas av mot testuppsättningens godkännandefrekvens för den här testmetoden.

Etiketter har ett namn och en beskrivning. En bra beskrivning:

  • Är kortfattad.

  • Innehåller de attribut som du letar efter i matchande svar.

En strategi för etiketter är att ha två: en är svar som uppfyller de kriterier som du letar efter och den andra för svar som inte gör det. Ett anpassat test för HR-principefterlevnad kan till exempel ha kompatibla och inkompatibla som etiketter.

  1. När du lägger till eller redigerar testmetoder väljer du Anpassad.

  2. Ange ett namn för det här anpassade testet.

  3. Lägg till utvärderingsinstruktioner.

  4. Lägg till två eller flera etiketter. Varje etikett har ett namn och en beskrivning.

    Om du vill lägga till fler etiketter väljer du Lägg till etikett.

    Etikettrubriker kan bara använda bokstäver, siffror, mellanslag, bindestreck -, understreck _, snedstreck /, ampersand &, plustecken + och punkt ..

  5. Ange resultatet Pass eller Fail för varje etikett.

  6. Välj OK.