Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Kies bij het maken van testsets uit verschillende testmethoden om de antwoorden van je agent te evalueren. Elke testmethode heeft zijn eigen sterke punten en past bij verschillende soorten evaluaties.
| Testmethode | Maatregelen | Testsettype | Scoren | Configurations |
|---|---|---|---|---|
| Algemene kwaliteit | Hoe goed is de reactie(s) van een testcase op basis van specifieke kwaliteiten | Eén antwoord of gesprek | Gescoord van 100% | Geen |
| Betekenis vergelijken | Hoe goed de betekenis van het testgeval overeenkomt met het verwachte antwoord | Eén antwoord | Gescoord van 100% | Slagingsscore, verwacht antwoord |
| Capaciteitsgebruik | Of de testcase alle of enkele van de verwachte resources heeft gebruikt | Eén antwoord | Geslaagd/onvoldoende | Verwachte capaciteiten |
| Trefwoordmatch | Of de testcase alle of een van de verwachte zoekwoorden of zinnen gebruikte | Eén antwoord of gesprek | Geslaagd/onvoldoende | Verwachte trefwoorden of zinnen |
| Gelijkenis van tekst | Hoe goed de tekst van het antwoord van het testgeval overeenkomt met het verwachte antwoord | Eén antwoord | Gescoord van 100% | Slagingsscore, verwacht antwoord |
| Exacte overeenkomst | Of het antwoord van het testgeval exact overeenkomt met het verwachte antwoord | Eén antwoord | Geslaagd/onvoldoende | Verwacht antwoord |
Een testmethode toevoegen
Selecteer bij het aanmaken of bewerken van een testset de Testmethode toevoegen.
Selecteer alle methoden waarmee je wilt testen en selecteer dan OK. Je kunt meerdere methoden toevoegen.
Sommige methoden vereisen een slagingsscore. De slagingsscore bepaalt welke score resulteert in een voldoende of een onvoldoende. Stel de score in en kies dan OK.
Voor sommige testmethoden zijn meer criteria vereist.
Selecteer Save om je wijzigingen in de testset op te slaan.
Selecteer een bestaande testmethode om de criteria van die methode te bewerken of verwijder die methode.
Algemene kwaliteit
Beschikbaar voor testsets met een enkele reactie en gesprek. Algemene kwaliteit helpt u beslissen of de antwoorden van uw makelaar aan uw normen voldoen. Er wordt gebruikgemaakt van een LLM (Large Language Model) om te beoordelen hoe effectief een agent vragen van gebruikers beantwoordt.
Algemene kwaliteit is vooral nuttig als er geen exact antwoord wordt verwacht. Het biedt een flexibele en schaalbare manier om antwoorden te evalueren op basis van de opgehaalde documenten en de gespreksflow.
Het maakt gebruik van deze belangrijke criteria en past een consistente aanwijzing toe om de beoordeling te begeleiden.
Relevantie: In hoeverre de respons van de agent de vraag beantwoordt. Blijft het antwoord van de agent bijvoorbeeld bij het onderwerp en beantwoordt het de vraag rechtstreeks?
Onderbouwdheid: in hoeverre de respons van de agent is gebaseerd op de opgegeven context. Is de responsverwijzing van de agent bijvoorbeeld afhankelijk van de informatie die in de context wordt gegeven, in plaats van niet-gerelateerde of niet-ondersteunde informatie in te voeren?
Volledigheid: In hoeverre de respons van de agent alle benodigde informatie bevat. Heeft de respons van de agent bijvoorbeeld betrekking op alle aspecten van de vraag en geeft het u voldoende details?
Onthouding: Of de agent de vraag probeerde te beantwoorden.
Om van hoge kwaliteit te worden beschouwd, moet een antwoord aan al deze belangrijke criteria voldoen. Als aan één criterium niet wordt voldaan, wordt de reactie gemarkeerd voor verbetering. Deze scoremethode zorgt ervoor dat alleen responsen die volledig en goed worden ondersteund, topmarkeringen ontvangen. Antwoorden die onvolledig zijn of geen ondersteunend bewijs hebben, krijgen daarentegen lagere scores.
Bij het toevoegen of bewerken van testmethoden, selecteer Algemene kwaliteit. Alle testsets beginnen standaard met deze methode.
Je hoeft geen verwachte antwoorden toe te voegen aan testgevallen om een algemene kwaliteitsbeoordeling te voltooien.
Betekenis vergelijken
Beschikbaar voor testsets met één antwoord. Vergelijk betekenis evalueert hoe goed de respons van de agent de beoogde betekenis van het verwachte respons weerspiegelt. In plaats van zich te richten op exacte formuleringen, gebruikt het intentie-overeenkomst, wat betekent dat het de ideeën en betekenis achter de woorden vergelijkt om te beoordelen hoe goed het antwoord overeenkomt met wat je verwachtte.
Net als algemene kwaliteit is het vergelijken van betekenissen vooral nuttig wanneer er geen exact antwoord wordt verwacht. Het biedt een flexibele en schaalbare manier om antwoorden te evalueren op basis van de opgehaalde documenten en de gespreksflow.
U kunt een drempelwaarde voor een geslaagde score instellen om te bepalen wat een geslaagde score voor een respons is. De standaard slagingsscore is 50. De testmethode voor het vergelijken van de betekenis is handig wanneer een respons op verschillende manieren kan worden geformuleerd, maar de algehele betekenis of intentie moet nog steeds kloppen.
Bij het toevoegen of bewerken van testmethoden, selecteer dan Betekenis vergelijken.
Stel de slagingsscore voor deze methode in.
Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
Kies een testcase.
Voeg het antwoord toe dat je verwacht.
Selecteer Toepassen om het verwachte antwoord op te slaan.
Herhaal dit voor alle testgevallen die je wilt testen met deze methode.
Gebruik van hulpprogramma's
Beschikbaar voor testsets met één antwoord. Vaardigheidstests gebruiken als de agent specifieke tools of onderwerpen heeft gebruikt om een antwoord te genereren. Als dat het geval is, is deze geslaagd. Als het dat niet doet, faalt het.
Wanneer u testmethoden toevoegt of bewerkt, selecteert u Toolgebruik.
Voeg de verwachte hulpmiddelen of onderwerpen toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
Kies een testcase. Als u dezelfde verwachte hulpprogramma's en onderwerpen wilt toevoegen voor alle testcases, selecteert u het pictogram
Bewerken in de kolomkop Tool.Selecteer in het deelvenster Testcase bewerken de hulpprogramma's die uw agent voor die testcase moet gebruiken.
Kies OK.
Selecteer Toepassen om wijzigingen op te slaan.
Herhaal dit voor alle testcases die u wilt testen voor gebruik van hulpprogramma's.
Trefwoordmatch
Beschikbaar voor testsets met enkelvoudige respons en gesprekstestsets. Keyword match controleert of het antwoord van de agent enkele of alle woorden of zinnen bevat uit het verwachte antwoord dat je definieert. Als dat het geval is, wordt het doorgegeven. Als het dat niet doet, faalt het.
Je kunt selecteren of een pass een van de trefwoorden vereist of allemaal . Het kiezen van Any betekent dat als ten minste één woord of uitdrukking overeenkomt, het testgeval slaagt. Kiezen voor Alle, betekent dat alle verwachte woorden of zinnen overeenstemmen moeten om een testgeval te laten slagen.
Selecteer bij het toevoegen of bewerken van testmethodenTrefwoordmatch.
Selecteer of een testgeval Any of All trefwoorden nodig heeft om te matchen.
Voeg de verwachte trefwoorden toe. Elke testcase zonder verwachte trefwoorden produceert een ongeldig resultaat voor deze testmethode.
Kies een testcase.
Voeg in het deelvenster Testcase bewerken een trefwoord of woordgroep toe die u verwacht in het antwoord op die testcase zal voorkomen.
Selecteer + Toevoegen om meer trefwoorden of woordgroepen toe te voegen. Als u een trefwoord of woordgroep wilt verwijderen, selecteert u het pictogram Verwijderen
.Selecteer Toepassen om de verwachte zoekwoorden op te slaan.
Herhaal dit voor alle testgevallen die je wilt testen op trefwoordmatching.
Gelijkenis van tekst
Beschikbaar voor testsets met één antwoord. De textgelijkenis-testmethode vergelijkt de gelijkenis van de reacties van de agent met de verwachte reacties die u in uw testset definieert. Het is handig wanneer een respons op verschillende manieren kan worden geformuleerd, maar de algehele betekenis of intentie moet nog steeds kloppen.
Er wordt een cosinus-similariteitsmetrie gebruikt om te beoordelen hoe vergelijkbaar het antwoord van de agent is met de formulering en betekenis van het verwachte antwoord en een score te bepalen. De scorebereiken tussen 0 en 1, waarbij 1 aangeeft dat de respons nauwkeurig overeenkomt en 0 geeft aan dat dit niet zo is. U kunt een drempelwaarde voor een geslaagde score instellen om te bepalen wat een geslaagde score voor een respons is.
Bij het toevoegen of bewerken van testmethoden, selecteer Tekstgelijkenis.
Stel de slagingsscore voor deze methode in.
Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
Kies een testcase.
Voeg het antwoord toe dat je verwacht.
Selecteer Toepassen om het verwachte antwoord op te slaan.
Herhaal dit voor alle testgevallen die je wilt testen met deze methode.
Exacte overeenkomst
Beschikbaar voor testsets met één antwoord. Exacte overeenkomst controleert of het antwoord van de agent exact overeenkomt met het verwachte antwoord in de test: teken voor teken, woord voor woord. Als het hetzelfde is, wordt het goedgekeurd. Als er iets anders is, mislukt het. Exacte overeenkomst is handig voor korte, nauwkeurige responsen, zoals getallen, codes of vaste woordgroepen. Het is niet geschikt voor responsen die mensen op meerdere juiste manieren kunnen formuleren.
Bij het toevoegen of bewerken van testmethoden, selecteer Exacte overeenkomst.
Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
Kies een testcase.
Voeg het antwoord toe dat je verwacht.
Selecteer Toepassen om het verwachte antwoord op te slaan.
Herhaal dit voor alle testgevallen die je wilt testen met deze methode.
Aangepast
Aangepast is een aanpasbare testmethode. Hiermee kunt u antwoorden van agents testen en labelen met behulp van uw eigen criteria. U kunt bijvoorbeeld een nalevingstest voor een HR-agent maken om antwoorden te labelen als compatibel of niet-compatibel met uw beschrijving van HR-naleving.
Een aangepaste test heeft twee onderdelen die u kunt configureren:
Evaluatie-instructies: Beschrijft het doel dat u met deze test wilt bereiken. Wat wilt u dat de test meer weet over de antwoorden van uw agent?
Goede evaluatie-instructies moeten:
Wees doelgericht.
Gebruik alleen de toegestane tekens.
Gebruik opsommingstekens en koppen voor een betere indeling.
Voorbeeld:
Evaluate the agent's response for HR policy compliance.
What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.
Labels: Beschrijft het resultaat dat aan elk antwoord is toegewezen met behulp van de aangepaste test. Labels hebben ook slagings-/mislukkingstoewijzingen, die meetellen voor het slagingspercentage van de testset voor deze testmethode.
Labels hebben een naam en een beschrijving. Een goede beschrijving:
Is beknopt.
Bevat de kenmerken die u zoekt in overeenkomende antwoorden.
Een strategie voor labels is om er twee te hebben: één voor antwoorden die voldoen aan de criteria die u zoekt, en een andere voor antwoorden die dat niet doen. Een aangepaste test voor naleving van HR-beleid kan bijvoorbeeld Voldoet en Niet-voldoet als labels hebben.
Wanneer u testmethoden toevoegt of bewerkt, selecteert u Aangepast.
Voer een naam in voor deze aangepaste test.
Voeg evaluatie-instructies toe.
Voeg twee of meer labels toe. Elk label heeft een naam en een beschrijving.
Als u meer labels wilt toevoegen, selecteert u Label toevoegen.
Labeltitels kunnen alleen letters, cijfers, spatie, afbreekstreepje
-, onderstrepingsteken_, slash/, ampersand&, plusteken+en punt.gebruiken.Stel het resultaat Geslaagd of Mislukt voor elk label in.
Kies OK.