Evaluatiemethoden kiezen

Kies bij het maken van testsets uit verschillende testmethoden om de antwoorden van je agent te evalueren. Elke testmethode heeft zijn eigen sterke punten en past bij verschillende soorten evaluaties.

Testmethode	Maateenheden	Testsettype	Scorebepaling	Configuraties
Algemene kwaliteit	Hoe goed is de reactie(s) van een testcase op basis van specifieke kwaliteiten	Eén antwoord of gesprek	Beoordeeld op een schaal van 100%	Geen
Betekenis vergelijken	Hoe goed de betekenis van het testgeval overeenkomt met het verwachte antwoord	Enkele respons	Beoordeeld op een schaal van 100%	Beoordelingsscore, verwachte antwoord
Gebruik van hulpprogramma's	Of de testcase alle of enkele van de verwachte resources heeft gebruikt	Enkele respons	Geslaagd/onvoldoende	Verwachte capaciteiten
Trefwoordmatch	Of de testcase alle of een van de verwachte zoekwoorden of zinnen gebruikte	Eén antwoord of gesprek	Geslaagd/onvoldoende	Verwachte trefwoorden of zinnen
Gelijkenis van tekst	Hoe goed de tekst van het antwoord van het testgeval overeenkomt met het verwachte antwoord	Enkele respons	Beoordeeld op een schaal van 100%	Beoordelingsscore, verwachte antwoord
Exacte overeenkomst	Of het antwoord van het testgeval exact overeenkomt met het verwachte antwoord	Enkele respons	Geslaagd/onvoldoende	Verwacht antwoord
Custom	Of het antwoord van de testcase voldoet aan uw gedefinieerde criteria of verwachtingen.	Eén antwoord of gesprek	Gesplaagd/mislukt (voldoet aan de gedefinieerde labelcriteria)	Naam, evaluatie-instructies, labels

Een testmethode toevoegen

Selecteer bij het aanmaken of bewerken van een testset de Testmethode toevoegen.
Selecteer alle methoden waarmee je wilt testen en selecteer dan OK. Je kunt meerdere methoden toevoegen.
1. Sommige methoden vereisen een slagscore. De slagscore bepaalt welke score resulteert in een geslaagd of een mislukking. Stel de score in en kies dan OK.
2. Voor sommige testmethoden zijn meer criteria vereist.
Selecteer Save om je wijzigingen in de testset op te slaan.

Selecteer een bestaande testmethode om de criteria van die methode te bewerken of verwijder die methode.

Algemene kwaliteit

Beschikbaar voor testsets met een enkele reactie en gesprek. Algemene kwaliteit helpt u beslissen of de antwoorden van uw makelaar aan uw normen voldoen. Er wordt gebruikgemaakt van een LLM (Large Language Model) om te beoordelen hoe effectief een agent vragen van gebruikers beantwoordt.

Algemene kwaliteit is vooral nuttig als er geen exact antwoord wordt verwacht. Het biedt een flexibele en schaalbare manier om antwoorden te evalueren op basis van de opgehaalde documenten en de gespreksflow.

Het maakt gebruik van deze belangrijke criteria en past een consistente aanwijzing toe om de beoordeling te begeleiden.

Relevantie: In hoeverre de respons van de agent de vraag beantwoordt. Blijft het antwoord van de agent bijvoorbeeld bij het onderwerp en beantwoordt het de vraag rechtstreeks?
Onderbouwdheid: in hoeverre de respons van de agent is gebaseerd op de opgegeven context. Is de responsverwijzing van de agent bijvoorbeeld afhankelijk van de informatie die in de context wordt gegeven, in plaats van niet-gerelateerde of niet-ondersteunde informatie in te voeren?
Volledigheid: In hoeverre de respons van de agent alle benodigde informatie bevat. Heeft de respons van de agent bijvoorbeeld betrekking op alle aspecten van de vraag en geeft het u voldoende details?
Onthouding: Of de agent de vraag probeerde te beantwoorden.

Om van hoge kwaliteit te worden beschouwd, moet een antwoord aan al deze belangrijke criteria voldoen. Als aan één criterium niet wordt voldaan, wordt de reactie gemarkeerd voor verbetering. Deze scoremethode zorgt ervoor dat alleen responsen die volledig en goed worden ondersteund, topmarkeringen ontvangen. Antwoorden die onvolledig zijn of geen ondersteunend bewijs hebben, krijgen daarentegen lagere scores.

Bij het toevoegen of bewerken van testmethoden, selecteer Algemene kwaliteit. Alle testsets beginnen standaard met deze methode.

Je hoeft geen verwachte antwoorden toe te voegen aan testgevallen om een algemene kwaliteitsbeoordeling te voltooien.

Note

Het verminderen van het aantal kennisbronnen voor de agent is niet gegarandeerd om de algemene kwaliteitsclassificatie bij de evaluatie van agents te verbeteren. Deze beperking bestaat omdat de opgehaalde kennis (kennis die volgens het model relevant is voor een specifieke testcase) mogelijk te groot is.

Betekenis vergelijken

Beschikbaar voor testsets met één antwoord. Vergelijk betekenis evalueert hoe goed de respons van de agent de beoogde betekenis van het verwachte respons weerspiegelt. In plaats van zich te richten op exacte formuleringen, gebruikt het intentie-overeenkomst, wat betekent dat het de ideeën en betekenis achter de woorden vergelijkt om te beoordelen hoe goed het antwoord overeenkomt met wat je verwachtte.

Net als algemene kwaliteit is het vergelijken van betekenissen vooral nuttig wanneer er geen exact antwoord wordt verwacht. Het biedt een flexibele en schaalbare manier om antwoorden te evalueren op basis van de opgehaalde documenten en de gespreksflow.

U kunt een drempelwaarde voor een geslaagde score instellen om te bepalen wat een geslaagde score voor een respons is. De standaard slagingsscore is 50. De testmethode voor het vergelijken van de betekenis is handig wanneer een respons op verschillende manieren kan worden geformuleerd, maar de algehele betekenis of intentie moet nog steeds kloppen.

Bij het toevoegen of bewerken van testmethoden, selecteer dan Betekenis vergelijken.
Stel de slagscore voor deze methode in.
Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
1. Kies een testcase.
2. Voeg het antwoord toe dat je verwacht.
3. Selecteer Toepassen om het verwachte antwoord op te slaan.
4. Herhaal dit voor alle testgevallen die je wilt testen met deze methode.

Gebruik van hulpprogramma's

Beschikbaar voor testsets met één antwoord. Toolgebruik test of de agent specifieke tools of onderwerpen heeft gebruikt bij het genereren van een antwoord. Als dat zo is, gaat het door. Als het dat niet doet, faalt het.

Wanneer u testmethoden toevoegt of bewerkt, selecteert u Toolgebruik.
Voeg de verwachte hulpmiddelen of onderwerpen toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
1. Kies een testcase. Als u dezelfde verwachte hulpprogramma's en onderwerpen voor alle testcases wilt toevoegen, selecteert u het pictogram Bewerken in de kolomkop Extra.
2. Selecteer in het deelvenster Hulpprogramma's selecteren de onderwerpen of hulpprogramma's die uw agent naar verwachting voor die testcase gebruikt.
3. Kies OK.
4. Selecteer Opslaan om wijzigingen op te slaan.
5. Herhaal dit voor alle testcases die u wilt testen voor gebruik van hulpprogramma's.

Trefwoordmatch

Beschikbaar voor testsets met een enkele reactie en gesprek. Keyword match controleert of het antwoord van de agent enkele of alle woorden of zinnen bevat uit het verwachte antwoord dat je definieert. Als dat het geval is, wordt het doorgegeven. Als het dat niet doet, faalt het.

Je kunt selecteren of een pass een van de trefwoorden vereist of allemaal . Het kiezen van Any betekent dat als ten minste één woord of uitdrukking overeenkomt, het testgeval slaagt. Kiezen voor Alle, betekent dat alle verwachte woorden of zinnen overeenstemmen moeten om een testgeval te laten slagen.

Selecteer bij het toevoegen of bewerken van testmethodenTrefwoordmatch.
Selecteer of een testgeval Any of All trefwoorden nodig heeft om te matchen.
Voeg de verwachte trefwoorden toe. Elke testcase zonder verwachte trefwoorden produceert een ongeldig resultaat voor deze testmethode.
1. Kies een testcase.
2. Voeg in het deelvenster Testcase bewerken een trefwoord of woordgroep toe die u verwacht in het antwoord op die testcase zal voorkomen.
3. Selecteer + Toevoegen om meer trefwoorden of woordgroepen toe te voegen. Als u een trefwoord of woordgroep wilt verwijderen, selecteert u het pictogram Verwijderen .
4. Selecteer Toepassen om de verwachte zoekwoorden op te slaan.
5. Herhaal dit voor alle testgevallen die je wilt testen op trefwoordmatching.

Gelijkenis van tekst

De testmethode voor tekstgelijkenis vergelijkt de gelijkenis van de antwoorden van de agent met de verwachte antwoorden die u in uw testset definieert. Gebruik deze testmethode wanneer een juist antwoord exact moet overeenkomen met het verwachte antwoord, of bijna precies, in zowel de formulering als de zinsstructuur. Nauwkeurige formulering is bijvoorbeeld vaak nodig wanneer een juridisch document wordt gegenereerd. Deze test wordt doorgaans gebruikt naast de testmethode Compare betekenis , die de gelijkenis van betekenis garandeert, maar niet zorgt voor gelijkenis van de formulering. Het is ook anders dan de trefwoordovereenkomsttestmethode , die zorgt voor de aanwezigheid van bepaalde termen, maar niet voor overeenkomsten van constructie. Als het hele antwoord exact overeenkomt met het hele verwachte antwoord, gebruikt u in plaats daarvan de testmethode Exacte overeenkomst .

Een cosinus-overeenkomstwaarde bepaalt hoe vergelijkbaar het antwoord van de agent is met de formulering van het verwachte antwoord en bepaalt een score. De score varieert van 0 tot 1, waarbij 1 betekent dat het antwoord nauw overeenkomt en 0 betekent dat dat niet. U kunt een drempelwaarde voor een geslaagde score instellen om te bepalen wat een geslaagde score voor een respons is.

Bij het toevoegen of bewerken van testmethoden, selecteer Tekstgelijkenis.
Stel de slagscore voor deze methode in.
Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
1. Kies een testcase.
2. Voeg het antwoord toe dat je verwacht.
3. Selecteer Toepassen om het verwachte antwoord op te slaan.
4. Herhaal dit voor alle testgevallen die je wilt testen met deze methode.

Exacte overeenkomst

Beschikbaar voor testsets met één antwoord. Exacte overeenkomst controleert of het antwoord van de agent exact overeenkomt met het verwachte antwoord in de test: teken voor teken, woord voor woord. Als het hetzelfde is, wordt het goedgekeurd. Als er iets anders is, mislukt het. Exacte overeenkomst is handig voor korte, nauwkeurige responsen, zoals getallen, codes of vaste woordgroepen. Het is niet geschikt voor responsen die mensen op meerdere juiste manieren kunnen formuleren.

Bij het toevoegen of bewerken van testmethoden, selecteer Exacte overeenkomst.
Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.
1. Kies een testcase.
2. Voeg het antwoord toe dat je verwacht.
3. Selecteer Toepassen om het verwachte antwoord op te slaan.
4. Herhaal dit voor alle testgevallen die je wilt testen met deze methode.

Custom

Aangepast is een aanpasbare testmethode. Hiermee kunt u antwoorden van agents testen en labelen met behulp van uw eigen criteria. U kunt bijvoorbeeld een nalevingstest voor een HR-agent maken om antwoorden te labelen als compatibel of niet-compatibel met uw beschrijving van HR-naleving.

Een aangepaste test heeft twee onderdelen die u kunt configureren:

Evaluatie-instructies: Beschrijft het doel dat u met deze test wilt bereiken. Wat wilt u dat de test meer weet over de antwoorden van uw agent?

Goede evaluatie-instructies moeten:

Wees doelgericht.
Gebruik alleen de toegestane tekens.
Gebruik opsommingstekens en koppen voor een betere indeling.

Voorbeeld:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Labels: Beschrijft het resultaat dat aan elk antwoord is toegewezen met behulp van de aangepaste test. Labels hebben ook slagings-/mislukkings-toewijzingen, die meetellen voor het slagingspercentage van de testset voor deze testmethode.

Labels hebben een naam en een beschrijving. Een goede beschrijving:

Is beknopt.
Bevat de kenmerken die u zoekt in overeenkomende antwoorden.

Een strategie voor labels is om er twee te hebben: één voor antwoorden die voldoen aan de criteria die u zoekt, en een andere voor antwoorden die dat niet doen. Een aangepaste test voor naleving van HR-beleid kan bijvoorbeeld Voldoet en Niet-voldoet als labels hebben.

Wanneer u testmethoden toevoegt of bewerkt, selecteert u Aangepast.
Voer een naam in voor deze aangepaste test.
Voeg evaluatie-instructies toe.
Voeg twee of meer labels toe. Elk label heeft een naam en een beschrijving.

Als u meer labels wilt toevoegen, selecteert u Label toevoegen.

Labeltitels kunnen alleen letters, cijfers, spatie, afbreekstreepje -, onderstrepingsteken _, slash /, ampersand &, plusteken + en punt . gebruiken.
Stel het resultaat Geslaagd of Mislukt voor elk label in.
Kies OK.

Feedback

Is deze pagina nuttig?

Last updated on 2026-05-19