Hvordan evaluere din generative AI-applikasjon ved hjelp av Azure AI Foundry. Enten du vurderer enkle eller komplekse samtaler, gir Azure AI Foundry verktøy for å evaluere modellens ytelse og sikkerhet.
For mer detaljerte instruksjoner, se Azure AI Foundry-dokumentasjonen.
Her er trinnene for å komme i gang:
Forutsetninger
- Et testdatasett i enten CSV- eller JSON-format.
- En distribuert generativ AI-modell (som Phi-3, GPT 3.5, GPT 4 eller Davinci-modeller).
- Et runtime-miljø med en beregningsinstans for å kjøre evalueringen.
Azure AI Foundry lar deg evaluere både enkle og komplekse samtaler med flere omganger.
For Retrieval Augmented Generation (RAG)-scenarioer, hvor modellen er basert på spesifikke data, kan du vurdere ytelsen ved hjelp av innebygde evalueringsmetrikker.
I tillegg kan du evaluere generelle enkle spørsmål-og-svar-scenarioer (ikke-RAG).
Fra Azure AI Foundry-grensesnittet, naviger til enten Evaluering-siden eller Prompt Flow-siden.
Følg veiviseren for å sette opp en evalueringskjøring. Gi et valgfritt navn til evalueringen din.
Velg scenariet som samsvarer med målene for applikasjonen din.
Velg én eller flere evalueringsmetrikker for å vurdere modellens utdata.
For større fleksibilitet kan du opprette en tilpasset evalueringsflyt. Tilpass evalueringsprosessen basert på dine spesifikke behov.
Etter at evalueringen er kjørt, kan du logge, vise og analysere detaljerte evalueringsmetrikker i Azure AI Foundry. Få innsikt i applikasjonens styrker og svakheter.
Merk Azure AI Foundry er for øyeblikket i offentlig forhåndsvisning, så bruk det til eksperimentering og utvikling. For produksjonsarbeidsmengder bør du vurdere andre alternativer. Utforsk den offisielle AI Foundry-dokumentasjonen for mer informasjon og trinnvise instruksjoner.
Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av maskinbaserte AI-oversettelsestjenester. Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiserte oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør betraktes som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.