Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
19 changes: 10 additions & 9 deletions docs/levenscyclus/dataverkenning-en-datapreparatie.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,21 +4,22 @@ hide:
- toc
---
# Fase 3: Dataverkenning en datapreparatie
In deze fase worden relevante datasets geïdentificeerd en wanneer nodig wordt nieuwe data verzameld.
In deze fase zal ook de ontwikkelomgeving (verder) worden ingericht indien nodig.
Het is van belang dat voorafgaand aan verzameling is vastgesteld dat de benodigde data mag worden verwerkt en dat de juiste maatregelen worden getroffen, zodra de data kan worden verwerkt.
Denk hierbij aan het anonimiseren, pseudonimiseren of aggregeren van persoonsgegevens.
De data zullen vervolgens worden opgeschoond, geanalyseerd en voorbereid voor verdere verwerking.
In deze fase worden relevante datasets geïdentificeerd en wanneer nodig wordt nieuwe data verzameld.
In deze fase zal ook de ontwikkelomgeving (verder) worden ingericht indien nodig.
Het is van belang dat voorafgaand aan verzameling is vastgesteld dat de benodigde data mag worden verwerkt en dat de juiste maatregelen worden getroffen, zodra de data kan worden verwerkt.
Denk hierbij aan het anonimiseren, pseudonimiseren of aggregeren van persoonsgegevens.
De data zullen vervolgens worden opgeschoond, geanalyseerd en voorbereid voor verdere verwerking.

Het is van belang dat dataverzameling op de juiste manier gebeurt, en dat datasets die gebruikt gaan worden van goede kwaliteit zijn.
In deze fase is het van belang om de datakwaliteit en eventuele bias in de dataset te onderzoeken.
Indien er risico's optreden door bijvoorbeeld missende data of niet representatieve data, is het belangrijk om te kijken wat voor effecten dit heeft op het oorspronkelijke ontwerp van het algoritme.
Dit kan betekenen dat nieuwe keuzes moeten worden gemaakt in het ontwerp en eventueel eerste deze fase van ontwerp (deels) opnieuw moet worden doorlopen.
Het is van belang dat dataverzameling op de juiste manier gebeurt, en dat datasets die gebruikt gaan worden van goede kwaliteit zijn.
In deze fase is het van belang om de datakwaliteit en eventuele bias in de dataset te onderzoeken.
Indien er risico's optreden door bijvoorbeeld missende data of niet representatieve data, is het belangrijk om te kijken wat voor effecten dit heeft op het oorspronkelijke ontwerp van het algoritme.
Dit kan betekenen dat nieuwe keuzes moeten worden gemaakt in het ontwerp en eventueel eerste deze fase van ontwerp (deels) opnieuw moet worden doorlopen.

Met voorgaande handelingen wordt het fundament gelegd om het algoritme te kunnen ontwikkelen.
In de praktijk zal bijvoorbeeld het analyseren van de data niet stoppen na deze fase, maar terugkerend zijn in alle fasen die volgen.
Als de verzamelde data van voldoende kwaliteit is en de vereiste maatregelen zijn getroffen, dan kan worden gestart met het ontwikkelen van het algoritme.

Zorg dat je tijdens de ontwikkeling van het algoritme ook een testdataset mee ontwikkelt. Het doel van deze testdataset is het valideren van de aannamens die je had tijdens de ontwikkeling van het algoritme. Door ook de testdataset met de broncode van het algoritme mee te publiceren wordt het inzichtelijker wat het algoritme beoogd te doen.

## Vereisten { data-search-exclude }

Expand Down
Loading