It is the data stupid! + Privacy and AI regulation

imageOp basis van onjuiste, onvolledige en gedateerde data kan je geen betrouwbare conclusies trekken of suggesties doen. Deze waarheid als een koe lijkt volledig te worden genegeerd tijdens de hyperdehype van LLM AI’s. Maar of het nou LLM AI’s of non-LLM AI’s zijn, data is allesbepalend. En bij recruitment (LLM) AI’s geldt dat dubbelop. Er is namelijk heel veel (kandidaatprofiel en vacature) data van onberispelijke kwaliteit nodig om een AI-model te kunnen trainen, en de (kandidaatprofiel en vacature) data die je vervolgens invoert om te kunnen zoeken of matchen moet ook van topkwaliteit zijn. En dan is er met een recruitment (LLM) AI’s nog een cruciaal aspect, namelijk privacy. Privacy is in dit geval dubbel uitgevoerd, want privacy geldt voor de trainingsdata en voor de door gebruikers (intercedenten, jobcoaches, recruiters, werkzoekenden, etc.) ingevoerde data, waar het althans van personen afkomstige data betreft. En bij (LLM) AI’s binnen het recruitment domein is er ook nog eens de strikte variant van de AI Act die binnenkort van toepassing gaat zijn.

Voor AI-leveranciers binnen het recruitment domein geldt op basis van bovenstaande alinea dus een groot aantal voorwaarden waaraan (controleerbaar) moet worden voldaan. Maar bestaat er ergens een register van AI-leveranciers en hun compliance aan deze voorwaarden, zodat je als afnemer een verantwoorde keuze kan maken? En ben je als afnemer van een recruitment AI-model niet mede-verantwoordelijk als door jouw gebruik er onjuiste of ongepaste resultaten worden gebruikt die mogelijk nadelig kunnen uitpakken voor (bepaalde groepen) werkzoekenden?

Op basis van deze bespiegelingen heb ik me gewend tot mijn speelkameraad ChatGPT. Inderdaad, een LLM AI. En ik heb de volgende vragen aan ChatGPT gesteld:

  1. Wat zijn de dimensies van datakwaliteit voor cv’s?
  2. Hoe belangrijk is datakwaliteit van cv’s voor de kwaliteit van een AI-model voor recruitment?
  3. Wat zijn de eisen waaraan een AI systeem moet voldoen om de privacy te garanderen als het wordt getraind met cv’s?
  4. Wat zijn de eisen volgens de concept AI Act van de EU waaraan een AI-model moet voldoen om de privacy te garanderen als het wordt getraind met persoonsgegevens ten behoeve van recruitment doeleinden?

Twee van de vragen gaan dus over de kwaliteit van personen afkomstige (trainings)data en de andere twee over achtereenvolgens de privacy en de AI Act (van zowel trainingsdata als door werkzoekers ingevoerde data).

Ik heb bij de ChatGPT antwoorden waar ik dat relevant vond een aanvulling gegeven. Deze is in een kleiner lettertype en in italics weergegeven, voorafgegaan door mijn initialen (MD).


1. Wat zijn de dimensies van datakwaliteit voor cv’s?

  1. Nauwkeurigheid: De data in cv’s moet correct en waarheidsgetrouw zijn. Onjuiste informatie kan leiden tot onjuiste beslissingen door het AI-systeem. 
  2. Volledigheid: Alle relevante informatie moet aanwezig zijn in het cv. Ontbrekende gegevens, zoals werkervaring of vaardigheden, kunnen de kwaliteit van de AI-matching beïnvloeden.
  3. Consistentie: Informatie in het cv moet consistent zijn over verschillende onderdelen heen. Inconsistenties, zoals verschillende data voor dezelfde werkervaring, kunnen verwarring veroorzaken voor het AI-systeem.
  4. Actualiteit: Cv’s moeten up-to-date zijn. Verouderde informatie kan leiden tot onnauwkeurige evaluaties van kandidaten.
  5. Gestructureerdheid: De wijze waarop informatie wordt gepresenteerd in cv’s moet gestructureerd zijn zodat AI-systemen deze gemakkelijk kunnen interpreteren en verwerken. MD: Ik voeg daar voor het gemak maar even de factor standaardisatie aan toe. Ter illustratie: functienamen, opleidingen, vaardigheden (+ mate van beheersing), adresgegevens, titels, geslacht zijn allemaal kenmerken die een koppeling aan een taxonomie/onotologie noodzaken om bruikbaar te zijn tijdens zoeken of matchen. Adresgegevens en geslacht zijn in dit verband ook nog aan privacy regels en bias risico’s (zie hierna) onderhevig en kunnen niet gebruikt worden tijdens zoeken/matchen.
  6. Betrouwbaarheid: De bron van de gegevens moet betrouwbaar zijn. Bijvoorbeeld, informatie geverifieerd door vorige werkgevers kan als betrouwbaarder worden beschouwd. MD: In dit verband is het artikel The truth About Lying yo Get a Job onthutsend, volgens het achterliggende onderzoek geven 7 van de 10 Amerikaanse werkzoekenden toe op hun cv te liegen.
  7. Uniciteit: De informatie in het cv moet uniek zijn voor de kandidaat en niet dubbel voorkomen binnen de dataset. MD: als brondata is geanonimiseerd en gepseudonimiseerd dan kan het onmogelijk zijn om uniciteit in een dataset vast te stellen. 
  8. Diversiteit: De cv’s moeten een breed scala aan industrieën, functies, ervaringsniveaus en opleidingsachtergronden vertegenwoordigen, zodat het model kan generaliseren over de arbeidsmarkt. MD: dit is een kwalificatie die gekwantificeerd moet worden om vast te stellen dat de data voldoende divers is. Zoals met bias zal dit bijzonder moeilijk (of vrijwel onmogelijk) zijn om dit vooraf vast te stellen tenzij er op voorhand duidelijk onbalans kan worden vastgesteld in de spreiding van data over de aanwezige kenmerken.
  9. Volume: Een grote verzameling cv’s is nodig om het model voldoende voorbeelden te geven om de verscheidenheid aan formaten en terminologieën die in verschillende cv’s worden gebruikt, te leren kennen.
  10. Vaardigheden en Competenties: De cv’s moeten een scala aan vaardigheden en competenties bevatten om het model te helpen het brede spectrum van terminologie die wordt gebruikt om professionele kwalificaties te beschrijven, te leren. MD: Zie hiervoor ook (of met name) mijn opmerking onder punt 5. 
  11. Functieomschrijvingen en Verantwoordelijkheden: Duidelijke beschrijvingen van functieverantwoordelijkheden en prestaties kunnen context bieden die helpt bij het begrijpen van de professionele ervaringen die in cv’s worden geschetst.
  12. Geen Bevooroordeelde Taal: Zorg ervoor dat de trainingsdata vrij zijn van bevooroordeelde taal die stereotypen over leeftijd, geslacht, etniciteit of andere persoonlijke kenmerken kan weerspiegelen of in stand houden. MD: hier geldt hetzelfde als onder punt 8 als aanvulling is gegeven.

2. Hoe belangrijk is datakwaliteit van cv’s voor de kwaliteit van een AI-model voor recruitment?

Een beetje een inkoppertje zou je denken, maar er is meer tussen hemel en aarde dan je in eerste instantie zou denken. De datakwaliteit van cv’s is essentieel voor de effectiviteit van AI-modellen in recruitment. Hier zijn enkele redenen waarom:

  1. Nauwkeurigheid van Matching: AI-modellen vertrouwen op data om kandidaten te matchen met vacatures. Als de data in cv’s (en/of vacatures) onvolledig, verouderd of inconsistent is, kan dit leiden tot onnauwkeurige matches.
  2. Training van AI-modellen: AI-algoritmen leren patronen te herkennen in de data waarmee ze getraind worden. Als deze trainingsdata (de cv’s) van lage kwaliteit zijn, leert het model mogelijk onjuiste of irrelevante patronen, wat resulteert in slechtere prestaties.
  3. Bias en Diversiteit: Slechte datakwaliteit kan leiden tot (versterking van) bias in AI-modellen. Bijvoorbeeld, als bepaalde groepen ondervertegenwoordigd zijn in de data of als bepaalde relevante informatie systematisch ontbreekt, kan het model bevooroordeeld raken. MD: Zie de punten 6 en 12 onder vraag 1.
  4. Gebruikerservaring: Voor een optimale gebruikerservaring is het belangrijk dat het AI-model relevante en accurate aanbevelingen doet. Slechte datakwaliteit kan leiden tot frustratie bij zowel recruiters als kandidaten.
  5. Besluitvorming: AI-modellen in recruitment kunnen besluitvorming ondersteunen. Als de onderliggende data van lage kwaliteit is, kunnen de beslissingen die hierop gebaseerd zijn suboptimaal zijn.

Genoeg over kwaliteit, ik denk dat heel wat leveranciers van AI-modellen binnen recruitment al wat wit om de neus zien. Maar er is meer, want privacy speelt in ons domein een bijna net zo’n grote rol als kwaliteit, ook al nemen de nodige partijen een loopje met de wetgeving op dit gebied.


3. Wat zijn de eisen waaraan een AI systeem moet voldoen om de privacy te garanderen als het wordt getraind met cv’s?

Bij het trainen van een AI-systeem met cv’s of kandidaatsprofielen waarbij privacy gewaarborgd dient worden (al was het alleen al vanwege wetgeving op dit gebied: GDPR/AVG), zijn er meerdere eisen waaraan voldaan moet worden:

  1. Anonimisering en Pseudonimisering: Persoonlijke identificeerbare informatie moet worden verwijderd of geanonimiseerd. Dit kan inhouden dat namen, adressen, telefoonnummers en andere direct identificeerbare gegevens worden vervangen door pseudoniemen of volledig worden verwijderd.
  2. Compliance met Privacywetgeving: Het systeem moet voldoen aan relevante privacywetten, zoals de GDPR in Europa (AVG in Nederland). Dit omvat aspecten zoals gegevensbescherming, toestemming voor gegevensverwerking en het recht van betrokkenen om te worden vergeten.
  3. Dataminimalisatie: Alleen de voor het doel noodzakelijke gegevens moeten worden gebruikt. Dit betekent dat alleen informatie die relevant is voor de taak van de AI (bijvoorbeeld het zoeken/matchen met vaardigheden) wordt verwerkt en opgeslagen.
  4. Veilige Gegevensopslag en -overdracht: Gegevens moeten veilig worden opgeslagen en overgedragen, met gebruik van encryptie en andere beveiligingsmaatregelen om ongeautoriseerde toegang te voorkomen.
  5. Transparantie en Uitlegbaarheid: Gebruikers moeten geïnformeerd worden over hoe hun gegevens worden gebruikt. Daarnaast moet het systeem uitlegbaar zijn, zodat duidelijk is hoe beslissingen worden genomen.
  6. Regelmatige Auditing en Monitoring: Het systeem moet regelmatig worden gecontroleerd om te zorgen dat het voldoet aan de privacy vereisten en om eventuele lekken of zwakheden te identificeren.
  7. Datalek Protocollen: Er moeten protocollen zijn voor het geval van datalekken, inclusief snelle melding aan betrokkenen en toezichthouders.
  8. Toestemming en Rechten van Betrokkenen: Individuen moeten toestemming geven voor het gebruik van hun gegevens, en ze moeten hun rechten kunnen uitoefenen, zoals het recht op inzage, correctie en verwijdering van hun gegevens.
  9. Ethische Overwegingen: Naast wettelijke vereisten moet het systeem ook voldoen aan ethische normen, zoals het vermijden van bias en discriminatie. MD: Zie de punten 6 en 12 onder vraag 1.

Deze eisen zorgen ervoor dat het gebruik van cv’s voor AI-training in overeenstemming is met privacy vereisten en de rechten van individuen respecteert.

En niet alleen de AI-leverancier dient hieraan te voldoen ook de afnemer dient zich ervan te vergewissen dat de leverancier hier daadwerkelijk aan voldoet en kan niet in de handen in onschuld wassen als blijkt dat de AI-leverancier nalatig is op één of meer van bovenstaande punten.

Daarenboven is er nog de privacy die gegarandeerd moet worden door de AI leverancier als er bij regulier gebruik kandidaatsgegevens worden ingevoerd/gebruikt. Dit staat dus los aan de eisen aan de trainingsdata en is minder omvattend maar niet minder stringent.

En dan nu het laatste onderdeel, de (toekomstige) wetgeving rondom AI-systemen. Een relatief nieuw gebied waarbij de EU voorop loopt maar waar nog geen wetgeving is geïmplementeerd. Het is voor een zichzelf respecterend AI-leverancier binnen het recruitment domein sterk aan te bevelen om al compliant te zijn met de komende wetgeving.

4. Wat zijn de eisen volgens de concept AI Act van de EU waaraan een AI-model moet voldoen om de privacy te garanderen als het wordt getraind met persoonsgegevens ten behoeve van recruitment doeleinden?

De Europese Unie heeft een concept “AI Act” voorgesteld, een wetgevend kader dat gericht is op het reguleren van het gebruik van kunstmatige intelligentie. Voor AI-modellen die getraind worden met persoonsgegevens voor recruitmentdoeleinden, stelt de AI Act specifieke eisen om de privacy te garanderen. Enkele van de belangrijkste eisen zijn:

  1. Risicoclassificatie: AI-modellen voor recruitment worden waarschijnlijk geclassificeerd als ‘hoog risico’ omdat ze significante gevolgen kunnen hebben voor individuen. Dit vereist strengere naleving van de regels.
  2. Gegevensbescherming en Privacy: AI-systemen moeten voldoen aan de bestaande gegevensbeschermingsregels, zoals de Algemene Verordening Gegevensbescherming (AVG). Dit houdt onder meer in dat persoonsgegevens alleen voor specifieke, expliciete en legitieme doeleinden mogen worden verwerkt. MD: zie hiervoor met name de punten onder vraag 3
  3. Transparantie: Gebruikers moeten geïnformeerd worden over het gebruik van een AI-systeem, de werking ervan, en de mogelijke impact op de besluitvorming. Dit geldt zowel voor werkgevers als sollicitanten.
  4. Menselijk Toezicht: Er moet voldoende menselijk toezicht zijn om ervoor te zorgen dat beslissingen gemaakt door AI-systemen eerlijk en rechtvaardig zijn. Dit helpt ook om eventuele fouten of biases te identificeren en corrigeren.
  5. Nauwkeurigheid en Robuustheid: AI-systemen moeten nauwkeurig en robuust zijn, met mechanismen om fouten, bias en inconsistenties te identificeren en te corrigeren.
  6. Documentatie en Recordkeeping: Ontwikkelaars en gebruikers van AI-systemen moeten uitgebreide documentatie bijhouden over de werking, training, en prestaties van het systeem. Dit is belangrijk voor audits en compliance checks.
  7. Impactbeoordeling: Voordat AI-systemen in gebruik worden genomen, moeten ze worden onderworpen aan een grondige impactbeoordeling. Dit moet de effecten op privacy, gegevensbescherming, en fundamentele rechten omvatten.
  8. Beveiliging: Er moeten adequate maatregelen zijn om de veiligheid van de gegevens te waarborgen en om ongeautoriseerde toegang of verwerking te voorkomen.

En dat was het. Een waslijst aan eisen waar leveranciers van recruitment AI-modellen aan moeten (gaan, in het geval van de AI Act ) voldoen, hoewel niet iedere eis even expliciet is gedefinieerd. Ik ben zeer nieuwsgierig naar alle opmerkingen, kanttekeningen, steunbetuigen, kritieken of wat er dan ook over dit verhaal valt te zeggen. Dus schroom alsjeblieft niet om te reageren.

Vervolgstappen
Ik ben voornemens om op basis van bovenstaande punten een compacte vragenlijst op te gaan stellen en deze vervolgens aan geselecteerde AI-leveranciers in het recruitment domein toe te sturen met het verzoek om deze op een zo kort mogelijke termijn naar waarheid te beantwoorden en aan mij retour te sturen.

Daarnaast ben ik van plan om een selectie van afnemers van die AI-modellen voor recruitment te bevragen op hun verantwoordelijkheid ten aanzien van privacy en AI Act. Dat wordt dus een kortere lijst, maar niet minder relevant.

En voor die tijd hoop ik met ter zake kundige kameraden een lijst van leveranciers van reruitment AI-modellen op te stellen, met per leverancier een lijst van afnemers. En vervolgens ga ik me suf mailen en herinneringen sturen. Ik kan niet wachten!

Van deze odyssee zal ik natuurlijk verslag doen op RecruitmentMatters, X(v/h Twitter) en LinkedIn

Motivatie
De werkzoeker is in mijn optiek op dit moment een kwetsbare databron waarop vrij mag worden gejaagd door eenieder met een commercieel belang. De werkzoeker is tegelijkertijd de meest kwetsbare entiteit binnen het recruitment domein. En hoewel privacy en bias-free heel makkelijk met de mond wordt beleden, is de praktijk waarschijnlijk een stuk weerbarstiger. En de werkzoeker kan een beetje hulp wel gebruiken. Toch?

Waarom ik deze Sysifus arbeid wil verrichten? Ach, het is zeer vergelijkbaar met mijn rol als eeuwige werkzoeker  waarbij ik al meer dan 15 jaar recruitment websites bezoek en laat zien wat de ux en usability gebreken zijn. In de hoop dat de werkzoeker in het vervolg een betere gebruikservaring heeft. Dus eigenlijk is dit hetzelfde, alleen met een ander onderwerp. En hopelijk worden werkzoekers hier ook beter van.

Wordt vervolgd

Geef een reactie

2 Comments
  • Marc Drees
    says:

    Ik denk dat het weleens heel interessant zou zijn als de wereld er een tijdje zo myopisch uit gaat zien als Dirk heeft geschetst in zijn “Werkzoekers slaan terug: job application automation” (https://recruitmentmatters.nl/2023/11/20/werkzoekers-slaan-terug-job-application-automation/). Mogelijk sluiten werkgevers hun datapoorten zo naadloos dat er geen cv (geen CV!) meer doorheen kan, en dat betekent een nieuwe start in een cv-loze wereld. Overigens is dit geen pleidooi voor een toekomst zonder cv’s, want daar geloof ik (voorlopig) niet in. Maar wel een pleidooi voor het respecteren van privacy-wetgeving, waar op dit moment nog erg veel recruitment bedrijven geen enkele boodschap aan lijken te hebben.

    Laat het nieuwe credo zijn:
    Geen actieve en ongedwongen toestemming van de kandidaat? Dan geen persoonsgebonden gegevens in de database.

  • Edwin
    says:

    Perfect dat je dit doet. 2 sidenotes:
    1. Linkedin claimt natuurlijk straks dat ze vrijwillig aan hen toegekende geuniformeerde “cv’s” heeft, ergo het Li-profiel van ‘de kandidaat’. Jij en ik weten dat daar een groot verschil in kan zitten met het echte CV, maar toch.
    2. Het CV van werkzoekers is nu al het meest misbruikte en niet avg-gedeelde en bewaarde stukje data dat het internet rondzwerft. Ik durf te wedden dat we van bijna elke nederlander zijn/haar cv wel ergens kunnen opduikelen, of in een mapje op een c-schijf staat. (verouderd that is, dus dat is de catch.)
    3. Ik blijf mn visie herhalen: de werkzoeker hoeft zijn CV niet meer te delen omdat hij zichzelf zal gaan bemiddelen (easy-apply via job application automation is al eerder hier genoemd), maar iedere werkzoeker z’n eigen botje die alle vacancies afstruint om de meest passende voor te schotelen. Het hoeft maar één-richtingsverkeer te zijn 🙂